- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
VK приобрела 70% в структуре компании-разработчика red_mad_robot
Которая участвовала в создании RuStore
Оксана Мамчуева
Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ
Экспертная оценка Адмитад
Оксана Мамчуева
Конечно есть, прогер только нужен. Тоже мне бином ньютона.
У меня тоже есть, и прогер то там не особо нужен, просто интересно что скажет купечество. А то оно шибко умное.
Не быстрое, но кардинальное- разные сайты под Яндекс и под Гугл.
Это дорогое удовольствие, задача ограничена бюджетом.
---------- Добавлено 06.06.2018 в 07:33 ----------
Специалист, который не понимает, что LSI - единственный, в общем и целом, способ для робота связать кучу непонятных ему слов в один общий смысл - это плохой специалист, имхо. А который ничего не может объяснить при этом - подавно))
Это кто у нас тут чего не понимает? сейчас мы его на партсобрание вызовем, пропесочим и вкатаем выговор!
Про LSI нубы начали нести свет в массы только после конфы яндекса, как некое сакральное знание. До нее они про это и знать не знали.
Если в сео хорошие результаты, то какая разница зубрил ты или опирался на многолетний опыт. Это все не важно.
Важно только то, что мы не знаем, как парсить всю эту историю для большого объема и это печально.
вообще-то, не единственный и не самый простой ;)
можно понять о чём текст имея только 1 текст, а не целый корпус обработанных текстов в обучающей выборке, причём чем больше текст тем точнее его разбор ;)
Каким образом? Я знаком в общих чертах с принципом работы нейросетей, и вы, думаю, тоже. Самообучение требует большого разнообразия данных, согласны? Как человек поймет, о чем книга, если она будет на клингонском, а он, к тому же, никогда ничего до этого не читал? Все познается в сравнении.
Я считаю, что LSI очень сильно влияет на выдачу. Конечно, оно не решает, потому что есть заголовки, ссылки и т.д.(тоже тематику задают), но релевантность самого контента - это его заслуга, и только его. Никаким другим способом, кроме как путем построения терм-документной матрицы, невозможно точнее определить тематическую принадлежность текста. Разве что на кофейной гуще погадать )
Ну это опять таки всего лишь мое скромное мнение. Если у кого-то есть конструктивное опровержение, с удовольствием выслушаю 🍿
Cepreu, способов много, LSI используется для более широкой выборки документов из базы для их последующего ранжирования - это как раз оправдано
а вот прямой цели ранжировать документы по смыслу нет, да и не требуется этого ;)
P.S. возьмите любой текст, разбейте его на шинглы длиной количество слов в запросе +1
составьте биграмы/триграмы/ методом каждый с каждым из слов шингла, приведите полученный и n-грамы к начальным словоформам и посчитайте их частотность(без учёта порядка лем) - топ 10 частотностей даст вам полное представление о тексте
+ при сравнении разных текстов таким способом можно получить достаточно интересную информацию
Cepreu, способов много, LSI используется для более широкой выборки документов из базы для их последующего ранжирования - это как раз оправдано
а вот прямой цели ранжировать документы по смыслу нет, да и не требуется этого ;)
P.S. возьмите любой текст, разбейте его на шинглы длиной количество слов в запросе +1
составьте биграмы/триграмы/ методом каждый с каждым из слов шингла, приведите полученный и n-грамы к начальным словоформам и посчитайте их частотность(без учёта порядка лем) - топ 10 частотностей даст вам полное представление о тексте
+ при сравнении разных текстов таким способом можно получить достаточно интересную информацию
Это верно, я так и делал, только еще подсчитывал общее количество слов из текстов всего топа - картинка получается еще интересней, а если провести данные манипуляции с гуглом и майлом например и сравнить все три результата - то картинка вообще очень интересная !!!
Ну что могу добавить, LSI работает - только нужно уметь пользоваться !! Вчера проверил позиции по экспериментальной статье которую описывал в этой теме, сегодня тоже проверил - статья заняла второе место по высокочастотному запросу после википедии обойдя такие сайты как fb.ru, syl.ru (про персональную выдачу знаю - ее нет). Что сказать, есть мысль по поводу разработки софта для LSI. Кстати добавлю момент - статья держится особняком - она абсолютно не в тему основного сайта на котором расположена - и это ей не мешает висеть в топе !!! (интересный факт)
Подниму тему:)
для им самым популярным будет руб - по любому запросу
Ну да, а в этом топике на 1 странице: kuzmin kmy и miha kuzmin 😂
[Интро]
Так чта, может быть, скоро без упоминания miha kuzmin вы в топ по "Как массово собрать LSI ключи" не войдете. (TOP1 Ya - /ru/forum/993454 )
Но нет, внутренний голос подозревает, что если искать "Как массово собрать LSI ключи miha kuzmin" никто не будет, не парьтесь😂
[/Интро]
Или так:
Поэтому, сравнение с одним документом лишено смысла. Тут или 0-х граммы пресекающиеся по документам топа, или взятые из корпуса слов, например ТОП 10/20/30, обработанные как то вместе в вордстатом и еще чем то *. Но и тут, искусственного интеллекта ждать не приходится. "10 первых по частотности" не катит. Море мусора и на 121 месте и по логике, и вордстату вполне себе "термин, без которого тема раскрыта не полно"🍿
Таким образом задача - убрать мусор и не пропустить нужный термин.
Может, эта, просто цифры из текста не удалять☝
тогда получится "250 руб", "руб 350", "350 руб" и в частотные не попадут. Да и КАМАЗ 6520 не потеряется...
* А может и в комплексе со словами:
Это для https://www.reg.ru/domain/new/ Прям, сейчас. Завтра может быть по другому. Отсюда идея - 5 разных вариантов и тем, что есть везде, как то вес увеличить.
Marat_Kh, вы ошиблись и не внимательно прочитали что я написал ;)
1.
kuzmin kmy
собрать lsi
подробн зон
....
таких биграм м быть не должно - это так сразу на скидку ;)
2.
Поэтому, сравнение с одним документом лишено смысла
а ни кто сравнивать документ сам с собой не предлагал - для понимания о чём текст достаточно одного документа, для этого не нужен корпус документов ;)
Может, эта, просто цифры из текста не удалять
надо - выдача по цифрам строиться на других принципах
очень показательна выдача по номерам телефонов/гостам
таких биграм м быть не должно - это так сразу на скидку ;)
вы имеете ввиду нужно анализировать буквенные n-граммы ?
таких биграм м быть не должно - это так сразу на скидку ;)
Почему? "Служебные области" документа? Может и не должно, но Яндекс вполне себе ищет по "подробн зон" анализируемый документ (картинко-скрин). С тем, что мусор из текста удалять надо качественнЕй, вполне согласен. По результату анализа документа с этого форума "посмотреть профиль|найти сообщения|регистрация:([0-9\. ]+)" и т.д. добавлены в stopwords_pattern
а ни кто сравнивать документ сам с собой не предлагал - для понимания о чём текст достаточно одного документа, для этого не нужен корпус документов ;)
Судя по всему у нас разные задачи. У меня такая - собрать по запросу все (максимум) "термины, без которых тема раскрыта не полно". Задача понять о чем документ, остро пока не стоит. Да и судя по ответам, всех интересует как, на запрос "слоны", получить внятный план:
Раскрой "ТТХ слонов", "отзывы о слонах", "фото слонов", "розовые, зеленые, красные слоны", "цены на слоны", "классификацию бивней", "цветовую гамму ушей", "размер яиц хобота", "мамонты волосатые". И будет тебе счастье:) Желательно с численными характеристиками для справки: "мамонты волосатые" частота (%/абс): мин/мах/средн по топ-х и т.д.
>>Может, эта, просто цифры из текста не удалять
надо - выдача по цифрам строиться на других принципах
очень показательна выдача по номерам телефонов/гостам
А, как, например, с такими запросами:
маз 6430, маз 5432, маз 6303, маз-5516, камаз 5410, маз 5440, маз-6440, камаз 54115, маз 5551, маз-500
И, да, тогда миритесь с руб руб
Я почему сюда влез? Некоторые моменты еще непонятны😕
Пока, имею:
1. Ключи. Например:
опять цифры в биграммах🙄 Алгоритм немного другой "все-со-всеми"
2. Топ по ключу (яХмл) с аналогично обработанными данными - ровно тот же алгоритм обрабатывающий документы кушает сниппеты. + подсветки, какие есть.
3. Данные по документам топ-х (пример куска данных в сообщении)
4. Корпус всех слов документов ТОП-х
По п.3 смотрим пересечение по запросу => список, который обрабатывается совместно с п.1 => результат
другой вариант:
По п.4 список, который обрабатывается совместно с п.1 => результат (чаще, чуть шире чем по предыдущему варианту)
Но, понятно, что по п.1 не все запросы есть. Поэтому, если ручками перебираешь, не фильтрованные данные, например корпуса слов документов ТОП-20, чаще всего хочется включить и "это", и это тоже вроде "катит" :( А надо максимум
Отсюда вопросы:)
1. пересечение в документах по запросу в топ или из корпуса всех слов топа?
2. был бы признателен за ссылки на разного рода списки стоп-слов/фраз/регулярок
3. вес биграммы для запроса = F(частота/s?freq в списке ключей, частота в сниппетах yaXML по запросу, пересечение в документах по запросу в топ, что то еще)