- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Переиграть и победить: как анализировать конкурентов для продвижения сайта
С помощью Ahrefs
Александр Шестаков

VK приобрела 70% в структуре компании-разработчика red_mad_robot
Которая участвовала в создании RuStore
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Вопрос собственно в чем. Разбив запрос пользователя на отдельные термы и определив их частоту, можно выдвинуть гипотезу о том, что в этом запросе более редкие слова точнее характеризуют то, что нужно пользователю.
Например, берем запрос
http://ya.ru/yandsearch?text=%F0%E0%F1%EA%F0%F3%F2%EA%E0+%F1%E0%E9%F2%E0+%E2+%EF%EE%E8%F1%EA%EE%E2%E8%EA%E0%F5&rpt=rad (раскрутка сайта в поисковиках).
Яндекс дает следующую статистику:
раскрутка: 501357, сайта: 36593150, в: 605867218, поисковиках: 207446
Согласно гипотезе наибольший приоритет здесь могут получить ключевые слова "раскрутка" и "поисковики" как слова, у которых частота на 2 с лишним порядка ниже частоты слова "сайт" (предлог "в" согласно второму закону Зипфа не учитывается).
Следовательно, логично было давать документам, в которых встречаются слова "раскрутка" и "поисковики" без "сайт" рейтинг больше, чем, скажем, для документов со словами "раскрутка" и "сайт" без слова "поисковики".
Можно ли как-то теоретически обосновать выдвинутую гипотезу или это чистая эвристика?
Насколько я знаю сейчас в поисковых системах работает алгоритм близкий к этому для определения самой релевантной странице на сайте, только учитвается кол-во поисковых слов не во всех документах поисковой базы, а именно на страницах данного сайта.
Вес слова в документе определяется как
P=(частота слова в документе)* Ln (общее кол-во документов/кол-во документов со словом)
Ln (кол-во документов со словом/общее кол-во документов) - так называемая инверсионная частота.
Чем она больше, то есть чем больше есть страниц на сайте с данным словом, тем вес слова в документе меньше.
Естественно это справедливо только для неоднословных запросов.
Можно ли как-то теоретически обосновать выдвинутую гипотезу или это чистая эвристика?
Думаю, что есть и обоснование гипотезы. По крайней мере, интуитивно понятно, что с увеличением выборки документов, которые содержат нужное слово, падает процент релевантных документов. Чем больше частота слова, тем, как правило, больше число контекстов, в которых оно встречается. А пользователь ищет только один контекст.
Следовательно, если все слова запроса являются ключевыми (а не просто незначащие прилагательные или глаголы), то больший приоритет редким словам должен давать лучший результат. Но это, как я уже заметил, не работает в случае, когда пользователь пишет запрос на естественном языке. Например, запрос "поисковики релевантность" (частоты в Яндексе 140503 и 19427) прекрасно отвечает требованиям алгоритма, но уже запрос "терминологическое понимание релевантности поисковиков" (частоты 48652, 1136643, 27526 и 199321) будет отрабатывать заметно хуже.
С уважением,
можно проверить это на примере сайтов находящих в поисковиках - разделив сайты на тематические и каталоги.
кстати, почему по запросу "бизнес" и "бизнес бизнес" результаты практически на всех машинах разные ? это же как искать масло и масло масленное ... хотя и в этом есть плюс - это путь к определению математики посковой машины ...
кстати, почему по запросу "бизнес" и "бизнес бизнес" результаты практически на всех машинах разные ? это же как искать масло и масло масленное ... хотя и в этом есть плюс - это путь к определению математики посковой машины ...
А меня просто бесит что разные результаты по запросам "баден" и "баден баден". Понятно, что города разные, но! по первому запросу он выдает именно про тот Баден-Баден, который в Германии! 😡
Если ввести этот запрос в Яндекс, получаем ровно 0 документов. Яндексу ведь нужна формальная релевантность, чтобы все ключевые слова из запроса были в одном документе. А если их нет, то любая поисковая машина загибается. Если же сделать меньший рейтинг самому частотному слову ("понимание") как не отражающему сути, в том же Яндексе получим 1 документ, более-менее релевантный.
Я думаю, вполне возможно подобрать какие-то экспериментальные параметры, при которых можно повышать рейтинг одних слов из запроса и не учитывать 100%-е вхождение других. Например, частоты важных слов меньше общих, скажем, на порядок.
Или это нереально?
Идея алгоритма хороша (думаю, что поисковики работают примерно так), но, как всегда, ее нужно доводить.
Вот пример:
чистая вода в водопроводе
чистая: 3114222, вода: 13589857, в: 583801901, водопроводе: 98937,
релевантных документов наверху достаточно.
удалим самые частотные "в", "вода"
остается чистый водопровод и релевантные документы практически исчезают.
Возможно, это связано с тем, что элементом языка являются не только слова, но и устойчивые словосочетания.
Другое соображение:
слово с опечаткой будет, естественно, самым низкочастотным словом в запросе (предположим, есть такие документы). Но нельзя же на него ориентироваться при ранжировании запроса.
Значит, правило изменения веса слов должно носить не вполне монотонный характер.
чистая вода в водопроводе
чистая: 3114222, вода: 13589857, в: 583801901, водопроводе: 98937,
релевантных документов наверху достаточно.
удалим самые частотные "в", "вода"
остается чистый водопровод и релевантные документы практически исчезают.
Возможно, это связано с тем, что элементом языка являются не только слова, но и устойчивые словосочетания.
Не совсем так. Я полагаю, подобное ранжирование нужно применять только к существительным как к потенциальным ключевым словам. Поэтому в данном запросе слово водопровод (56088 документов) будет характеризовать именно контекст, в котором нужно искать остальные введенные в запросе слова. Ведь любой документ без слова "водопровод", но с чистой водой (109462 документов), уже нерелевантен, не так ли?
Что же касается словосочетания "чистая вода", его должны вытянуть алгоритмы, определяющие расстояние между словами, но с меньшим рейтингом, нежели для водопровода.
слово с опечаткой будет, естественно, самым низкочастотным словом в запросе (предположим, есть такие документы). Но нельзя же на него ориентироваться при ранжировании запроса.
Значит, правило изменения веса слов должно носить не вполне монотонный характер.
Не совсем согласен. Если пользователь вводит запрос с ошибками, то в любом случае, какого бы высокого качества не была система, вероятность найти нужную информацию минимальна. Следовательно, и данный алгоритм здесь ничего не сможет испортить.
Не совсем так. Я полагаю, подобное ранжирование нужно применять только к существительным как к потенциальным ключевым словам. Поэтому в данном запросе слово водопровод (56088 документов) будет характеризовать именно контекст, в котором нужно искать остальные введенные в запросе слова. Ведь любой документ без слова "водопровод", но с чистой водой (109462 документов), уже нерелевантен, не так ли?
Что же касается словосочетания "чистая вода", его должны вытянуть алгоритмы, определяющие расстояние между словами, но с меньшим рейтингом, нежели для водопровода.
О чем тут спорить? Повторюсь, что есть неплохая идея алгоритма. Черт, как всегда, прячется в деталях.
В данном случае ясно, что со словосочетаниями ситуация сложнее (их нужно "вытягивать", усложняя алгоритм). Правда, остается еще, как минимум, задачка, как отделить эти словосочетания от простых "существительных", для которых алгоритм работает.
Не совсем согласен. Если пользователь вводит запрос с ошибками, то в любом случае, какого бы высокого качества не была система, вероятность найти нужную информацию минимальна. Следовательно, и данный алгоритм здесь ничего не сможет испортить.
Так мы же говорим о достаточно длинном запросе, в котором ранжируем слова "по важности" для определения релевантных документов. Т.е. предполагается, что в запросе информация явно в избытке.
Чтобы далеко не ходить за примером, можно чуть изменить предыдущую фразу "чистая вода внтри водопровода".
Согласно данному алгоритму мы наибольший вес присваиваем словам, которые встречаются наименьшее количество раз. Очепятки как раз и являются примером таких слов, вообще говоря, они ничем не хуже "нормальных", но неизвестных словарю русского языка (aka Зализняку, академическому или расширенному) слов. Часто и документов с такими словами достаточно, если опечатка типичная, хотя в данном случае это и не так важно. Важно, что они малочастотны и неважны (а часто вредны) для смысла запроса.
Так что закон, работающий с обычными словами, должен работать и с опечатками.