- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Подскажите, плз, что Яндекс понимает под "похожими документами" (урлА типа http://www.yandex.ru/yandsearch?rpt=rad&ds=http://--- под каждой статьей)?
Каков алгоритм их отбора и ранжирования??
Смотрите здесь и здесь.
Там, конечно, не все, но можно догадаться, как они это делают.
Нет, это совсем не про это. А это статьи про удаление дублей и определение стиля. Я не уверен до деталей насчет яндекса, но обычно просто расширяют запрос наиболее "тяжелыми" (в некотором статистистическом смысле) словами и фразами из этого документа.
То есть составляют поисковый образ документа.
Некоторые детали об этом образе и описаны в тех статьях, которые я привел. Первая статья о том, как отсеть "почти" дубли - они разве не входят в список "похожих документов"? Вторая, относящаяся к классификации документов, тоже имеет интересные моменты.
Хотя, конечно, Яндексу виднее. :)
Я не уверен до деталей насчет яндекса, но обычно просто расширяют запрос наиболее "тяжелыми" (в некотором статистистическом смысле) словами и фразами из этого документа.
Все верно, Слава чуть-чуть не дошел до нужной статьи. :)
-------
Поиск похожих документов.
Сейчас реализована очень простая схема поиска похожих документов, основанная на применении нечеткого поиска. Эта схема, тем не менее, вполне удовлетворительно работает в большинстве случаев.
При запросе на поиск похожего документа документ скачивается, выбираются несколько (12) терминов, из них составляется запрос с использованием операции нечеткого поиска.
Принцип отбора терминов для "поискового образа" документа:
Используется функция "контрастности" термина, применяемая в Яндексе при обычном поиске, но в несколько модифицированном виде.
Поведение исходной функции "контрастности" термина: чем чаще термин встречается в документе, и чем реже - во всей коллекции документов, тем выше контрастность термина для документа.
Такая функция "контрастности" для поиска по образцу не годится, поскольку она зачастую выбирает термины, встречающиеся только в этом и, возможно, в нескольких других документах. Как правило, это либо редкие имена собственные и сокращения и т.п, либо опечатки или грамматические ошибки.
Ясно, что если искать документы по таким терминам, то мы скорее всего найдем лишь сам документ-образец, и, возможно, несколько документов того же автора и с такими же грамматическими ошибками либо опечатками.
Поправка функции "контрастности" термина состоит в подавлении слишком редких терминов.
-------
С уважением,
Александр Садовский.
Два вопроса по статье:
1. что такое "словарь, передставленный в виде бора"?
2.
- как СЕЙЧАС пользователь Яндекса может осуществлять такое "наложение"?
1. что такое "словарь, передставленный в виде бора"?
Бор -- структура данных. Поищите по запросу [бор trie]
http://www.yandex.ru/yandsearch?text=%E1%EE%F0+trie&stype=www
Для этого достаточно заключить запрос в круглые скобки, а в конце поставить два слеша и число от 0 до 100, "приклеенное" к слешам. Например:
(структуры & данных && trie)//0
С уважением,
Александр Садовский.
В результатах, выдаваемых Яндексом, "под чертой" идут статьи с меткой "нестрогое соответствие".
Правильно ли я понимаю, что это как раз и есть результаты нечеткого поиска?
Если да, то они, - наверное, - отранжированы в соответствии с "мерой нечеткости"??