Vyacheslav Tikhonov

Рейтинг
130
Регистрация
27.01.2001
Должность
Developer
Интересы
search engines, bots, information retrieval, data mining
Master's Degree in Computer Science
Следовательно, если все слова запроса являются ключевыми (а не просто незначащие прилагательные или глаголы), то больший приоритет редким словам должен давать лучший результат. Но это, как я уже заметил, не работает в случае, когда пользователь пишет запрос на естественном языке. Например, запрос "поисковики релевантность" (частоты в Яндексе 140503 и 19427) прекрасно отвечает требованиям алгоритма, но уже запрос "терминологическое понимание релевантности поисковиков" (частоты 48652, 1136643, 27526 и 199321) будет отрабатывать заметно хуже.

Если ввести этот запрос в Яндекс, получаем ровно 0 документов. Яндексу ведь нужна формальная релевантность, чтобы все ключевые слова из запроса были в одном документе. А если их нет, то любая поисковая машина загибается. Если же сделать меньший рейтинг самому частотному слову ("понимание") как не отражающему сути, в том же Яндексе получим 1 документ, более-менее релевантный.

Я думаю, вполне возможно подобрать какие-то экспериментальные параметры, при которых можно повышать рейтинг одних слов из запроса и не учитывать 100%-е вхождение других. Например, частоты важных слов меньше общих, скажем, на порядок.

Или это нереально?

Проскакивал тут недавно обзор по теме:

http://itc.ua/article.phtml?ID=9707

В тестовом режиме заработала новая система статистики Пинга, которая расширена несколькими достаточно полезными отчетами. Кроме того, добавлена перекодировка поисковых запросов из unicode и исправлены основные баги, из-за которых иногда пропадали некоторые запросы.

Как сейчас выглядит статистика, можно глянуть, к примеру, здесь:

http://www.topping.com.ua/cgi-bin/stat/pingstat.cgi?091001125209

Если есть какие-нибудь идеи, что здесь можно еще добавить или видите ошибки, сообщайте прямо в этом топике.

Всем спасибо за поздравления!

Будем и впредь стараться делать вещи действительно нужные, не забывая при этом обо всем новом и прогрессивном.

Originally posted by Mambur:
А вообще кто-нибудь сталкивался с прогами лексоанализа.
Должны быть шаровые под Unix.

[This message has been edited by Mambur (edited 26-04-2002).]

ispell-rus, например

Алгоритмы еще можно глянуть здесь:

Поиск ключевых слов обновлен и сейчас содержит запросы к Пингу за период с 01.09.2001 по 17.04.2002:

Общая статистика:

Всего запросов: 2186583

Уникальных 490956 запроса

Однословные - 28%

Два слова - 36%

Три слова - 19%

Четыре слова - 8%

Пять слов - 3%

Шесть и более - 3%

Всех, конечно, на платную основу сразу не берут - сначала нужно доказать, что претендент в состоянии отвечать на поставленные вопросы. Да и в самой заявке на участие нужно еще умудриться растолковать, почему ты хочешь стать Исследователем, притом на чистом английском (говорят, что к этому сильно придираются .

Любопытно, получится ли что-нибудь из этого сервиса

[This message has been edited by Vyacheslav Tikhonov (edited 21-04-2002).]

К сожалению, вслед за Google пойдут и остальные. Похоже, что метапоисковое направление вообще скоро исчезнет как таковое.

Originally posted by Sergu:
Все сортировки как работали, так и работают,
база где лежала, там и лежит :-)

Старый List:

>traceroute list.mail.ru

...

10 194.186.157.249 (194.186.157.249) 606.214 ms 598.984 ms 600.251 ms

11 194.186.157.82 (194.186.157.82) 599.693 ms 599.519 ms 599.922 ms

12 host1.list.ru (194.67.23.224) 603.187 ms 607.890 ms 626.261 ms

Новый List:

>traceroute search.mail.ru

...

18 m9-3-GE4-0-0-vl10.Demos.net (194.87.0.66) 820.494 ms 829.268 ms 828.744 ms

19 Rambler-Demos-100M.Moscow.LL.Demos.net (195.133.62.229) 821.832 ms 822.032 ms 819.127 ms

20 NP-6009.core.rambler.ru (217.73.194.6) 820.201 ms 824.247 ms 822.286 ms

В новом (рамблеровском) осталась возможность сортировать только по дате и запросу.

Всего: 847