Илья, Вы сильно преувеличиваете насчет уникальности форума "Где найти". (Для тех, кто не знает: http://forum.yandex.ru/?forum=167 .) Я сходу могу назвать:
1) форумы ru.internet.search, ru.internet, ru.internet.www и десяток других, доступных через talk.ru и подобные службы;
2) службы бесплатной помощи в поиске, вроде:
http://www.internethelp.ru
http://www.webhelp.com/home
3) http://www.newservise.com/, там тоже есть форум;
4) службы вопросов экспертам, например:
http://www.askanexpert.com/
http://www.znatok.ru/
Так что увы, но уникальным является как раз форум, где отвечают разработчики.
С уважением, Александр Садовский.
Могу согласиться только в том, что избыточным является предлагаемое к проверке количество документов. По одной из оценок, более 57% пользователей ограничиваются top-10 ссылок, не идя дальше первой страницы с результатами поиска, и более 90% просматривают 3 или менее страниц. Следовательно, раз Игорь и г-н Харин в методике решили охватить массовые нужды пользователей с помощью самых популярных запросов, логичным было бы и остановиться на двух популярных множествах документов -- 10 и 30.
Все остальное в методике, мне кажется, обосновано и приведено с целью избежать двусмысленностей и субъективного толкования.
Что бы я изменил в методике.
1. Если оставить неизменным набор исследуемых множеств документов (10, 30, 50, 70, 100), я бы изменил рекомендуемые веса элементов. Вместо предлагаемого (5, 4, 3, 2, 1) лучше применить веса, соответствующие популярности множества документов у пользователей. Например, (57, 25, 8, ...).
2. При оценке релевантности множества документов, которое превышает по объему минимальное рассматриваемое множество, имеет смысл оценивать релевантность только разницы исследуемого множества и предыдущего по объему. Например, при исследовании релевантности множества в 30 документов, когда уже проведено исследование множества в 10 документов, имеет смысл учитывать релевантность документов с 11 по 30. Почему? Поиск, целью которого является максимальная полнота охвата какой-то тематической области, встречается крайне редко. Следовательно, если пользователь дошел до 3-й страниц поиска, значит первые 20 ссылок оказались нерелевантны.
Согласен. Правда, наиболее интересные исследования Лоуренса и Гиля, которые отражали и полноту охвата поисковиков, содержали 575 запросов (1998 год) и 1050 (1999), что повторить довольно затруднительно. А если ограничиваться 25 запросами, то нужно существенно сужать тематическую область. И тогда нельзя гарантировать, что результаты поиска в этой области будут отражать работу поисковика в целом.
В любом случае, следует решить, определение какой релевантности преследует методика. В варианте, предложенном Ашмановым и Хариным, это релевантность, с которой сталкивается большинство пользователей при обычной работе с искалкой (популярные запросы). Возможен вариант, предложенный Вами: поиск непопулярной или редкой информации обычным пользователем. Существует и третий случай: исследование того, что можно выудить из поисковой системы, имея словесную формулировку запроса. По сути, это релевантность по оптимально составленному запросу. К сожалению, этот вариант подразумевает профессиональное знание языка запросов и тематической области, в которой производится поиск, а также беспристрастность исследователя (с последним можно справиться, предложив улучшить запрос сотрудникам каждого из поисковиков).
Дельное замечание. У большинства пользователей поисковиков есть явные симпатии к одному-двум из них, и Ваше предложение -- хороший способ их нивелировать.
Это касается не только "документной выдачи". При сравнении Апорта с Яндексом придется применять в Яндексе вместо используемого "по умолчанию" поиска внутри предложений поиск внутри документов. Таких особенностей будет немало, и перед началом тестирования, Вы правы, необходимо их систематизировать.
1. Опрос о том, какими системами я пользуюсь с возможностью выбрать только одну выглядит странным.
2. Дизайн еще нужно много дорабатывать.
3. Строку "Сообщил..." в новостях лучше перенести на следующую строчку.
4. Разбивка статей на куски (я имею в виду статью о LP) выглядит одиозным и напоминает ужимки проектов Клименко с целью увеличения баннеропоказов. Можно сделать то же самое, но более аккуратно: поместив в начале текста оглавление. Это, во-первых, покажет, о чем идет речь. Во-вторых, облегчит поиск важной для конкретного посетителя информации. В-третьих, избавит от мысли о попытка повысить баннерный трафик.
5. В третьей части статьи про LP стоит ссылка "Далее" на ту же третью часть.
Каким ты хочешь видеть в конечном счете этот сайт? Популярным источником информации о поисковых системах; научным трудом, описывающим алгоритмы и методы поиска; энциклопедией раскрутки с помощью поисковиков; чем-то еще?
А вот тут настает время произнести заклинание: RTFM!
=== Cut ===
Двойные или одинарные кавычки позволяют находить словосочетание, указанное в них, или близкое к нему. Последняя оговорка связана с двумя обстоятельствами. Во-первых, стоп-слова в кавычках игнорируются, как и в обычном запросе. Во-вторых, грамматическая форма слов также кавычками не фиксируется. Пример: по запросу "яблоки на снегу" будут найдены документы, содержащие следующие фрагменты: "яблоки на снегу", "яблоки и снег", "яблокам под снегом", "яблоко снег" и т.п.
Так что с этим у Апорта все в порядке.
Фразу Апорт ищет только тогда, когда ты задаешь слова в кавычках. Вот так: "Форум о поисковых системах". (Можно также задать расстояние между словами.) В остальных случаях он объединяет входящие в запрос слова по схеме "И".
С мамонтом ситуация интересная. Похоже, это просто глюк Апорта, потому что "Реконструкция текста" дает заголовок сайта http://www.unipack.ru/index.html , содержащего в title слова "информационно - поисковая система". То есть сайт про мамонтов каким-то образом "перепутался" с сайтом unipack.
Что касается выдачи в результатах поиска ссылок на документы, которые не содержат все слова из указанных, то, похоже, это аналог имеющегося в Яндексе поиска с "нестрогим соответствием". С той лишь разницей, что Яндекс позволяет запретить "нестрогость", а Апорт нет.
На фразу "Форум о поисковых системах" Апорт выдал только один сайт. Этот же форум еще не проиндесирован, что нетрудно обнаружить http://sm.aport.ru/scripts/template.dll?r=url%3Dwww%2Ebesplatno%2Eru&id=104514829&That=std&Site=2&SiteID=1503943&Rt=3&HID=3 , прочтя фразу "документ найден по ссылке", а также увидев, что отсутствует ссылка "Реконструкция текста".
А поиск по фразе -- он есть и нормально работает.
Присоединяюсь к поздравлениям.
А может, и не получили бы. Увы, из 28 вопросов, заданных за последние 30 дней, 12 еще без ответа (см. http://forum.yandex.ru/?forum=188 ). Причем на некоторые вопросы ожидать ответа приходилось почти три недели.
Я вовсе не ругаю Яндекс, потому что подобная инициатива у того же Апорта, едва родившись, сразу заглохла на корню. У Рамблера, за исключением личных усилий Игоря Ашманова (за что ему большое спасибо), я вообще не встречал попыток общения с пользователями. Так что Яндекс в этом направлении работает относительно неплохо. Но оперативность ответов и количество данных ответов пока еще далеки от идеала.
Судить о том, квалифицированно ищет поисковик или нет, можно только определив область запросов. Научные запросы отличаются от популярных не меньше, человек от обезьяны. Аналогично, в любой из областей конкретный поисковик может оказаться более эффективным.
А зачем тебе маленький поисковик? Купить хочешь?
Судя по результатам поиска, YEP тоже поисковик, но очень плохой. Половина выдаваемых документов содержат мешанину из JavaScript/тэгов html, что говорит о недостаточно качественном выделении текстовой части страниц для последующей индексации.