funsad

Рейтинг
116
Регистрация
15.11.2000

<font face="Verdana" size="2">Originally posted by iseg:
Зато рядом живет форум "где найти" и там десятки писем в день, причем все (или почти все) с ответами. Такая служба - совершенно точно - уникальная (есть аналоги но платные).</font>

Илья, Вы сильно преувеличиваете насчет уникальности форума "Где найти". (Для тех, кто не знает: http://forum.yandex.ru/?forum=167 .) Я сходу могу назвать:

1) форумы ru.internet.search, ru.internet, ru.internet.www и десяток других, доступных через talk.ru и подобные службы;

2) службы бесплатной помощи в поиске, вроде:

http://www.internethelp.ru

http://www.webhelp.com/home

3) http://www.newservise.com/, там тоже есть форум;

4) службы вопросов экспертам, например:

http://www.askanexpert.com/

http://www.znatok.ru/

Так что увы, но уникальным является как раз форум, где отвечают разработчики.

С уважением, Александр Садовский.

<font face="Verdana" size="2">Originally posted by iseg:
Во-первых, на мой взгляд, методика чрезмерно переусложнена.</font>

Могу согласиться только в том, что избыточным является предлагаемое к проверке количество документов. По одной из оценок, более 57% пользователей ограничиваются top-10 ссылок, не идя дальше первой страницы с результатами поиска, и более 90% просматривают 3 или менее страниц. Следовательно, раз Игорь и г-н Харин в методике решили охватить массовые нужды пользователей с помощью самых популярных запросов, логичным было бы и остановиться на двух популярных множествах документов -- 10 и 30.

Все остальное в методике, мне кажется, обосновано и приведено с целью избежать двусмысленностей и субъективного толкования.

Что бы я изменил в методике.

1. Если оставить неизменным набор исследуемых множеств документов (10, 30, 50, 70, 100), я бы изменил рекомендуемые веса элементов. Вместо предлагаемого (5, 4, 3, 2, 1) лучше применить веса, соответствующие популярности множества документов у пользователей. Например, (57, 25, 8, ...).

2. При оценке релевантности множества документов, которое превышает по объему минимальное рассматриваемое множество, имеет смысл оценивать релевантность только разницы исследуемого множества и предыдущего по объему. Например, при исследовании релевантности множества в 30 документов, когда уже проведено исследование множества в 10 документов, имеет смысл учитывать релевантность документов с 11 по 30. Почему? Поиск, целью которого является максимальная полнота охвата какой-то тематической области, встречается крайне редко. Следовательно, если пользователь дошел до 3-й страниц поиска, значит первые 20 ссылок оказались нерелевантны.

<font face="Verdana" size="2">Распределение запросов такое, что "хвосты" откидывать нельзя. [...] Я бы выбрал фиксированный набор запросов (небольшой) из средней части спектра. Интересных запросов, наподобие 25-ти Лоуренса и Гиля из каой-нибудь одной области знания.</font>

Согласен. Правда, наиболее интересные исследования Лоуренса и Гиля, которые отражали и полноту охвата поисковиков, содержали 575 запросов (1998 год) и 1050 (1999), что повторить довольно затруднительно. А если ограничиваться 25 запросами, то нужно существенно сужать тематическую область. И тогда нельзя гарантировать, что результаты поиска в этой области будут отражать работу поисковика в целом.

В любом случае, следует решить, определение какой релевантности преследует методика. В варианте, предложенном Ашмановым и Хариным, это релевантность, с которой сталкивается большинство пользователей при обычной работе с искалкой (популярные запросы). Возможен вариант, предложенный Вами: поиск непопулярной или редкой информации обычным пользователем. Существует и третий случай: исследование того, что можно выудить из поисковой системы, имея словесную формулировку запроса. По сути, это релевантность по оптимально составленному запросу. К сожалению, этот вариант подразумевает профессиональное знание языка запросов и тематической области, в которой производится поиск, а также беспристрастность исследователя (с последним можно справиться, предложив улучшить запрос сотрудникам каждого из поисковиков).

<font face="Verdana" size="2">Кроме того, необходимо отделить процесс поиска от процесса оценки результатов, так, чтобы оценивающий не знал от какого поисковика какие результаты.</font>

Дельное замечание. У большинства пользователей поисковиков есть явные симпатии к одному-двум из них, и Ваше предложение -- хороший способ их нивелировать.

<font face="Verdana" size="2">Еще одно важной замечние: нужно сравнивать такие варианты выдачи искалок, которые ближе по принципам формирования.</font>

Это касается не только "документной выдачи". При сравнении Апорта с Яндексом придется применять в Яндексе вместо используемого "по умолчанию" поиска внутри предложений поиск внутри документов. Таких особенностей будет немало, и перед началом тестирования, Вы правы, необходимо их систематизировать.

С уважением, Александр Садовский.

<font face="Verdana" size="2">Originally posted by Gray:
Комментарии принимаются, но не учитываются .</font>

1. Опрос о том, какими системами я пользуюсь с возможностью выбрать только одну выглядит странным.

2. Дизайн еще нужно много дорабатывать.

3. Строку "Сообщил..." в новостях лучше перенести на следующую строчку.

4. Разбивка статей на куски (я имею в виду статью о LP) выглядит одиозным и напоминает ужимки проектов Клименко с целью увеличения баннеропоказов. Можно сделать то же самое, но более аккуратно: поместив в начале текста оглавление. Это, во-первых, покажет, о чем идет речь. Во-вторых, облегчит поиск важной для конкретного посетителя информации. В-третьих, избавит от мысли о попытка повысить баннерный трафик.

5. В третьей части статьи про LP стоит ссылка "Далее" на ту же третью часть.

Каким ты хочешь видеть в конечном счете этот сайт? Популярным источником информации о поисковых системах; научным трудом, описывающим алгоритмы и методы поиска; энциклопедией раскрутки с помощью поисковиков; чем-то еще?

<font face="Verdana" size="2">Originally posted by Gray:
Если идет речь о поиске по фразе таким образом, то, получается, в таком случае, идет поиск по конкретной фразе как лексической единице, без учета словоформ. Как я понимаю, страница, на которой написано "форума о поисковых системах", найдена при этом не будет. ИМХО, это не есть гуд. </font>

А вот тут настает время произнести заклинание: RTFM!

=== Cut ===

Двойные или одинарные кавычки позволяют находить словосочетание, указанное в них, или близкое к нему. Последняя оговорка связана с двумя обстоятельствами. Во-первых, стоп-слова в кавычках игнорируются, как и в обычном запросе. Во-вторых, грамматическая форма слов также кавычками не фиксируется. Пример: по запросу "яблоки на снегу" будут найдены документы, содержащие следующие фрагменты: "яблоки на снегу", "яблоки и снег", "яблокам под снегом", "яблоко снег" и т.п.

=== Cut ===

Так что с этим у Апорта все в порядке.

<font face="Verdana" size="2">Originally posted by Gray:
Найдено 791 документ, при этом в первых 200 не встречаются одновременно все слова, составляющие поисковую фразу. А на 98-м месте вообще находится какая-то фирма по производству чего-то из бивней мамонта. К чему они здесь?</font>

Фразу Апорт ищет только тогда, когда ты задаешь слова в кавычках. Вот так: "Форум о поисковых системах". (Можно также задать расстояние между словами.) В остальных случаях он объединяет входящие в запрос слова по схеме "И".

С мамонтом ситуация интересная. Похоже, это просто глюк Апорта, потому что "Реконструкция текста" дает заголовок сайта http://www.unipack.ru/index.html , содержащего в title слова "информационно - поисковая система". То есть сайт про мамонтов каким-то образом "перепутался" с сайтом unipack.

Что касается выдачи в результатах поиска ссылок на документы, которые не содержат все слова из указанных, то, похоже, это аналог имеющегося в Яндексе поиска с "нестрогим соответствием". С той лишь разницей, что Яндекс позволяет запретить "нестрогость", а Апорт нет.

<font face="Verdana" size="2">Originally posted by Gray:
Кстати, не могу понять - Апорт вообще поддерживает поиск по фразе или нет? Задаю поиск "Форум о поисковых системах" - получаю кучу ссылок на поисковые системы, системы вообще и форумы. Дошел до 150-й позиции - этого форума нет. Как это у них получается?</font>

На фразу "Форум о поисковых системах" Апорт выдал только один сайт. Этот же форум еще не проиндесирован, что нетрудно обнаружить http://sm.aport.ru/scripts/template.dll?r=url%3Dwww%2Ebesplatno%2Eru&id=104514829&That=std&Site=2&SiteID=1503943&Rt=3&HID=3 , прочтя фразу "документ найден по ссылке", а также увидев, что отсутствует ссылка "Реконструкция текста".

А поиск по фразе -- он есть и нормально работает.

<font face="Verdana" size="2">Originally posted by Gray:
С днем рождения тебя, парень!</font>

Присоединяюсь к поздравлениям.

Originally posted by Yandex support:
Господа, я тут посмотрел на ваш форум и подумал - если вы действительно хотите получить ответ на ваши вопросы, задавали бы их Яндексу, что ли...
Глядишь, и ответ разумный получили бы.

А может, и не получили бы. Увы, из 28 вопросов, заданных за последние 30 дней, 12 еще без ответа (см. http://forum.yandex.ru/?forum=188 ). Причем на некоторые вопросы ожидать ответа приходилось почти три недели.

Я вовсе не ругаю Яндекс, потому что подобная инициатива у того же Апорта, едва родившись, сразу заглохла на корню. У Рамблера, за исключением личных усилий Игоря Ашманова (за что ему большое спасибо), я вообще не встречал попыток общения с пользователями. Так что Яндекс в этом направлении работает относительно неплохо. Но оперативность ответов и количество данных ответов пока еще далеки от идеала.

Originally posted by kikaha:
Поддержу предидущего докладчика - про Ивана или про OL.com, Ask Jeeves в качестве рабочего поисковика, я не слышал. Пользуюсь Alltheweb&Excite - лучших пока не нашел. А Google - ищет быстро, но неквалифицированно

Судить о том, квалифицированно ищет поисковик или нет, можно только определив область запросов. Научные запросы отличаются от популярных не меньше, человек от обезьяны. Аналогично, в любой из областей конкретный поисковик может оказаться более эффективным.

Originally posted by 007:
http://www.yep.ru/ - Похоже это каталог http://search.udmnet.ru/ - а это ПС. Вот только найду связь моего сайта с Удмуртией

А зачем тебе маленький поисковик? Купить хочешь?

Судя по результатам поиска, YEP тоже поисковик, но очень плохой. Половина выдаваемых документов содержат мешанину из JavaScript/тэгов html, что говорит о недостаточно качественном выделении текстовой части страниц для последующей индексации.

Всего: 1503