funsad

digits.ru

Рейтинг

116

Регистрация

15.11.2000

17 декабря 2000, 08:42

Originally posted by iseg:
Во-первых, на мой взгляд, методика чрезмерно переусложнена.

Могу согласиться только в том, что избыточным является предлагаемое к проверке количество документов. По одной из оценок, более 57% пользователей ограничиваются top-10 ссылок, не идя дальше первой страницы с результатами поиска, и более 90% просматривают 3 или менее страниц. Следовательно, раз Игорь и г-н Харин в методике решили охватить массовые нужды пользователей с помощью самых популярных запросов, логичным было бы и остановиться на двух популярных множествах документов -- 10 и 30.

Все остальное в методике, мне кажется, обосновано и приведено с целью избежать двусмысленностей и субъективного толкования.

Что бы я изменил в методике.

1. Если оставить неизменным набор исследуемых множеств документов (10, 30, 50, 70, 100), я бы изменил рекомендуемые веса элементов. Вместо предлагаемого (5, 4, 3, 2, 1) лучше применить веса, соответствующие популярности множества документов у пользователей. Например, (57, 25, 8, ...).

2. При оценке релевантности множества документов, которое превышает по объему минимальное рассматриваемое множество, имеет смысл оценивать релевантность только разницы исследуемого множества и предыдущего по объему. Например, при исследовании релевантности множества в 30 документов, когда уже проведено исследование множества в 10 документов, имеет смысл учитывать релевантность документов с 11 по 30. Почему? Поиск, целью которого является максимальная полнота охвата какой-то тематической области, встречается крайне редко. Следовательно, если пользователь дошел до 3-й страниц поиска, значит первые 20 ссылок оказались нерелевантны.

Распределение запросов такое, что "хвосты" откидывать нельзя. [...] Я бы выбрал фиксированный набор запросов (небольшой) из средней части спектра. Интересных запросов, наподобие 25-ти Лоуренса и Гиля из каой-нибудь одной области знания.

Согласен. Правда, наиболее интересные исследования Лоуренса и Гиля, которые отражали и полноту охвата поисковиков, содержали 575 запросов (1998 год) и 1050 (1999), что повторить довольно затруднительно. А если ограничиваться 25 запросами, то нужно существенно сужать тематическую область. И тогда нельзя гарантировать, что результаты поиска в этой области будут отражать работу поисковика в целом.

В любом случае, следует решить, определение какой релевантности преследует методика. В варианте, предложенном Ашмановым и Хариным, это релевантность, с которой сталкивается большинство пользователей при обычной работе с искалкой (популярные запросы). Возможен вариант, предложенный Вами: поиск непопулярной или редкой информации обычным пользователем. Существует и третий случай: исследование того, что можно выудить из поисковой системы, имея словесную формулировку запроса. По сути, это релевантность по оптимально составленному запросу. К сожалению, этот вариант подразумевает профессиональное знание языка запросов и тематической области, в которой производится поиск, а также беспристрастность исследователя (с последним можно справиться, предложив улучшить запрос сотрудникам каждого из поисковиков).

Кроме того, необходимо отделить процесс поиска от процесса оценки результатов, так, чтобы оценивающий не знал от какого поисковика какие результаты.

Дельное замечание. У большинства пользователей поисковиков есть явные симпатии к одному-двум из них, и Ваше предложение -- хороший способ их нивелировать.

Еще одно важной замечние: нужно сравнивать такие варианты выдачи искалок, которые ближе по принципам формирования.

Это касается не только "документной выдачи". При сравнении Апорта с Яндексом придется применять в Яндексе вместо используемого "по умолчанию" поиска внутри предложений поиск внутри документов. Таких особенностей будет немало, и перед началом тестирования, Вы правы, необходимо их систематизировать.

С уважением, Александр Садовский.

Сайт построен!!!!

17 декабря 2000, 06:25

Originally posted by Gray:
Комментарии принимаются, но не учитываются .

1. Опрос о том, какими системами я пользуюсь с возможностью выбрать только одну выглядит странным.

2. Дизайн еще нужно много дорабатывать.

3. Строку "Сообщил..." в новостях лучше перенести на следующую строчку.

4. Разбивка статей на куски (я имею в виду статью о LP) выглядит одиозным и напоминает ужимки проектов Клименко с целью увеличения баннеропоказов. Можно сделать то же самое, но более аккуратно: поместив в начале текста оглавление. Это, во-первых, покажет, о чем идет речь. Во-вторых, облегчит поиск важной для конкретного посетителя информации. В-третьих, избавит от мысли о попытка повысить баннерный трафик.

5. В третьей части статьи про LP стоит ссылка "Далее" на ту же третью часть.

Каким ты хочешь видеть в конечном счете этот сайт? Популярным источником информации о поисковых системах; научным трудом, описывающим алгоритмы и методы поиска; энциклопедией раскрутки с помощью поисковиков; чем-то еще?

АПОРТ - приколисты

15 декабря 2000, 21:54

Originally posted by Gray:
Если идет речь о поиске по фразе таким образом, то, получается, в таком случае, идет поиск по конкретной фразе как лексической единице, без учета словоформ. Как я понимаю, страница, на которой написано "форума о поисковых системах", найдена при этом не будет. ИМХО, это не есть гуд.

А вот тут настает время произнести заклинание: RTFM!

=== Cut ===

Двойные или одинарные кавычки позволяют находить словосочетание, указанное в них, или близкое к нему. Последняя оговорка связана с двумя обстоятельствами. Во-первых, стоп-слова в кавычках игнорируются, как и в обычном запросе. Во-вторых, грамматическая форма слов также кавычками не фиксируется. Пример: по запросу "яблоки на снегу" будут найдены документы, содержащие следующие фрагменты: "яблоки на снегу", "яблоки и снег", "яблокам под снегом", "яблоко снег" и т.п.

=== Cut ===

Так что с этим у Апорта все в порядке.

АПОРТ - приколисты

15 декабря 2000, 19:38

Originally posted by Gray:
Найдено 791 документ, при этом в первых 200 не встречаются одновременно все слова, составляющие поисковую фразу. А на 98-м месте вообще находится какая-то фирма по производству чего-то из бивней мамонта. К чему они здесь?

Фразу Апорт ищет только тогда, когда ты задаешь слова в кавычках. Вот так: "Форум о поисковых системах". (Можно также задать расстояние между словами.) В остальных случаях он объединяет входящие в запрос слова по схеме "И".

С мамонтом ситуация интересная. Похоже, это просто глюк Апорта, потому что "Реконструкция текста" дает заголовок сайта http://www.unipack.ru/index.html , содержащего в title слова "информационно - поисковая система". То есть сайт про мамонтов каким-то образом "перепутался" с сайтом unipack.

Что касается выдачи в результатах поиска ссылок на документы, которые не содержат все слова из указанных, то, похоже, это аналог имеющегося в Яндексе поиска с "нестрогим соответствием". С той лишь разницей, что Яндекс позволяет запретить "нестрогость", а Апорт нет.

АПОРТ - приколисты

15 декабря 2000, 10:45

Originally posted by Gray:
Кстати, не могу понять - Апорт вообще поддерживает поиск по фразе или нет? Задаю поиск "Форум о поисковых системах" - получаю кучу ссылок на поисковые системы, системы вообще и форумы. Дошел до 150-й позиции - этого форума нет. Как это у них получается?

На фразу "Форум о поисковых системах" Апорт выдал только один сайт. Этот же форум еще не проиндесирован, что нетрудно обнаружить http://sm.aport.ru/scripts/template.dll?r=url%3Dwww%2Ebesplatno%2Eru&id=104514829&That=std&Site=2&SiteID=1503943&Rt=3&HID=3 , прочтя фразу "документ найден по ссылке", а также увидев, что отсутствует ссылка "Реконструкция текста".

А поиск по фразе -- он есть и нормально работает.

Happy birthday, dear AiK!!!!!

15 декабря 2000, 10:31

Originally posted by Gray:
С днем рождения тебя, парень!

Присоединяюсь к поздравлениям.

Причуды Яндекса

14 декабря 2000, 08:05

Originally posted by Yandex support:
Господа, я тут посмотрел на ваш форум и подумал - если вы действительно хотите получить ответ на ваши вопросы, задавали бы их Яндексу, что ли...
Глядишь, и ответ разумный получили бы.

А может, и не получили бы. Увы, из 28 вопросов, заданных за последние 30 дней, 12 еще без ответа (см. http://forum.yandex.ru/?forum=188 ). Причем на некоторые вопросы ожидать ответа приходилось почти три недели.

Я вовсе не ругаю Яндекс, потому что подобная инициатива у того же Апорта, едва родившись, сразу заглохла на корню. У Рамблера, за исключением личных усилий Игоря Ашманова (за что ему большое спасибо), я вообще не встречал попыток общения с пользователями. Так что Яндекс в этом направлении работает относительно неплохо. Но оперативность ответов и количество данных ответов пока еще далеки от идеала.

Google - Number One

13 декабря 2000, 07:16

Originally posted by kikaha:
Поддержу предидущего докладчика - про Ивана или про OL.com, Ask Jeeves в качестве рабочего поисковика, я не слышал. Пользуюсь Alltheweb&Excite - лучших пока не нашел. А Google - ищет быстро, но неквалифицированно

Судить о том, квалифицированно ищет поисковик или нет, можно только определив область запросов. Научные запросы отличаются от популярных не меньше, человек от обезьяны. Аналогично, в любой из областей конкретный поисковик может оказаться более эффективным.

маленькие SE

9 декабря 2000, 03:58

Originally posted by 007:
http://www.yep.ru/ - Похоже это каталог http://search.udmnet.ru/ - а это ПС. Вот только найду связь моего сайта с Удмуртией

А зачем тебе маленький поисковик? Купить хочешь?

Судя по результатам поиска, YEP тоже поисковик, но очень плохой. Половина выдаваемых документов содержат мешанину из JavaScript/тэгов html, что говорит о недостаточно качественном выделении текстовой части страниц для последующей индексации.

маленькие SE

8 декабря 2000, 09:40

Originally posted by 007:
1)Скажите, какие есть русские SE с индексацией роботами кроме основных(яндекс,рамблер,апорт)

Кажется, я нашел то, что тебя интересует: http://search.udmnet.ru/

По крайней мере, слово "индексация" там встречается.

2)Может кто знает не русские маленькие SE, с выше названными характеристиками.

Поисковик по мультфильму The Lion King: http://www.tlkvista.com/home.php

1 ... 141 142 143 144 145 146 147 148 149 ...151

Всего: 1502

Маркетинг для шоколадной фабрики. На 34% выше средний чек

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

funsad