Вопрос к Ашманову по поводу методики

482

Sergey Petrenko

29 ноября 2000, 21:27

1571

Игорь, я получил вашу методику, прочитал и задумался. Неясно, по каким запросам работать - по тем, что приведены в тексте или каким-то своим? С объемом работы вы правы - он обещает быть большим, но выполнимым.

Если позволите, я несколько изменю описание методики, так, чтобы сразу описывалось, что надо делать, а оригинальный документ выложу отдельно. Сегодня вечером все сделаю.

F

8

Fargalaxy

29 ноября 2000, 23:27

#1

Я вот тоже хоетл спросить насчет методики, но ты меня опередил.

Когда поместишь описание - напиши здесь ссылочку, ОК?

66

Ashmanov

30 ноября 2000, 04:22

#2

Насчёт того, какие запросы брать:

вообще ясно, что брать нужно частотные.

Иначе а) неясно, как брать - из головы? А какой принцип? Потом при желании можно будет легко оспорить представительность отчёта.

б) для произвольного списка посчитанная релевантность не будет связана с реальным распределением нужд пользователей.

Мы дали частотные запросы в Рамблере за май. Можно взять список из Яндекса - они везде примерно одинаковые. Другое дело, что однословные, двусловные и прочие нужно замешивать в той естественной пропорции, что указана в методике (0,5 однословных и так далее).

На самом деле я не могу и не хочу влиять на процесс. Я инициировал его, но Вы сами ведёте своё сообщество и выбор за Вами - насколько проработанную методику использовать. Если поставить цель в конце концов сделать достоверный и цитируемый источник, то нужно подходить серьёзно.

Например, в свое время известный Virus Bulletin вырос из компании средненького антивируса в самое авторитетное издание про компьютерные вирусы. Они просто делали и делали тесты. Ну и продвигали свой бренд аналитика.

Мы можем при необходимости оказывать консультации по математике и статистике.

В принципе, для облегчения задачи можно взять не пять, а три интервала - 10, 30, 50 первых документов, можно взять для начала и поменьше запросов, не 100, а 50, например.

Есть и более точные методики, но они более трудоёмкие.

Игорь Ашманов, Рамблер.

С уважением, Игорь Ашманов Все для оптимизации (рассылка, сервисы): www.optimization.ru (www.optimization.ru) Сервис по созданию собственных поисковиков: www.flexum.ru (www.flexum.ru)

482

Sergey Petrenko

30 ноября 2000, 05:02

#3

Ок, Игорь, я выкладываю методику, минут через 20 она будет доступна.

MS

0

main_spider

30 ноября 2000, 15:24

#4

Gray, ссылчку поправь плз... http://www.besplatno.ru/se/metodika.htm Прошу

Я правильно понял, что тестирование открыто для всех?

482

Sergey Petrenko

30 ноября 2000, 15:42

#5

Правильно ты понял.

Сейчас поправлю.

66

Ashmanov

30 ноября 2000, 20:20

#6

Originally posted by main_spider:
Я правильно понял, что тестирование открыто для всех?

Хочу предупредить, что по нашему опыту тестирующие не сразу обучаются методике тестирования и делают ошибки.

Наши лингвисты первое время зачастую тестировали не то и не так, так потребовалось несколько циклов обучения и проверки работы.

Поэтому нужно выработать какой-то период "пробного" тестирования, и понять, как проверять, что конкретный участник делает всё правильно.

Иначе пойдёт поток цифр, а насколько правильно и как именно они вычислены, останется за кадром.

Например, я предвижу, что одни будут брать интервалы 1-10, 1-30, 1-50, как и положено, от нуля, а другие, по ошибке, 1-10, 11-30, 31-50 или ещё какие-то. Кто-то домножит на вектор весов, а кто-то забудет. И так далее.

Может быть, Gray, каждому новичку давать небольшое задание, уже сделанное Вами или предыдущими участниками? Или ещё как-то проверять и "сертифицировать" участника тестирования.

Кстати, видимо, стоит часть работы по сведению данных воедино оставить на модератора (раздачу кусков работы, ведение общей таблицы, домножение на веса интервалов, вычисление среднего и так далее).

Ещё один совет - давать куски работы не по одной машине по многу запросов (вертикальный сегмент теста), а по нескольку запросов по всем (горизонтальный сегмент). Иначе, если кто-то понял что-то неправильно, или

имеет специфическое понятие релевантности, получится сильный перекос по одной из машин.

Игорь Ашманов, Рамблер.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

80

iseg

15 декабря 2000, 21:23

#7

Во-первых, на мой взгляд, методика чрезмерно переусложнена.

Во-вторых, неверно полагать, что частотные запросы - это то, что нужно. Распределение запросов такое, что "хвосты" откидывать нельзя. Кроме того, в голове стоят обычно "бессмысленные" запросы.

Смешно пытаться искать соответствие запросу "рефераты". Эта тема интересна только спаммерам. Обычно поисковики закрывают эту тему выдачей из каталога.

Я бы выбрал фиксированный набор запросов (небольшой) из средней части спектра. Интересных запросов, наподобие 25-ти Лоуренса и Гиля из каой-нибудь одной области знания. Тогда будет проще определять степень соответстивия.

С запросами же типа реферат будет сплошная вкусовщина.

Не думаю, чтобы у меня, или у Игоря возникнет желание специально затачивать поисковики под какие-то жалкие 20 запросов.

Кроме того, необходимо отделить процесс поиска от процесса оценки результатов, так, чтобы оценивающий не знал от какого поисковика какие результаты.

Еще одно важной замечние: нужно сравнивать такие варианты выдачи искалок, которые ближе по принципам формирования. Например, может быть, стоит сравнивать Рамблер с Яндексом, в варианте выдачи по документам, а не по серверам. Хотя выдача по серверам гораздо информативней и интересней для пользователя. (Явно неучтенный параметр в описанной методике)

Илья Сегалович, Яндекс

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

482

Sergey Petrenko

15 декабря 2000, 21:36

#8

Добро пожаловать на форум, Илья. Видимо, Ваше мнение о нем изменилось в лучшую сторону. Это приятно.

Видимо, вследствие того, что я отсутствовал почти две недели, практически никто не занимался ни работой по методике, предложенной Игорем, ни собственно методикой. Постараемся наверстать упущенное время.

Я надеюсь, Илья, что Вы тоже примете участие в этой работе. Я понимаю, что вряд ли вы будете тестировать поисковики, но это и не требуется. Я жду от Вас советов относительно самой методики тестирования.

Ну, и вообще-то я приглашал Вас и Игоря (да и остальных тоже) не только и не столько для того, чтобы одни задавали вопросы, а другие (в данном случае сотрудники Яндекса или Рамблера) на них отвечали. Цель этого форума - служить местом для дискуссий о технологии работы поисковых машин в Интернете и их использовании для продвижения сайтов. Надеюсь, что тема достаточно велика, чтобы все желающие могли высказаться.

Вопрос по js, как Маркировка рекламы с 1 Джон Мюллер: не зацикливайтесь

F

116

funsad

17 декабря 2000, 08:42

#9

Originally posted by iseg:
Во-первых, на мой взгляд, методика чрезмерно переусложнена.

Могу согласиться только в том, что избыточным является предлагаемое к проверке количество документов. По одной из оценок, более 57% пользователей ограничиваются top-10 ссылок, не идя дальше первой страницы с результатами поиска, и более 90% просматривают 3 или менее страниц. Следовательно, раз Игорь и г-н Харин в методике решили охватить массовые нужды пользователей с помощью самых популярных запросов, логичным было бы и остановиться на двух популярных множествах документов -- 10 и 30.

Все остальное в методике, мне кажется, обосновано и приведено с целью избежать двусмысленностей и субъективного толкования.

Что бы я изменил в методике.

1. Если оставить неизменным набор исследуемых множеств документов (10, 30, 50, 70, 100), я бы изменил рекомендуемые веса элементов. Вместо предлагаемого (5, 4, 3, 2, 1) лучше применить веса, соответствующие популярности множества документов у пользователей. Например, (57, 25, 8, ...).

2. При оценке релевантности множества документов, которое превышает по объему минимальное рассматриваемое множество, имеет смысл оценивать релевантность только разницы исследуемого множества и предыдущего по объему. Например, при исследовании релевантности множества в 30 документов, когда уже проведено исследование множества в 10 документов, имеет смысл учитывать релевантность документов с 11 по 30. Почему? Поиск, целью которого является максимальная полнота охвата какой-то тематической области, встречается крайне редко. Следовательно, если пользователь дошел до 3-й страниц поиска, значит первые 20 ссылок оказались нерелевантны.

Распределение запросов такое, что "хвосты" откидывать нельзя. [...] Я бы выбрал фиксированный набор запросов (небольшой) из средней части спектра. Интересных запросов, наподобие 25-ти Лоуренса и Гиля из каой-нибудь одной области знания.

Согласен. Правда, наиболее интересные исследования Лоуренса и Гиля, которые отражали и полноту охвата поисковиков, содержали 575 запросов (1998 год) и 1050 (1999), что повторить довольно затруднительно. А если ограничиваться 25 запросами, то нужно существенно сужать тематическую область. И тогда нельзя гарантировать, что результаты поиска в этой области будут отражать работу поисковика в целом.

В любом случае, следует решить, определение какой релевантности преследует методика. В варианте, предложенном Ашмановым и Хариным, это релевантность, с которой сталкивается большинство пользователей при обычной работе с искалкой (популярные запросы). Возможен вариант, предложенный Вами: поиск непопулярной или редкой информации обычным пользователем. Существует и третий случай: исследование того, что можно выудить из поисковой системы, имея словесную формулировку запроса. По сути, это релевантность по оптимально составленному запросу. К сожалению, этот вариант подразумевает профессиональное знание языка запросов и тематической области, в которой производится поиск, а также беспристрастность исследователя (с последним можно справиться, предложив улучшить запрос сотрудникам каждого из поисковиков).

Кроме того, необходимо отделить процесс поиска от процесса оценки результатов, так, чтобы оценивающий не знал от какого поисковика какие результаты.

Дельное замечание. У большинства пользователей поисковиков есть явные симпатии к одному-двум из них, и Ваше предложение -- хороший способ их нивелировать.

Еще одно важной замечние: нужно сравнивать такие варианты выдачи искалок, которые ближе по принципам формирования.

Это касается не только "документной выдачи". При сравнении Апорта с Яндексом придется применять в Яндексе вместо используемого "по умолчанию" поиска внутри предложений поиск внутри документов. Таких особенностей будет немало, и перед началом тестирования, Вы правы, необходимо их систематизировать.

С уважением, Александр Садовский.

I

80

iseg

18 декабря 2000, 03:10

#10

Кстати, напрочь забыты два обстоятельства.

- Число дублей

- Число дохлых ссылок

Понятно ведь, что можно быть "страшно релевантным" но при этом (или из-за этого ) "страшно медленным".

Раз пошла такая пьянка, вот моя

упрощенная процедура:

Берем N запросов. Примерно одной тематики. Например геология или математика (можно перевести Гиля на русский )

Делаем их в режиме "по умолчанию" на всех серверах.

Первые десять линков копируем и отдаем товарищу вместе с текстом запроса, но без имени искалки, (при этом запомнив с какой искалки Вы их взяли)

Товарищ считает первую десятку по следующей процедуре.

- Устанавливает все счетчики в ноль

- Открывает каждый линк по очереди.

- Если не в тему (очевидным образом ),

инкрементирует счетчик "не по теме"

- Если этот (или "почти тот же")

документ уже был, инкрементирует

счетчик "дублей"

- Если не открылось,

инкрементирует счетчик "дохлых линков"

Все счетчики по результатам изучения осредняются для каждой искалки.

Таким образом искалка получает три оценки,

из которых можно при желании сварганить

интегральный показатель.

Илья Сегалович, Яндекс.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Что делать, если ваша email-рассылка попала в спам