Ищу тесты TREC, SIGIR, РОМИП и т.д.

29

HeavenSeven

19 октября 2006, 15:48

2162

Работаю над кандидатской. Возник вопрос: где взять тестовые данные для проверки качества релевантности поисковой системы.

Я так понимаю, для проверки необходима большая база с обработанными экспертами документами. Узнал, что для этой цели существуют такие проекты как TREC, SIGIR, РОМИП и т.д.

Посмотрел сайты этих проектов, после чего у меня сложилось впечатление, что для отечественных проектов нужно регистрироваться чуть ли не с рекомендациями с места работы, предоставить законченную статью по актуальной для данного проекта/конференции теме, и ехать в дом отдыха на несколько дней :) А для зарубежных проектов возникает проблема, как переслать жесткий диск или DVD-R (таможня может не пропустить и т.п.). Ну и все это стоит, как я понял, не менее $500.

Я конечно понимаю, что гигабайты обработанных данных действительно стоят определенных денег. Но может существует более простой вариант получения этих тестовых данных, без регистраций на конференцию и почтовых отправлений, и на сумму ну скажем не более $100?

И откуда обычно местные специалисты форума берут эти материалы, кроме как от научных руководителей и дружественных организаций?

N

53

nis

20 октября 2006, 07:42

#1

HeavenSeven:

Я так понимаю, для проверки необходима большая база с обработанными экспертами документами. Узнал, что для этой цели существуют такие проекты как TREC, SIGIR, РОМИП и т.д.

Простите, не могли бы вы пояснить про SIGIR?

Мне всегда казалось, что это просто конференция (безусловно очень и очень интересная, но ваши данные там никто оценивать не будет).

HeavenSeven:

Посмотрел сайты этих проектов, после чего у меня сложилось впечатление, что для отечественных проектов нужно регистрироваться чуть ли не с рекомендациями с места работы,

брр. это где написано?

Например, в РОМИП'2006 участвовало несколько аспирантов (как впрочем в предыдущие годы - смотрите труды), никаких рекомендаций не требуется и никто не проверяет ваше место работы.

Описание системы используется только для того чтобы как-то предстваить вас в списке участников.

Вот официальная информация со слайда организаторов, который бывает каждый год

(и насколько я помню это описано еще во многих местах):

Что требуется от участника РОМИП?

Подать заявку
Участвовать в формирование правил проведения дорожек
Выполнить полученные задания и сдать ответы в оргкомитет
Проанализировать результаты оценки и подготовить статью
Компенсировать часть затрат на проведение оценки и организацию семинара
Сделать доклад на очном семинаре

HeavenSeven:

предоставить законченную статью по актуальной для данного проекта/конференции теме, и ехать в дом отдыха на несколько дней :)

статья требуется _после_ завершения цикла РОМИП и описывает ваше в нем участие.

На семинаре обычно можно приехать всего на один день, и мне честно говоря не приходилось слышать, что присутствие на семинаре оказалось бесполезным.

Докладчики обычно рассказывают больше деталей, чем это есть в опубликованных трудах, всегда можно переспросить если непонятно. Но даже более полезна возможность познакомиться с другими исследователя близких вам задач и пообщаться.

HeavenSeven:

Я конечно понимаю, что гигабайты обработанных данных действительно стоят определенных денег. Но может существует более простой вариант получения этих тестовых данных, без регистраций на конференцию и почтовых отправлений, и на сумму ну скажем не более $100?

Участие в РОМИП обычно не очень накладно (максимальный взнос в этом году был

6000 руб. для системы участвовавшей в 4-х дорожках), поскольку семинар подддерживается грантом РФФИ. На будущий год возможно будут предоставляться дополнительные гранты/скидки индивидуальным участникам.

Кроме этого РОМИП дает возможность совсем избежать уплаты взноса, поучаствовав

в проведении оценки в качестве асессора.

Материалы же прошлых лет РОМИП можно получить бесплатно -

необходимо подать заявку в оргкомитет, подписать соглашение об использовании данных. Это очень удобная возможность для первоначальных экспериментов.

Однако, надо понимать, что поскольку РОМИП (как и TREC, CLEF, NTCIR,..)

не производит полную разметку для большинства дорожек, то

результат работы вашей системы скорее всего НЕ БУДЕТ оценен полностью

(то есть для части ответов будут отсутствовать оценки релевантности).

Для того чтобы получить более объективное сравнение необходимо участвовать

в РОМИП.

Еще есть программа научных стипендий Яндекс, где также предоставляются интересные наборы данных,

а также разумные стипендии (часть которых можно потратить на компенсацию

расходов по участию в конференциях).

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

HS

29

HeavenSeven

20 октября 2006, 09:11

#2

nis,

Спасибо за пояснение про SIGIR. Я предположил, что раз SIGIR ставят в один ряд с TREC и РОМИП, то значит они тоже предоставляют тестовые дорожки. Хотя у них на сайте об этом ничего и не сказано.

А в РОМИП меня пустят без научной новизны в работе?

В гранте Яндекса я пытался участвовать, но в прошлый раз не прошел, а в этот раз я не смогу им предложить ничего кроме работающей классической системы, без научной новизны.

Вообще я думал, что дорожки - это список документов и степень их релевантности под заранее подготовленные вопросы, которую эксперты заранее оценили. И мне остается лишь прогнать через свою систему те же самые запросы и сравнить степень совпадения с результатами экспертов. То есть участие экспертов в оценке конкретно моей системы и не требуется.

Спасибо за разьяснение деталей про РОМИП.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

N

53

nis

20 октября 2006, 10:11

#3

HeavenSeven:

А в РОМИП меня пустят без научной новизны в работе?

В некотором смысле РОМИП все равно есть ли у вас научная новизна.

Но в чем смысл получения оценки для Вас?

Абсолютное число имеет мало смысла. Узнать, что базовый tfidf работает

похуже, чем системы тех, кто занимается их совершенствованием много лет???

Проверить что ваша система справится с индексированием 1.5 Gb текста??

так его можно нагенерить.

На мой взгляд, наибольшая прямая польза от участия в РОМИП - это получить независимую оценку для >1 своего прогона и на основе сравнения понять какие

изменения приводят к улучшению результатов (типа есть ли польза от морфологии?

использования словосочетаний? внесения изменений в BM25?...).

Даже в случае ухудшения качества результата - есть польза, так как

становится что-то более понятно. И отрицательный результат - это повод сделать работу над ошибками и попробовать понять почему исходная гипотеза провалилась

и как можно попробовать ее уточнить.

Да и другие участники РОМИП возможно смогут подсказать что-нибудь ...

Использовать же коллекции РОМИП или другие коллекции как benchmark - это пагубная идея, очень высок риск подогнать систему под конкретный набор данных, в то время как на других наборах качество останется невысоким или даже значительно упадет.

То есть тестировать вне РОМИП можно и нужно, но осознанно ...

HeavenSeven:

В гранте Яндекса я пытался участвовать, но в прошлый раз не прошел, а в этот раз я не смогу им предложить ничего кроме работающей классической системы, без научной новизны.

Если нет научной новизны, то грант конечно сложно получить.

Но, IMHO, защитить диссертацию без научной новизны и публикации статей тоже должно быть не просто :)

Может быть стоит подумать о постановке какого-нибудь содержательного эксперимента? Возможно для этого даже не надо писать свою систему

(или всю систему) с нуля, а начать с какой-нибудь свободно доступной искалки

и прикрутить к ней что-то что вы хотели бы попробовать?

HeavenSeven:

Вообще я думал, что дорожки - это список документов и степень их релевантности под заранее подготовленные вопросы, которую эксперты заранее оценили. И мне остается лишь прогнать через свою систему те же самые запросы и сравнить степень совпадения с результатами экспертов. То есть участие экспертов в оценке конкретно моей системы и не требуется.

не совсем так.

в результате работы РОМИП действительно есть запросы со списками некоторых найденных релевантных и неревантных документов. Но эти списки не превышают

500 документов для каждого запроса. То есть если, в первых N ответах

вашей системы нет ни одного из оценненых документов, то вы ничего не можете сказать

о качестве результата.

для большинства дорожек используется техника общего котла (aka pooling).

то, что оценивают асессоры - лишь небольшая часть всей коллекции и определяется результатами участвовавших систем. Иначе это абсолютно нереально трудоемкая задача - вручную просмотреть 600.000 документов и выявить те из них, где есть ответы на вопрос??

Вообще, как и что оценивается подробно описано в отчетах организаторов РОМИП

(у TREC похожий подход, детали есть в трудах TREC)

Также почитайте, например,
это и эту статью. Дальше по ссылкам ...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

HS

29

HeavenSeven

20 октября 2006, 15:19

#4

nis,

Я действительно хочу узнать, насколько хуже работает мой поиск по сравнению с отлаженными за много лет системами.

Научной новизны в реализации базовой системы у меня нет. Но есть идея, имеющая новизну, над ее реализацией нужно еще поработать. Прежде чем добавлять к базовой системе эту идею, хотелось бы иметь некоторое числовое значение релевантности для базовой системы, чтобы понять, как мои усовершенствования изменили результат.

Про подгонку к конкретной тестовой дорожке, я действительно сейчас задумался. Подгонять по конкретный трек и правда неразумно, хотя для начальной настройки и такой вариант вполне приемлем.

Спасибо за развернутые ответы. Придется мне все-таки ехать в дом отдыха :)

"Поднять" группу сайтов Упал доход Вопросы представителю Яндекса

S

110

SEManiak

22 октября 2006, 20:56

#5

У меня схожие «нужды».

Сейчас разбираю (а не разрабатываю) алгоритмы классификации документов.

Идеи мне понятны :), сейчас вот читаю англ. книжку с конкретной математикой (а не выводами), и хотелось бы эти методы «прочувствовать» - так как для меня с воздуха тяжело что-то своё придумать.

Лингвистикой страдать не хочу – это слишком не в ту сторону и мне добрые люди посоветовали английские коллекции, и (не скажу кто) даже обещал (не знаю когда, и неприлично навязываться добрым людям).

Не подскажите, есть ли негигабайтные варианты для меня (некомерческое использование)?

Поехать на Ромип не предлагать:

А) поздно, так как прошёл

Б) рано, так как надо сначала разобраться

Пока есть «Reuters 21578», кто занимался этой коллекцией: для тестирования и разбирания она подойдёт?

Спасибо.

п.с. так прикольно, когда "старожилы поисковых систем" поднимают панику, по поводу новичков из Киева (в блогах своих 😂 )

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол UXUkraine 2011: доклад Дэйва

R

37

Rusl

29 октября 2006, 13:03

#6

SEManiak:
У меня схожие «нужды».
Сейчас разбираю (а не разрабатываю) алгоритмы классификации документов.
Идеи мне понятны :), сейчас вот читаю англ. книжку с конкретной математикой (а не выводами), и хотелось бы эти методы «прочувствовать» - так как для меня с воздуха тяжело что-то своё придумать.

Лингвистикой страдать не хочу – это слишком не в ту сторону и мне добрые люди посоветовали английские коллекции, и (не скажу кто) даже обещал (не знаю когда, и неприлично навязываться добрым людям).

Не подскажите, есть ли негигабайтные варианты для меня (некомерческое использование)?

Вариант номер раз: взять общедоступную коллекцию (тот же Reuters, благо работ сделанных на основе коллекции полно и будет с чем сравнивать).

Вариант второй: поехать таки на РОМИП в следующем году (в марте наверное начнется сезон 2007 (будут доступны коллекции), а к тому времени и начитаться можно уже будет вдоволь :)

Третий вариант: учавствовать в Яндекс-грантах.

Поехать на Ромип не предлагать:
А) поздно, так как прошёл
Б) рано, так как надо сначала разобраться

Пока есть «Reuters 21578», кто занимался этой коллекцией: для тестирования и разбирания она подойдёт?

А почему нет? Если есть реальная выборка с разбиением по категориям и достаточным количеством примеров в рубрике - вперед и с песней! :)

B1

188

bad1

29 октября 2006, 13:26

#7

Прошу прощения за небольшой offtopic, но всё же:

Нам для реализации одного коммерческого проекта требуется группа разработчиков, имеющих опыт в области автоматического структурирования и каталогизации больших массивов текстовых данных. Если у кого-либо из уважаемого сообщества возникнет желание обсудить возможность сотрудничества по данному направлению - прошу написать мне в личку или по адресу a[at]bad1.ru

Google: E-E-A-T не является фактором ранжирования

Что делать, если ваша email-рассылка попала в спам