walker

Рейтинг
40
Регистрация
23.09.2004
dr_dax:
Мы в ближайшее время снимем фильм о наших исследованиях. Там будет рассказано о концепции, как это работает и самом подходе к поиску (и не только к поиску). Сейчас работаем над сценарием.
...

сделать сейчас в области поиска "на коленке", не привлекая много-много знаний, например, в виде огромных корпусов текстов и статистики поискового поведения - практически маловероятно

судя по словам авторов у них:

- что-то n-граммное по буквам (было уже - показывает, как ни странно, достаточно неплохие результаты, но сейчас большинство современных методов лучше)

- используются нейронные сети (сейчас все массово используют методы машинного обучения, нейронные сети - далеко не самый лучший из методов технологически - разве что один из самых простых для реализации)

- авторы предлагают задавать "длинные" и "хорошие" (осмысленные и без "лишних" слов) запросы, но все современные машины умеют работать с любыми словами

- используется некая внутренняя статистика связей - судя по всему - мая главная фишка авторов (рискну предположить, что нечто подобное было положено в первые версии Conver'ы/Excalibur'а, какая то "хитрая" функция рангового распределения)

Столкнувшись некоторое время назад с тем, что приходит МНОГО(!) команд и все говорят, что у них самый лучший поиск - поисковое сообщество придумало лекарство от такого бахвальства.

Появились TREC, CLEF и т.п., а в России - РОМИП www.romip.ru .

Верите, что ваш алгоритм лучше всех - участвуйте в РОМИП. Это потребует от вас не более тысяч 20, потраченных на независимую оценку.

Иначе - все это только болтовня про САМЫЙ ЛУЧШИЙ МЕТОД ПОИСКА.

в течение нескольких последних лет это является одной из бурно теоретически и экспериментально изучаемых тем - смотрите Learning to Rank и выступление в Яндексе Байесу-Йетса в прошлом году

apache:
Здравствуйте, может кто то сталкивался с подобным. Возможно нить юсашные институты периодически проводят исследование на подобные темы. Если кто то в курсе,то поделитесь ссылками плиз.

Т.е. например почему используются такие то слова для поиска, или почему некоторые пользователи доверяют "серым" сайтам вместо официальных.

точно таких исследований не припомню, но про всякий разный User Behaviour любят писать

в JASIST (Journal of the American Society for Information Science and Technology,

http://www3.interscience.wiley.com/journal/76501873/home)

Леонид:
Господа, подскажите пожалуйста ресурс где можно поработать с английским корпусом так чтобы в результатах поиска возле каждого слова стояла метка части речи?

http://www.natcorp.ox.ac.uk/ ?

Vyacheslav Tikhonov:
Узко - не узко, но реально это нужно с учетом огромного количества информации. Да и человеку может быть интересно, раз он пришел на этот Форум.

Это несколько в сторону, но почему для MDS именно "лексические цепочки", а не "manifold ranking" или "language model" или еще что-нибудь отсюда

Vyacheslav Tikhonov:
Тема для кандидатской, например - Использование лексических цепочек для создания дайджестов или обзоров прессы. Весьма востребовано. :)

хм...., что так узко-то?

Лучше всего взять списки докладов последних западных конференций первого уровня - если Вы обратились в этот форум, то:

SIGIR, HLT, EMNLP, ECIR, ...

спрашивайте в Гугле "SIGIR 2007", ищите программу (или список принятых работ), отбираете несколько таких, которые Вам интересны

затем, если еще не утоните под количеством возможных тем для диссертации, можете вернуться в форум и спрашивать уже подробнее

catprog:
Какие ж это синонимы? По-моему слово "дети" множественное число слова "ребенок", но если этот пример не подходит тогда можно такой: "человек" - "люди".

Морфологии бывают разные, в том числе стемминговые (стол*) и вероятностные (черный ящик по контексту).

Классический подход к словарю для автоматического морфологического анализа - словарь Зализняка.

Посмотрите также статьи Белоногова в НТИ, сайт Андрея Коваленко.

Насчет "дети" - в русской морфологии есть кучка сложных случаев, которые могут решаться по разному в зависимости от задачи.

Помните, что к любой красивой модели можно добавить списки исключений - как слов, так и кусков других моделей.

Другие вспомнившиеся мне сейчас проблемы русской и не только морфологии, которые могут решаться по-разному, в зависимости от задачи - делается ли "синтаксический анализ", разбор запроса или подсветка результатов:

- дефисные слова: "Камень-на-Оби", "Париж-Даккар" - сколько слов + всех возможных сочетаний словаре не перечислишь

- краткие формы прилагательных: "русско-африканский" - что такое "русско" и сколько слов

- наречия: "по-русски" - оставлять или сводить к прилагательному

- причастия и деепричастия - сводить к глаголу или оставить отдельной формой

- что делать с мертвыми формами - прилагательное "бюджетов"

- совпадение собственных имен с обычными словами (например, в начале предложения): "Сапогов"

и т.д.

Основная проблема - как разбирать неописанное в словаре слово.

voodoo911:
Хорошо, перефразирую вопрос: есть много документов в pdf формате. Как улучшить их индексацию?
Может ли быть ПР у pdf файла? Учитуется ли ссылочное?

есть мега-продукт Abbyy PDF Transformer (реально уникальный!), стоит порядка $30 на рабочее место и, говорят, $200 - серверная лицензия

конвертирует PDF в текст (распознает картинку) вполне приличного качества для целей индексирования

а уж затем как-нибудь свяжете текстовую страничку со своим PDF

Слава Шевцов:
Не уверен, но подозреваю, что тональность для факта (или личности) может быть определена с точностью до простого предложения, где он (она) упоминается. Не больше, но и не меньше.

На самом деле, не стоит надеяться, да и не нужна 100% (и даже 80%) качество распознавания мнения.

Для многих задач хватит стандартной классификации по близким контекстам, если текстов много.

Если же текстов мало - все бесполезно. Но при этом и ценность отдельной оценки сомнительна.

Всего: 48