Ну если это не разводка, то, пожалуйста, их есть у меня.
При склонности к теоретической работе три близкие темы:
- Почему близкие документы относятся к разным рубрикам
- Ограничения на применение kernel-методов
- Почему трудно рубрицировать по большим (более 500 рубрик) классификаторам
Темы попроще:
- Очистка противоречий в ручном рубрицировании
- TDT, особенно novelity
Еще проще (но мне, например, уже неинтересно как тема для аспирантуры):
- сравнение нескольких методов на РОМИП-коллекциях + какие-нибудь свои улучшения
я извиняюсь, конечно, Вы abstract-то читали?
-------------------------------------
Andrei Z. Broder, Steven C. Glassman, Mark S. Manasse, Geoffrey Zweig
Note #1997-015. July 25, 1997
We have developed an efficient way to determine the syntactic similarity of files and have applied it to every document on the World Wide Web. Using this mechanism, we built a clustering of all the documents that are syntactically similar. Possible applications include a "Lost and Found" service, filtering the results of Web searches, updating widely distributed web-pages, and identifying violations of intellectual property rights.
вот Вам еще из результатов
http://www.google.com/search?hl=en&q=syntactic+similarity+of+files+
U. Manber. Finding Similar Files in a Large File System. In Proceedings of USENIX-1994
см. также тех, кто сослался - то есть занимается тем же или очень похожим и т.д.
http://citeseer.ist.psu.edu/context/11471/54679
Рад за Вас, но кому это надо?
Время поиска можно сделать практически мгновенным, храня только первых N документов, насчитанные заранее, а это считаться может долго.
Если искать только совсем похожие - эти списки и пересчитываться будут очень редко - да и зачем их вообще пересчитывать, если похожие уже отобраны, пользователь получит то что хотел?
Это как?
Цель-то и есть самая большая коммерческая тайна.
А методы - не проблема.
полнадоела, конечно, эта дискуссия.
идем, для начала на http://labs.google.com/papers.html
и видим, например, там 4ую по списку статью людей, работающих в Гугле, опубликовавших ее в 1997 году
Syntactic Clustering of the Web. Appeared in Proceedings of the Sixth Word Wide Web Conference (WWW6).
(http://gatekeeper.dec.com/pub/DEC/SRC/technical-notes/abstracts/src-tn-1997-015.html)
и т.д.
Ну и, вообще, довольно странно думать, что эта задача никем не решалась. Методов - миллион, например, в области разбиения на кластеры, определение novelity и т.п.
Просто задача слабо востребована.
Но чтобы - "ни у кого нет"?
Что далеко ходить - мы выполняли (читай продали) пару исследований для двух разных коллекций документов, включая организацию оценки экспертами примерно 10 разных способов сравнения.
Подробности - комм.тайна заказчика.
При этом мое мнение - довольно странная задача искать "похожие документы".
Это только ползадачи. Зачем мне еще один такой же документ?
Пользователю, скорее всего требуются документы частично похожие на данный, и отличия желательно расскласифицировать.
Допускаю, что в реальной системе с некотролируемыми потребностями пользователей потребуется специально "возмущать" поиск "похожих".
Я не знаю за какие деньги Вы собираетесь поставлять свои решения. С некоторого момента - когда сумма заказываемой работы начинает превышать сколько-то там ефимков, когда уже невозможно точно рассчитать выполнимость проекта, можно только доверять - редко когда покупают сразу, сначала спрашивают у друзей-конкурентов, сравнивают.
Поэтому "карму" портить не стоит, вряд ли будет хорошо, если к Вам будут относиться с сомнением ...
Ну да, тут большинство участников обсуждения просто погулять вышли ...
Однако, если хотите продолжать общаться, например в рамках РОМИП, настоятельно рекомендую следовать научным традициям: объективности (указывая и сильные и слабые стороны) и уважения собеседников.
При ПРАВИЛЬНОМ тестировании это всегда детектив,
так как необходимо определиться:
1) с коллекцией для тестирования (насколько она представительна)
2) с задачей (что считать похожим) - в РОМИПе это будет (если будет) скорее всего сумма мнений двух-трех студентов, которые не знают какую систему оценивают
3) При этом тестеры НЕИЗБЕЖНО будут несогласны между собой и, возможно, в значительной мере. Поэтому возникает проблема ИНТЕРПРЕТАЦИИ полученных результатов (то есть как суммировать противоречивые результаты).
Третий пункт весьма важен - всякое там "самотестирование" чужой технологии с критическими выводами - сомнительно по определению.
Поэтому в TREC, РОМИП и т.п., например, уделяется специальное внимание подписанию соглашения о правилах участия в тестировании, в частности, избегать использования результатов тестирования в рекламе.
а может я как раз и есть тот самый корпоративный заказчик?
и некий опыт достаточно успешного РЕШЕНИЯ этой задачи имею.
при текущем уровне изложения: флаг им в руки - паровоз настречу....
Э, батенька...
Так может для каждого запроса будем список синонимов и список стоп-слов определять?
Что-то говорит мне, что нет у Вас четкого обоснования когда это надо использовать.
Вычеркиваем эту функциональность.
Мне времени не хватает на проверку своих систем.
Вам придется самому доказывать, что она лучше других,
и хотя бы стоит времени, которое потратит пользователь, воспользовавшийся Вашей рекомендацией.
Процедура РОМИП весьма демократична - предлагайте интересующую Вас дорожку, если будут такие же желающие - будет и дорожка.
Это я типа хотел пошутить: чтобы "качественно" улучшить работу системы, возвращающей 8 релевантных документов из первых 10, надо возращать 11 релевантных документов в первых 10.
Пафосу много, но доверия мало.
В основу положена некоторая механистическая модель (простите, МОДЕЛЬ, конечно), учитывающая:
- вероятно, какую-то функцию от распределения частотностей (в принципе не важно какую) - трудно верить в исключительность -лучше клонов VM25 пока НИКТО не видел.
- список "синонимов" (это еще стоит обсудить на множестве каких значений purchase и obtain, и особенно acquire пересекаются)
- есть еще список стоп-слов, например, почему-то "заявка"
В общем, пример производит впечатление подстроенного.
Вот для того чтобы избавиться от громогласных, возможно, правдивых, но пока ни в чем не убеждающих заявлений
(Leom не первый и не последний), и проводятся мероприятия типа TREC или
РОМИП .
РОМИП честнее - дается 20000 заданий (ручная подгонка практически исключена!), из них случайно отбирается 50 для оценки, пара задание/документ оценивается не менее чем 2 оценщиками.
Даже для короткого "фразового поиска" достаточно простые методы типа BM25 + учет близости по месту встречаемости дают в СРЕДНЕМ 7 (для вэба) - 8 (для правовых актов) релевантных документов среди первых 10.
Конечно, даже небольшое улучшение поиска хорошо, но говорить о качественном улучшении - это куда - находить 11 документов что-ли?
* * *
Насчет примера про похожие из ролика. Ну хорошо, нашли первый документ про покупку IBM чего-то там, далее находятся документы про покупки - и это мол хорошо.
Но ведь, если рассматривать задачу поиска похожих, то почему не являются похожими документы про IBM и технологии и т.п., без всякой покупки?
То есть решается на самом деле специфическая задача того же "фразового поиска", но с заданным дополнительным контекстом.
В целом:
- интересно, но ничего особенно нового, по сравнению с тем же Я., у которого тоже есть поиск похожих - достаточно простой (запрос из десятка слов с максимальным tf*idf) - и разумно работает
- и по крайней мере, ничего такого, чтобы соответствовало пафосу
Зря Вы так...
Не кидает камнями тот, кто живет в стекляном доме.
то что Вы написали, кажется бесспорным, но именно КАЖЕТСЯ
есть очень много проблем представления знаний в виде текстов ЕЯ - прежде всего, отбор "хороших" текстов от плохих, которые не просто бесполезны, но вредят и т.п.
вот я спрсил в Я.: тигр это
получите кусочки из сниппетов:
=========================
Если про слона написано "тигр" - это правда
Тигра, это что означает? Я в старости, или Алер в молодости?
НАШИ "ТИГРЫ" - ЭТО КЛАССИКА
И ВСЕ ЖЕ ТИГР -- ЭТО БОЛЬШАЯ КОШКА
Я тигр - это амба медведям
Новые "тигры" - это Россия, Украина и Казахстан, а не Польша, Венгрия или Чехия
ТИГРЫ - ЭТО НЕ ТОЛЬКО ЦЕННЫЙ МЕХ
Тигр - это воплощение мощи и ловкости, символ ума и хитрости
Скажите, Дмитрий, а подбитие танком Т-70 "Тигра" - это очевидно тоже шняга?
========================
Большая проблема создать непротиворечивую базу "правил".
В Вашем примере требует специальных оговорок "очевидное" правило, что "хищник это животное".
Например, вопросы : 1) шварценегеровский хищник - животное? 2) а человек - животное? 3) в растение-росянка - животное?
Для успешного ответа на подобные формальные вопросы надо четко ограничивать предметную область. Говоря формально - накладывать контекст - внешнее правило, как должны трактоваться введенные Вами правила.
Есть целая куча попыток использовать, например, толковые словари - весьма безуспешеых попыток.
========
Я хотел бы, чтобы Вы меня правильно поняли.
Ваш подход, возможно будет работать для специально выбранной предметной области.
Но Вам следует правильно и аккуратнее называть то, что Вы делаете, а не так
- на мой взгляд звучит ужасно - слышали мы такое сто раз - где бы только работало