Rusl

Рейтинг
37
Регистрация
29.04.2003
incidenter:
Как это вообще работает? Есть мысли?

Специально для Вас: http://community.livejournal.com/ru_ir/48146.html

Может быть реальные примеры помогут разобраться: http://romip.narod.ru/romip2006/appendix_a_metrics.pdf

harlot:
А про это где можно почитать подробнее?

наберите в гугле classification и читайте. или начните отсюда http://en.wikipedia.org/wiki/Document_classification

SEManiak:
У меня схожие «нужды».
Сейчас разбираю (а не разрабатываю) алгоритмы классификации документов.
Идеи мне понятны :), сейчас вот читаю англ. книжку с конкретной математикой (а не выводами), и хотелось бы эти методы «прочувствовать» - так как для меня с воздуха тяжело что-то своё придумать.

Лингвистикой страдать не хочу – это слишком не в ту сторону и мне добрые люди посоветовали английские коллекции, и (не скажу кто) даже обещал (не знаю когда, и неприлично навязываться добрым людям).

Не подскажите, есть ли негигабайтные варианты для меня (некомерческое использование)?

Вариант номер раз: взять общедоступную коллекцию (тот же Reuters, благо работ сделанных на основе коллекции полно и будет с чем сравнивать).

Вариант второй: поехать таки на РОМИП в следующем году (в марте наверное начнется сезон 2007 (будут доступны коллекции), а к тому времени и начитаться можно уже будет вдоволь :)

Третий вариант: учавствовать в Яндекс-грантах.


Поехать на Ромип не предлагать:
А) поздно, так как прошёл
Б) рано, так как надо сначала разобраться

Пока есть «Reuters 21578», кто занимался этой коллекцией: для тестирования и разбирания она подойдёт?

А почему нет? Если есть реальная выборка с разбиением по категориям и достаточным количеством примеров в рубрике - вперед и с песней! :)

termit2006:
предлагаю собрать воедино все существующие математические методы и алгоритмы улутшения поисковых систем, хотябы ссылки на них, если когото заинтересует, то выложу все что сам знаю!☝

Не совсем понятен формат. Выложите, что бы вы хотели.

Vyacheslav Tikhonov:
Руслан, а Вы, если не секрет, какую компанию там представляете?

Я представляю компанию под названием Балтийский Государственный Технический Университет :)

От себя хочу добавить, что помимо возможности пообщаться с ведущими специалистами России в области информационного поиска и получения бесплатно сборника трудов, этот семинар представляет собой хорошую возможность для собственного роста. Люди, так или иначе интересующиеся информационным поиском, найдут для себя много интересного. Всем очень рекомендую.

PHWizard:
всем спасибо
теперь начинаю понимать :)

т.е. идея такая, что даже в случае с узкоспециализированными словами, они в большинстве случаев попадут в пространство, т.к. будут встречаться в документах довольно часто

получается, это просто оправдание, хотя и не лишенное смысла, для грубого метода уменьшения размерности

Да почему грубого?! Вы попробуйте на практике потроить классификатор по большой выборке и посмотрите что за слова будут встречаться 1-2 раза.

Вот, к примеру, что за слова на НАРОДовской коллекции (слово после стемминга, после двоеточия количество страниц коллекции, на которых оно встречается):

оелтпжймпч: 6

руссок: 6

2sd: 6

единк: 6

соправлен: 6

рaсстоян: 6

обрхзбмп: 6

elus: 6

бегyщ: 6

a420: 6

Так эти термы стречаются не 1-2 раза, а 6(!), и при этом размерность 450 000 (то есть, если оставить только слова, встречающиеся не реже чем в 6 документах, размерность про-ва будет 450 тысяч)! Зачем таскать этот мусор за собой и обсчитывать выборку по полгода?!

вопрос в том, где найти формулу оптимального размера словаря/пространства, когда выкидываются упомянутые Hapax Legomena (редкие, но неважные слова), но сохраняются узкоспециализированные, но важные слова

На опыте. Проверьте про-ва различной размерности и их влияние на полноту/точность/F-меру. А вообще, лично мне кажется, что использовать пр-ва выше 500 000 тысяч - заведомый перебор.

а еще лучше как-то распознавать важность слов, если собирается пространство для какой-то определенной темы, и выбирать их по этому критерию, а не по частоте

Существует куча методов. Себастиани о них (если ничего не путаю) также упоминает. МОжно еще посмотреть A comparative study on feature selection in text categorization

Собственно, чтд.

Я думаю тут речь о другом. Есть такой закон распределения Ципфа (-Мандельброта). Если утрировать, то наибольшее количество слов в языке это низкоранговые слова (иными словами - основная масса слов встречается в текстах чрезвычайно редко).

Тут он говорит, что сократив размерность исходного пр-ва признаков в 10 раз качество практически не ухудшилось. Естественно, если, к примеру в народовской коллекции РОМИПа словарь (уже после стемминга и удаления слов, встречающихся реже чем в 5 документах) составляет около 500 000 термов, то сократив его в 10 раз (до 50 000 за счет удаления более низкоранговых термов) мы вряд ли особо потеряем в качестве. Тем более если количество рубрик невелико.

Так, что думаю, здесь речь шла именно об этом (если я правильно понял Себастиани), а не о том, чтобы оставить 100 наиболее высокоранговых слов.

Всего: 62