PHWizard

Рейтинг
121
Регистрация
05.12.2004
Должность
CEO
Интересы
blockchain, AI, enterprise software, IoT, space exploration

Большое спасибо за ответы.

sokoloff:
Ответ сильно зависит от того, какую метрику вы использовали для измерения этих величин. Кстати, у вас не ясно это сходство или расстояние, это тоже важно.

Это сходство (т.е. похожесть документов по тематике в

понятии среднестатистического человека).

Имеется в виду идеальная величина, хотя на практике мы можем, конечно, взять евклидовы расстояния между векторами имеющихся документов.

Я сейчас экспериментирую с SOM (Self Organising Map) Кохонена, и мне вот стало интересно, какая размерность должна быть у этой SOM, чтобы расставить документы с минимальными потерями. Без потерь, видимо, невозможно, я раньше пришел к тем же выводам что и Aleksey01. Если я правильно понял Ваш пост, оптимальная размерность будет логарифм от числа документов, т.е., например, log(700)=2.8 получается, небольшую коллекцию вполне реально отобразить в 3D. При этом расстояния между ними должны (по идее) отображать релевантность ближе к идеалу, чем евклидовы расстояния между входными векторами. Верно?

"розщитана" там где про imatch

http://lsa.colorado.edu/

(с www не работает)

оказывается, про такую мегаонтологию в википедии всё написано:

http://en.wikipedia.org/wiki/Upper_ontology_%28computer_science%29

(решил добавить ссылку для тех кто может еще будет этим интересоваться)

Rusl:

Так эти термы стречаются не 1-2 раза, а 6(!), и при этом размерность 450 000 (то есть, если оставить только слова, встречающиеся не реже чем в 6 документах, размерность про-ва будет 450 тысяч)! Зачем таскать этот мусор за собой и обсчитывать выборку по полгода?!

Верю.

Я написал "грубого", потому что вместе с мусором вылетит хоть и чуть-чуть, но полезных слов. В то же время, очень много незначащих слов попадает в пр-во, в топ, так сказать. Всё это имеет мало эффекта, в соответствии с тем что вы говорите с Себастьяни, но небольшая погрешность в итоге есть, я считаю.

Т.е. по-моему, "не грубый" метод должен распознавать где мусор, а где нет. Но это уже не статистический подход.

Rusl:

На опыте. Проверьте про-ва различной размерности и их влияние на полноту/точность/F-меру. А вообще, лично мне кажется, что использовать пр-ва выше 500 000 тысяч - заведомый перебор.

Было бы интересно сделать такой опыт, только это время, время :)

Rusl:

Существует куча методов. Себастиани о них (если ничего не путаю) также упоминает. МОжно еще посмотреть A comparative study on feature selection in text categorization

спасибо

не могу добавить вам к репутации, говорит что надо сначала еще кому-то :)

Rusl:
Собственно, чтд.

всем спасибо

теперь начинаю понимать :)

т.е. идея такая, что даже в случае с узкоспециализированными словами, они в большинстве случаев попадут в пространство, т.к. будут встречаться в документах довольно часто

получается, это просто оправдание, хотя и не лишенное смысла, для грубого метода уменьшения размерности

вопрос в том, где найти формулу оптимального размера словаря/пространства, когда выкидываются упомянутые Hapax Legomena (редкие, но неважные слова), но сохраняются узкоспециализированные, но важные слова

а еще лучше как-то распознавать важность слов, если собирается пространство для какой-то определенной темы, и выбирать их по этому критерию, а не по частоте

если бы была решена проблема с размерностью, синонимией и прочее, это всё было бы не нужно

Написал. Товарищ Себастьяни ответил, представляете :)

вот его ответ (cиним - мой квоттинг):


> The question is how this can be that most frequent words are most
> valuable? I can't see how the contradiction with the law you mention
> is resolved in this case.

> If the most frequent words were indexed for each document - it
> would make sense. But when the most frequent words of the whole
> collection are taken - does it really work? Could you please comment > on this?

The basic observation is that a large proportion (say, 60%) of the
words that occur at least once in a collection occur exactly once
(these words are called Hapax Legomena in the computational
linguistics literature). And it may be that another 30% of the words
that occur at least once in a collection occur exactly twice. If so,
if you only keep the 10% of the words that occur most frequently in
your training set, you are keeping those that occur three times or
more. And you may safely assume that it is to this set that the
really useful words belong, since the words that occur only once or
twice are hardly useful (their occurrence statistics is not robust
enough to guarantee that if you use them in your derived model they
will give a sensible contribution). Of course, the set you have kept
also contains the words that occur zillions of times in the training
set, and they are unlikely to be of interest; but the words that
occur zillions of times are really, really few, and they are
inoffensive.

Hope this helps

Cheers Fabrizio

bvd:
можно обсуждать или не обсуждать, без проведения экспериментов, такая функция ничем не хуже других

Мне эта функция кажется очевидно нелогичной.

Конечно, наверное можно и для неё датасет найти подходящий, но в большинстве случаев такое должно выдавать какие-то общие слова, их же все в stopwords не запишешь.

Но как-то странно это утверждение выбивается из всей статьи, вроде бы все так по делу написано, а тут такое утверждение. Я надеялся что кто-то пояснит.

Tow:
PHWizard, так вроде есть уже подобная модель используется в системах искуственного интелекта, но для определения релевантности документов (чем в общем-то мы и занимаемся) она, имхо, не подходит...

что за модель?

talia:
оффтоп
Почему-то "космические масштабы" ассоциируются с "космической глупостью". Вот он, наш менталитет, млин. :) Поэтому так плохо живем, наверное... :)

Да я так и задумал :) Чтоб люди не стеснялись комментить. А то на прошлый мой топик вообще ответов не было. Этот хоть и в курилку переместили, зато хоть какая-то обратная связь.

talia:

Топикстартер, если Вам действительно интересно это сделать - делайте математическую модель. Или найдите чела, который ее может сделать. Без математики - все это просто треп.

Интересно. Может быть в ближайшем будущем. Сейчас я кое-что другое делаю.

Всего: 70