Большое спасибо за ответы.
Это сходство (т.е. похожесть документов по тематике в
понятии среднестатистического человека).
Имеется в виду идеальная величина, хотя на практике мы можем, конечно, взять евклидовы расстояния между векторами имеющихся документов.
Я сейчас экспериментирую с SOM (Self Organising Map) Кохонена, и мне вот стало интересно, какая размерность должна быть у этой SOM, чтобы расставить документы с минимальными потерями. Без потерь, видимо, невозможно, я раньше пришел к тем же выводам что и Aleksey01. Если я правильно понял Ваш пост, оптимальная размерность будет логарифм от числа документов, т.е., например, log(700)=2.8 получается, небольшую коллекцию вполне реально отобразить в 3D. При этом расстояния между ними должны (по идее) отображать релевантность ближе к идеалу, чем евклидовы расстояния между входными векторами. Верно?
"розщитана" там где про imatch
http://lsa.colorado.edu/
(с www не работает)
оказывается, про такую мегаонтологию в википедии всё написано:
http://en.wikipedia.org/wiki/Upper_ontology_%28computer_science%29
(решил добавить ссылку для тех кто может еще будет этим интересоваться)
Верю.
Я написал "грубого", потому что вместе с мусором вылетит хоть и чуть-чуть, но полезных слов. В то же время, очень много незначащих слов попадает в пр-во, в топ, так сказать. Всё это имеет мало эффекта, в соответствии с тем что вы говорите с Себастьяни, но небольшая погрешность в итоге есть, я считаю.
Т.е. по-моему, "не грубый" метод должен распознавать где мусор, а где нет. Но это уже не статистический подход.
Было бы интересно сделать такой опыт, только это время, время :)
спасибо
не могу добавить вам к репутации, говорит что надо сначала еще кому-то :)
всем спасибо
теперь начинаю понимать :)
т.е. идея такая, что даже в случае с узкоспециализированными словами, они в большинстве случаев попадут в пространство, т.к. будут встречаться в документах довольно часто
получается, это просто оправдание, хотя и не лишенное смысла, для грубого метода уменьшения размерности
вопрос в том, где найти формулу оптимального размера словаря/пространства, когда выкидываются упомянутые Hapax Legomena (редкие, но неважные слова), но сохраняются узкоспециализированные, но важные слова
а еще лучше как-то распознавать важность слов, если собирается пространство для какой-то определенной темы, и выбирать их по этому критерию, а не по частоте
если бы была решена проблема с размерностью, синонимией и прочее, это всё было бы не нужно
Написал. Товарищ Себастьяни ответил, представляете :)
вот его ответ (cиним - мой квоттинг):
> The question is how this can be that most frequent words are most > valuable? I can't see how the contradiction with the law you mention > is resolved in this case. > If the most frequent words were indexed for each document - it > would make sense. But when the most frequent words of the whole > collection are taken - does it really work? Could you please comment > on this?
The basic observation is that a large proportion (say, 60%) of the words that occur at least once in a collection occur exactly once (these words are called Hapax Legomena in the computational linguistics literature). And it may be that another 30% of the words that occur at least once in a collection occur exactly twice. If so, if you only keep the 10% of the words that occur most frequently in your training set, you are keeping those that occur three times or more. And you may safely assume that it is to this set that the really useful words belong, since the words that occur only once or twice are hardly useful (their occurrence statistics is not robust enough to guarantee that if you use them in your derived model they will give a sensible contribution). Of course, the set you have kept also contains the words that occur zillions of times in the training set, and they are unlikely to be of interest; but the words that occur zillions of times are really, really few, and they are inoffensive. Hope this helps Cheers Fabrizio
Мне эта функция кажется очевидно нелогичной.
Конечно, наверное можно и для неё датасет найти подходящий, но в большинстве случаев такое должно выдавать какие-то общие слова, их же все в stopwords не запишешь.
Но как-то странно это утверждение выбивается из всей статьи, вроде бы все так по делу написано, а тут такое утверждение. Я надеялся что кто-то пояснит.
что за модель?
Да я так и задумал :) Чтоб люди не стеснялись комментить. А то на прошлый мой топик вообще ответов не было. Этот хоть и в курилку переместили, зато хоть какая-то обратная связь.
Интересно. Может быть в ближайшем будущем. Сейчас я кое-что другое делаю.