База документов с известной похожестью

121

PHWizard

27 апреля 2007, 12:03

971

Подскажите, пожалуйста, существуют ли базы документов (больше интересует для английского) с прописанными численными значениями похожести между документами в этой базе (с точки зрения здравого смысла), чтоб можно было тестить на них свои алгоритмы категоризации текстов?

Dappros: your private business blockchain in the cloud (https://www.dappros.com/)

L

35

Leom

19 мая 2007, 22:05

#1

PHWizard:
Подскажите, пожалуйста, существуют ли базы документов (больше интересует для английского) с прописанными численными значениями похожести между документами в этой базе (с точки зрения здравого смысла), чтоб можно было тестить на них свои алгоритмы категоризации текстов?

Базы документов не знаю, а вот поиск документов похожиз по содержанию есть в SearchInform и для тестировки хватит даже free версии у которой единственное ограничение -- индексит не более 1 гига. Ну а платные версии легко и полтера могут проиндексить.

Смотрите www.searchinform.ru

Leo www.searchinform.ru (www.searchinform.ru)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

P

121

PHWizard

20 мая 2007, 13:33

#2

Спасибо, конечно, но мне надо потестить свои скрипты, а не ваши.

Странно, что никто здесь не написал про базы OHSUMED или Reuters, я бы их использовал, но не хватает вычислительной мощности, чтобы обсчитывать такие большие вектора.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Вышел новый Яндекс Браузер с YandexGPT и YandexART

Переиграть и победить: как анализировать конкурентов для продвижения сайта