База документов с известной похожестью

P
На сайте с 05.12.2004
Offline
121
951

Подскажите, пожалуйста, существуют ли базы документов (больше интересует для английского) с прописанными численными значениями похожести между документами в этой базе (с точки зрения здравого смысла), чтоб можно было тестить на них свои алгоритмы категоризации текстов?

Dappros: your private business blockchain in the cloud (https://www.dappros.com/)
L
На сайте с 02.05.2004
Offline
35
#1
PHWizard:
Подскажите, пожалуйста, существуют ли базы документов (больше интересует для английского) с прописанными численными значениями похожести между документами в этой базе (с точки зрения здравого смысла), чтоб можно было тестить на них свои алгоритмы категоризации текстов?

Базы документов не знаю, а вот поиск документов похожиз по содержанию есть в SearchInform и для тестировки хватит даже free версии у которой единственное ограничение -- индексит не более 1 гига. Ну а платные версии легко и полтера могут проиндексить.

Смотрите www.searchinform.ru

Leo www.searchinform.ru (www.searchinform.ru)
P
На сайте с 05.12.2004
Offline
121
#2

Спасибо, конечно, но мне надо потестить свои скрипты, а не ваши.

Странно, что никто здесь не написал про базы OHSUMED или Reuters, я бы их использовал, но не хватает вычислительной мощности, чтобы обсчитывать такие большие вектора.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий