Алгоритмы определения нечетких дубликатов

1 234
I
На сайте с 26.05.2001
Offline
64
#31

а откуда я знаю, я же не собираюсь туда идти :-)

Sonja:
Какая вакансия, если не секрет? 🙄 ;)
Приходите завтра, завтра будет! (http://itman666.livejournal.com)
I
На сайте с 26.05.2001
Offline
64
#32

Да еще NDA нужно подписывать, чтобы сходить на собеседование. Просто полная параноя.

ХренРедькиНеСлаще
На сайте с 27.07.2006
Offline
57
#33
iseg:
Пусть "частота" это нормированная внутридокументная частота слова в документа (TF), лежащая в диапазоне 0..1, где 1 частота самого частого слова в документе.

iseg, очень интересует, в Большом Яндексе (не Я-сервере), "1" - это учет только одной уникальной словоформы, или учет словоформы со всеми видами (падежи, мн/ед, загл/прописн,...) ??? И учитываются ли слова в ссылках внешних и внутренних на данный документ?

Или для текстов ссылок на данную страницу как бы создается "ссылочный спутник" страницы (тексты ссылок на данный документ-оригинал), для него (и всех спутников) считается tf-idf, независимый от расчета tf-idf оригинала страницы, проводится аналогичный подсчет, о котором Вы только что написали, а в конце проводится слияние похожих документов оригиналов с похожими документами-спутниками?

Дайте мне рюмку опоры и мир засветится всеми цветами радуги.
1 234

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий