Как найти повторы внутри текста?

porh
На сайте с 14.06.2006
Offline
182
3326

Появилась необходимость проверки больших страниц сайта, или текстовых файлов, (более 200kb) на наличие повторов внутри текста.

Как бы это попроще проделать? Может быть, программа подходящая есть?

кот Бегемот
На сайте с 07.12.2009
Offline
316
#1

https://text.ru/ здесь можно проверить там одинаковые слова подсвечиваются

Яндекс Директ, Гугд адворс, не дорого и ответственно. Телеграмм @H_Ilin
porh
На сайте с 14.06.2006
Offline
182
#2

Если подробнее, нужно подсветить похожие куски внутри текста. Поиск по шинглам нужен, видимо. Количество символов в тексте более 200к.

кот Бегемот
На сайте с 07.12.2009
Offline
316
#3

Вот здесь тема есть, почитайте

porh
На сайте с 14.06.2006
Offline
182
#4
garik77:
Вот здесь тема есть, почитайте

Почитал, спасибо.

Если еще подробнее, есть результат работы парсера текстов в интернете по ключу. Спаршенные тексты находятся в одном файле. Парсер фильтрует дубли текстов по доменам, но пропускает, если они находились на разных сайтах. Нужно подсветить эти дубли, возможно, нечеткие.

Александр
На сайте с 17.07.2009
Offline
371
#5

лучше написать свой скрипт.

Сайты на WordPress тут просто летают! (https://vk.cc/atAGUU)
porh
На сайте с 14.06.2006
Offline
182
#6

Да, видимо, готового решения нет.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий