Как найти повторы внутри текста?

porh
На сайте с 14.06.2006
Offline
169
3241

Появилась необходимость проверки больших страниц сайта, или текстовых файлов, (более 200kb) на наличие повторов внутри текста.

Как бы это попроще проделать? Может быть, программа подходящая есть?

кот Бегемот
На сайте с 07.12.2009
Offline
278
#1

https://text.ru/ здесь можно проверить там одинаковые слова подсвечиваются

Яндекс Директ, Гугд адворс, не дорого и ответственно. Телеграмм @H_Ilin
porh
На сайте с 14.06.2006
Offline
169
#2

Если подробнее, нужно подсветить похожие куски внутри текста. Поиск по шинглам нужен, видимо. Количество символов в тексте более 200к.

кот Бегемот
На сайте с 07.12.2009
Offline
278
#3

Вот здесь тема есть, почитайте

porh
На сайте с 14.06.2006
Offline
169
#4
garik77:
Вот здесь тема есть, почитайте

Почитал, спасибо.

Если еще подробнее, есть результат работы парсера текстов в интернете по ключу. Спаршенные тексты находятся в одном файле. Парсер фильтрует дубли текстов по доменам, но пропускает, если они находились на разных сайтах. Нужно подсветить эти дубли, возможно, нечеткие.

Александр
На сайте с 17.07.2009
Offline
371
#5

лучше написать свой скрипт.

Сайты на WordPress тут просто летают! (https://vk.cc/atAGUU)
porh
На сайте с 14.06.2006
Offline
169
#6

Да, видимо, готового решения нет.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий