Софт для поиска нечетких дубликатов страниц

BlagFurer
На сайте с 09.12.2009
Offline
79
1328

Всем привет, помогите с поиском сервиса / софта.

Хочу "позадротсвовать" на тему уникальности контента на сайте. Обычно для поиска полных дубликатов пользую SEO scriaming frog и на этом останавливаюсь. Но на одном из сайтов обнаружил, что иногда контент менеджер мог запостить одну статью два раза с немного разными заголовками. Статей не много и можно перебрать ручками, но возник законный вопрос - как искать на относительно крупных сайтах страницы с неполными дублями контента?

Посёрчил. На поверхности оказался только буржуйский siteliner (кусок copyspace) - он 100% умеет как мне надо. Но меня смутила корректность работы самого парсера - он явно косячный. Я молчу про цену в долларах с привязкой к количеству страниц.

Нашел еще пару сервисов:

На первом (seotome) мне стало не понятно как использовать информацию о не полных дубликатах. Сервис только показал, что определенные страницы похожи и даже показал степень схожести... а что конкретно похоже (как в siteliner) не показал. Если ничего более толкового не найду, то заюзаю его да и остальные функции понравились.

Второй сервис (sitecontrol) только по описанию так умеет и для проверки работы надо ставить на сервер. Пока не дотянулись руки.

Кто каким софтом пользуется для поиска нечетких дубликатов в рамках сайта? Буду очень благодарен за совет. Из требований - желательно русскоязычный. Подсветка того, что похоже на страницах будет очень большим плюсом. Если будет показывать орфографические ошибки, спамность, водянистость текста да еще и можно будет сразу отправить текст на проверку уникальности - будет вообще супер!

TF-Studio
На сайте с 17.08.2010
Offline
334
#1

если вы видели где-то сам алгоритм сравнения, его техническое описание - то можно реализовать

Всё ещё лучший способ заработка для белых сайтов: GoGetLinks (https://www.gogetlinks.net/?inv=fahbn8).
BlagFurer
На сайте с 09.12.2009
Offline
79
#2

Ну я уверен, что найти алгоритм на такую штуку совсем не сложно, сервисам по поиску неуникального контента уже много лет. С технической документацией сложнее. Ну в крайнем случае можно взять API того же text.ru

Готовый софт конечно более предпочтительный.

TF-Studio
На сайте с 17.08.2010
Offline
334
#3

/ru/forum/922611

пробовал.

не нашел.

а тема интересна

BlagFurer
На сайте с 09.12.2009
Offline
79
#4

Хо-хо. Проблема глубже чем я думал. Получается, что кроме seotome и siteline больше ничего нет в этой области. Прикольно.

А sitecontrol никто не юзал как я понимаю?

sear4er
На сайте с 04.03.2010
Offline
742
#5

Олсабмиттер.

Профессиональный SEO аудит с гарантией результата (форум). (/ru/forum/824674) EVOLUTION SEO - Оптимизация, продвижение сайтов, вывод из под фильтров (личный сайт). (https://evoseo.ru) Бесплатные SEO консультации. (https://evoseo.ru/seo-consultaciya/)
W
На сайте с 13.09.2013
Offline
122
#6
BlagFurer:
Хо-хо. Проблема глубже чем я думал. Получается, что кроме seotome и siteline больше ничего нет в этой области. Прикольно.

А sitecontrol никто не юзал как я понимаю?

В принципе, для новых проектов пользуюсь seoto.me, найти совпадающие блоки несложно. А вообще, нечёткие дубли на сайте - это проблема, которая должна быть решена ещё на этапе проектирования сайта, они ведь из ниоткуда не берутся, поэтому надо описать механизм работы для контентщиков и делать внушение тем, кто привык к бездумному копипасту. Ну а для проверки уникальности текста в интернете есть куча сервисов с API.

Sitereport должен показывать дубликаты на сайте, но ценник у них совсем не гуманный, особенно для средних проектов на 10-30 тысяч страниц.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий