Поиск дублей страниц на сайте

L
На сайте с 27.11.2011
Offline
44
539

Добрый день.

Требуется помощь в поиске дублирующихся страниц на сайте. Поиск должен быть именно по сайту, не поиск плагиата через Google и Yandex. А именно сравнение всех статей и выдача дублирующихся. Страницы могут дублироваться на 80 и менее процентов. Могут быть полностью дублями. Главное, проверять, если контент двух (и более) страниц совпадает на 50% - их можно заносить к дублям.

Сайт на WordPress, статей несколько тысяч. Руками вариант не подходит.

В идеале, как мы это видим - это скрипт, который будет все эти странички сканировать и выдавать список URL с дублями. Желательно все автоматизировать.

Если готового решения не встречалось вам - подскажите-сориентируйте, сколько это может стоить.

Спасибо.

yet_warm
На сайте с 26.05.2007
Offline
129
#1

Под дублями страниц обычно понимают одинаковые страницы с разными урлами.

А уникальность вроде eTXT может проверять по сайту, глянь на офсайте.

Многие хотят попасть в рай, мало кто хочет для этого умирать.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий