Нужен сервис по пакетному определению уникальности текстов

S
На сайте с 15.03.2009
Offline
84
353

Нужна помощь. Есть туристический сайт, который сквозит текстами - описаниями туров, которые, конечно, находятся не только на данном сайте.

Нужно просканить все страницы сайта и получить список страниц, которые необходимо закрыть от индексации (то есть список с плагиатом).

Что сможете подсказать?

Занят производством новых идей
Z
На сайте с 06.01.2007
Offline
25
#1

тут все очень просто, вспоминаем что яндекс не показывает дубликаты в выдаче, поэтому берем и ставим запоминалку переходов с рефер. по поисковому запросу и исключаем страницы которые вообще не ищутся, немного грубо, но имхо если сайт болшой хмл запросов не хватит чтоб проверить.

мим
На сайте с 07.08.2009
Offline
13
#2

smallkreker, упс, ошибся. потерто.

S
На сайте с 15.03.2009
Offline
84
#3
zerg:
тут все очень просто, вспоминаем что яндекс не показывает дубликаты в выдаче, поэтому берем и ставим запоминалку переходов с рефер. по поисковому запросу и исключаем страницы которые вообще не ищутся, немного грубо, но имхо если сайт болшой хмл запросов не хватит чтоб проверить.

Наверное, пока не подойдет, так как молодой сайт. Еще много вне индекса....

Вообще, seolib вроде показывает такую возможность, но не работает...(

Z
На сайте с 06.01.2007
Offline
25
#4

то есть тебе нужно выкинуть то что пока не в индексе и уже в индексе?

аллсаб поможет если не много инфы в ручную, если много, проще сначала выдрать с базы все статьи и потом через хмл проверять, даже если по предложению сравнивать (5 совподений - копия) максимум ты проверишь за день 200 статей.

2 выход то что уникально ты знаешь используй директиву Allow а все остальное запрети

http://help.yandex.ru/webmaster/?id=996567

можно еще сделать так

User-agent: Yandex

Allow: /showthread.php?t=432681

Disallow: /showthread.php*

и как сразу сказал то что будет искатся к примеру в гугл добавлять в Allow, получится что движок сам будет для яндекса уникальные статьи добавлять

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий