Автоматизация проверки уникальности контента сайта

12
В десятке
На сайте с 17.08.2007
Offline
135
4043

Кто-нибудь сталкивался с задачей автоматизации проверки страниц сайтов на уникальность?

Т.е. есть задача, к примеру, взять интернет-магазин с новостями, товарами и услугами, и проверить все, или основную часть (возможно ограничиться 2-3 УВ?) его страниц на уникальность. Ну и так по всем потенциальным и продвигаемым проектам, т.е. ручками тут уже не справишься.

Базовый принцип понятен: выкачиваем до необходимого лимита/глубины страницы проверяемого сайта, устанавливаем длину шингла, бьём проверяемый текст, и получившийся массив проверяем в Яндексе (допустим, что вопрос с капчей является решённым), получаем адреса топ5 по каждому шинглу, и проверяем каждый адрес по всему массиву, устанавливая % уникальности.

Вопрос: в чём я ошибся, где подвох? )

AS
На сайте с 12.01.2011
Offline
25
#1

Имея урл всех страниц, можете проверить на уникальность каждую в allsubmitter последнем

[Удален]
#2

Есть онлайн-сервисы по проверке на уникальность.

Можно их с помощью CURL прогнать

В десятке
На сайте с 17.08.2007
Offline
135
#3

Сторонние сервисы - это сторонние сервисы, нужен собственный инструмент. Поэтому интересует опыт людей, которые решали подобный вопрос.

makabra
На сайте с 10.08.2007
Offline
116
#4

В десятке, смотрите в программе Etxt Антиплагиат (меню "Операции" -> "Проверка сайта").

В десятке
На сайте с 17.08.2007
Offline
135
#5
makabra:
В десятке, смотрите в программе Etxt Антиплагиат (меню "Операции" -> "Проверка сайта").

Что мне там посмотреть? Я и адвего плагиатус могу посомтреть... но что мне это даёт?

Меня интересует вопрос сокращения запросов к Яше, представляете сколько потребуется запросов на проверку страницы из 400 слов? Если исходить из числа слов в шингле - 8, то ровно 50 запросов. А если страниц 1000? А если данную операцию нужно выполнить в огромном кол-ве потоков? ...

Вообщем меня интересуют более "умные" схемы, например получение первоначальных результатов через Гугл, Яху, а потом уже перепроверка найденых совпадений в Яше. Ну это к примеру.

makabra
На сайте с 10.08.2007
Offline
116
#6

В десятке, Вы бы в возможностях существующего софта для начала разобрались. Как Вы собираетесь проверять целиком сайт в Advego Plagiatus?

Хотите сократить число обращений к Яндексу? Etxt Антиплагиат -> Настройки -> Общие -> установите желаемый "Размер выборки в словах", "Число выборок". Включите antigate, нормальную задержку и занимайтесь своими делами. И хоть миллион запросов делайте! Вам что надо, убедиться в уникальности контента или быстренько симулировать проверку?

В десятке:

получение первоначальных результатов через Гугл, Яху, а потом уже перепроверка найденых совпадений в Яше. Ну это к примеру.

И что же тут "умного". Вы знаете, что поисковая база Google заметно больше, чем у Яндекса? Материал НЕ уникальный в Google, будет полностью уникален в Яндексе. И в чем же смысл перепроверки?

Единственное ПО, способное проверять на уникальность целиком сайт - Etxt Антиплагиат.

[Удален]
#7

В десятке

http://searchcopy.ru/ отличная идея был у данного владельца сервиса.

http://miratools.ru/ рабочий вариант, но дорогой.

кто-то на форуме выкладывал свои наработки.

А вообще считаю, тема актуальная и непонятно, почему ее не развивают)

Петр Елагин
На сайте с 21.03.2007
Offline
197
#8
В десятке:
Кто-нибудь сталкивался с задачей автоматизации проверки страниц сайтов на уникальность?
Т.е. есть задача, к примеру, взять интернет-магазин с новостями, товарами и услугами, и проверить все, или основную часть (возможно ограничиться 2-3 УВ?) его страниц на уникальность. Ну и так по всем потенциальным и продвигаемым проектам, т.е. ручками тут уже не справишься.

Базовый принцип понятен: выкачиваем до необходимого лимита/глубины страницы проверяемого сайта, устанавливаем длину шингла, бьём проверяемый текст, и получившийся массив проверяем в Яндексе (допустим, что вопрос с капчей является решённым), получаем адреса топ5 по каждому шинглу, и проверяем каждый адрес по всему массиву, устанавливая % уникальности.

Вопрос: в чём я ошибся, где подвох? )

Слишком по детски проверять по шинглам. )))) имхо.

[Удален]
#9

AlienZzzz а как по другому?;)

Петр Елагин
На сайте с 21.03.2007
Offline
197
#10
russ25:
AlienZzzz а как по другому?;)

а тебе лысый я скажу в Аське )

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий