Пакетная проверка уникальности текстов.

KX
На сайте с 08.05.2006
Offline
70
KVX
2619

Подскажите, если ли программа или сервис, чтобы проверить уникальность контента сразу большого числа страниц сайта, например загнав в нее список урлов проверяемых страниц? Или например задав адрес сайта, программа сама пропарсила все страницы сайта и проверила их все на уникальность?

Sculptor
На сайте с 11.06.2005
Offline
179
#1

А вот купил бы такой софт... от $50-70 и более... пакетный. Именно анализатор урлов внешних на уник. Это и свои сайты чекать на воровство помогло бы постоянно, особенно в свете последних событий с bdbd (якобы их выбили своровав у них контент), и, что самое главное, оценивать качество доноров.

Такой софт весьма бы пригодился для отсева отвратно работающих страниц в биржах. Не секрет, что огромное количество сайтов имеют дублированный граберами контент, там может быть и тиц100 и пр3, и индексированность, а для яндекса страница быть далеким неуником. Это большой вопрос - насколько хуже с неуника передается ссылочное, но если страница в невидимом индексе (показать все страницы без исключения), то практика показывает что ссылка оттуда несмотря на индексацию ее работает спорно или слабо. По крайней мере проекты на которые нудно и тяжко проверялись доноры на предмет уника страницы очень хорошо себя чувствуют. Это во многом просто еще и качество сайта в целом показывает - уникальное наполнение.

Кроме того дикое количество служебных страниц продается с вполне нормальных сайтов - всякие там страницы с превью статей, с карт сайтов, со страниц дублированного контента, вообщем страницы которые можно найти по унику только "еще с сайта" - тоже тут вопросы возникают, насколько такие страницы работают, по сравнению с основной страницей находящейся по унику с текстом.

ЕСЛИ БЫ можно было бы реализовать программу, которая:

  • Берет некий шингл-пассаж со страницы донора сайта, возможно исключая пассажи с большим количеством стоп слов или по словарику слов с легкими весами (компания, технические характеристики - ну то что часто встречается в текстах); хотя это необязательно при нескольких разных итерациях проверки.
  • Делает запрос к Яндексу, получая выдачу в 10 урлов (как делать запрос - через кавычки или нет, нужно сообразить).
  • Ищет урл донора среди них и указывает а)место сайта б)выдается ли точный урл страницы или урл домена, но с другой страницой.
  • Повторяет несколько итераций для верности из разных мест кода, отсеивая короткие фрагменты текста, хтмл и ссылки.

*)И все это пакетно, из .txt списка урлов, чтобы не торопясь урлов 300-400 за несколько часов в один-два потока анализировало. Хотя и прокси не помешали бы. Ну и по размышлению еще можно всяких потом фич прикрутить, типа вычисления возраста страницы через вебархив, анализ некоего количества страниц с сайта в целом, чтобы определить вообще сайт на предмет пропорции своего и тыренного текста, коннект к урлам через API сапы (ну это уже баловство) и т.п..

Если кого-то такой софт тоже интересует - отписывайтесь в этой теме или в ЛС (или аська и мыло, см в профиле). Если 3-4 человека со мной соорганизуются по $30-50, можно будет заказать такое здесь или на фрилансе всяком. Естественно нужно продумывать многое, т.к. в чистом виде слишком примитивно.

Если такое уже есть - буду ну весьма признателен за ссылку. В принципе и отгугловый подошел бы анализатор.

Дорого куплю ссылки со строительных сайтов, не находящихся в биржах и не продающие ссылки.
PoMka
На сайте с 22.07.2007
Offline
55
#2

+1 за серверную реализацию

Как наберете - сучите

ЗЫ: Можем и на двоих сообразить

Ася: 46221восемь67восемь

WebSeizeTool (http://webseizetool.com) - Инструмент для работы с cPanel, ISPmanager, Plesk - через один интерфейс!
mumur
На сайте с 27.07.2006
Offline
168
#3

Если в виде скрипта или приложения на продажу, то интересно

KX
На сайте с 08.05.2006
Offline
70
KVX
#4

да, я тоже готов 30-50$ выделить на это дело

praide
На сайте с 20.07.2007
Offline
269
#5
mumur:
Если в виде скрипта или приложения на продажу, то интересно

Возмите скрипт, доработайте немного, скрипт стабильный, только по большим текстам 504

Для пакетной обработки прикрутить список урлов из Яши или Гугла не сложно для грамотного прогера.(( не успевает сервак) http://nado.su/downloads.html / Старый вариант декстопной проги не берите... скоро новый будет.

"Наши летатели идут к смерти верным и скорым шагом." Антуан де Сент-Экзюпери Возьму пару проектов на продвижение. По себестоимости возьму на продвижение"песочный" сайт.
[Удален]
#6

praide, заинтересовала ваша програмка. Как скоро будет новая версия десктопного варианта? на сайте не указана актуальная версия, как узнать об обновлении?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий