Скрипт для определения копий контента

Krick
На сайте с 25.05.2007
Offline
159
1026

Уважаемые форумчане, много говорилось о пессимизации сайтов из-за неуникальности текста, и вот я, с одним моим товарищем решил написать скрипт, такой чтобы:

1. определял копии текста со всех странниц сайта

2. находил сайты с похожим контентом

3. Функции таймера (допустим раз в сутки автоматически запускался-не знаю,возможно это сделать, но сотоварищ говорит можно)

Вот что хочу спристь, что еще добавить желательно к функциям скрипта?может этим уже кто занялся(чтобы время на написание не тратить)?

Отличные рецепты (https://shefcook.ru/)
fima32
На сайте с 12.01.2006
Offline
132
#1
Krick:
определял копии текста со всех странниц сайта

Это он сам искать будет или пользоваться поисковиками(копискейпом)?

Если поисковиками, то как будете обходить бан айпи за превышение количества запросов(предположим у меня сайт на 5000 страниц)

Krick
На сайте с 25.05.2007
Offline
159
#2
fima32:
то как будете обходить бан айпи за превышение количества запросов(предположим у меня сайт на 5000 страниц)

Много методов всяких есть, кто Вам сказал, что запросы будут происходит разово?

Ну кстати, наверное надо ставить лимит на кол-во страниц, есть сайты и 100000 стараниц, "завис" будет...

Disell
На сайте с 05.06.2006
Offline
253
#3

забаню нафиг по ip - и так надоели левые поисковики и всякие парсеры.

Лучшие вакансии ( http://hh.ru ) РУнета. Построй свою карьеру ( http://career.ru )
Krick
На сайте с 25.05.2007
Offline
159
#4
Disell:
забаню нафиг по ip - и так надоели левые поисковики и всякие парсеры.

это к чему?

B
На сайте с 22.07.2007
Offline
252
#5

Мне вот кажется,

Что смысла в этом нет.

Ну сделаете вы свой уникальный контент. После появление его в индексе его тупо копируют и раздербанят на саттелиты.

Что вы будете делать если обнаружите копии? Писать новый контент? А смысл? Его всеравно сопрут и рерайтнут ;)

Natata
На сайте с 19.02.2007
Offline
148
#6

Нет ничего важнее человеческого фактора, даже в жизни и в природе (глобальное потепление), все зависит от человека. Так что скрипт Вас - не спасет !!! ☝

[Удален]
#7

Зачем раз в сутки проверять-то? В лучшем случае после каждого апдейта Яндекса.

В принципе скрипт очень простой, особенно, если на сайт каждый день добавляются уникальные тексты, то можно заносить либо по 3-4 фразы из них в базу для проверки, либо скрипт сам будет выбирать случайные фразы из уже существующих страниц.

Krick
На сайте с 25.05.2007
Offline
159
#8

XTR, полностью согласен

Mishael
На сайте с 08.11.2001
Offline
217
#9

только не забудьте приводить буквы к единому виду, а то только что, на башорге смеялись про систему поиска плагиата по рефератам которую школьнеги обходили меняя русские буквы на англицкие такого же начертания. Пpeвeд :)

Мой надежный веломагазин (https://veliki.com.ua/) на CMS Melbis Shop 6 (http://www.melbis.com/)
Mishael
На сайте с 08.11.2001
Offline
217
#10
Baruchka:
Мне вот кажется,
Что смысла в этом нет.

Ну сделаете вы свой уникальный контент. После появление его в индексе его тупо копируют и раздербанят на саттелиты.
Что вы будете делать если обнаружите копии? Писать новый контент? А смысл? Его всеравно сопрут и рерайтнут ;)

Ну во первых, не факто что сразу сопрут. Горы контента лежат неспионеренны несмотря на отдельные темы на форуме :) Кроме того, если вы на контент ставите ссылки - то он как главный и определится. Так что пусть тырят.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий