Попробуйте выкачать сайты нормальными людьми, а не школьниками прочитавшими книгу - Веб-строительство

Грабят сайт, как обнаружить работу парсера?

veronica45 · 2011-09-14T07:55:22.0000000Z

Есть у меня крупный сайт, с огромной базой. Сайт изначально создавался под большую аудиторию и заточка сайта была под ВЧ запросы, НЧ по возможности... С ростом популярности моего сайта стали появляться и клоны, на фрилансере стабильно появляются запросы на разработку парсера под мой сайт. Как бы я раньше не обращала внимание на клонов, но в последнее время их стало уже очень много! Некоторые клоны теперь в выдаче по НЧ даже выше моего сайта! Надо что то с этим делать... Если есть у кого ни будь какие ни будь предложения по борьбе с граберами, напишите! Можно в ICQ 803090, вознаграждение гарантирую... :)

1778

LEOnidUKG

15 сентября 2011, 14:54

#11

topy:
Есть, конечно, но это усложнит граббинг и школоту отсеет => станет меньше клонов, а я так понял, что небольшое кол-во клонов устраивало ТС.

Позовут меня и всё, будет ещё куча копий 😂

✅ Мой Телеграм канал по SEO, оптимизации сайтов и серверов: https://t.me/leonidukgLIVE ✅ Качественное и рабочее размещение SEO статей СНГ и Бурж: https://getmanylinks.ru/ ✅ Настройка и оптимизация серверов https://getmanyspeed.ru/

5

105

5hark

15 сентября 2011, 19:08

#12

Я подобный пост создавал еще в 2007 году на master-x http://www.master-x.com/forum/topics/93094/ тоже регулярно воровали. В каком то блоге я читал как человек писал владельцам сайтов и говорил что будет на них в суд подавать, потом хостерам, потом еще регистратору домена, вроде как иногда успешно было.

Насчет борьбы с граберами и прочей фигней, сейчас работаю с высоконагруженными сайтами, тоже регулярно грабить пытаются. У нас с ботами разбираются админы. Если с одного айпишника количество запросов в минуту больше чем заданное ими, IP банится на файрволе, самый простой и эффективный метод. Даже если бот на amazon ec2 и постоянно меняют айпишник, то это им быстро надоест.

Бот не будет дергать картинки, js, css как правило. Возможно бот дергает только новые материалы на сайте, в общем смотреть по ситуации надо.

Просто посмотреть айпишники Top-100 граберов/ботов можно и без написания скриптов:

cat ~/logs/apache/access.log | awk '{print $1}' | sort | uniq -c |sort -rn |head -100

Аналитика накрутки поведенческих факторов Обзор тренинга «Лояльные клиенты Элементы успешной контентной стратегии

1778

LEOnidUKG

15 сентября 2011, 19:37

#13

Бот не будет дергать картинки,

Ещё один теоретиГ. Догадаетесь, когда браузер не запрашивает картинки?

J0

48

Jem007

15 сентября 2011, 20:46

#14

А cms не DLE случайно?

Для DLE есть решение защиты контента от грабберов.

http://www.4style.ru/cms/316-zahita-kontente-dle

Вапклик с высоким ратио (https://mcwap.ru/?r=1361)

5

105

5hark

15 сентября 2011, 20:52

#15

LEOnidUKG:
Ещё один теоретиГ. Догадаетесь, когда браузер не запрашивает картинки?

Прежде чем писать тут "теоретиГ", подумал бы головой сначала. Причем тут браузер вообще? Я говорю о типичном поведении бота, который не будет тащить статику и исполнять js.

http://docs.python.org/library/urllib.html

http://ru.php.net/manual/en/function.curl-exec.php

http://www.crummy.com/software/BeautifulSoup/

в помощь

[Удален]

15 сентября 2011, 22:03

#16

Пожаловаться в яндекс и гугль это обязательно. А насчет того, чтобы не грабили, это борьба с ветряными мельницами. Можно в .htaccess запретить показывать ваши картинки на других сайтах. Можно попробовать программно обнаруживать роботов. Просто раньше писал несколько парсеров. Для особо "вредных" жертв применялся полуавтоматический режим, картинки тоже перекачивались. Умный грабер не отличить от браузера. Так что только жаловаться.

twilight_dream добавил 16.09.2011 в 02:10

LEOnidUKG:
Ещё один теоретиГ. Догадаетесь, когда браузер не запрашивает картинки?

Как программист я Вас понимаю :) Ничем от них не спасешься. Только писать на мыло админа домена и пугать судом.

Единственная умная мысля, что все эти советы защитят от дурака и ленивого. Если за вас взялись всерьёз, всё это мертвому припарка.

Яндекс.Поиск: почему находится все Платон Щукин о главной RIW 2010: «Автоматизация анализа

101

vlasoff

16 сентября 2011, 03:21

#17

Защититься невозможно, лишь усложнить жизнь грабберу... кому надо, всё равно всё сграббит

[Удален]

16 сентября 2011, 03:47

#18

5hark:
Прежде чем писать тут "теоретиГ", подумал бы головой сначала. Причем тут браузер вообще? Я говорю о типичном поведении бота, который не будет тащить статику и исполнять js.

http://docs.python.org/library/urllib.html
http://ru.php.net/manual/en/function.curl-exec.php
http://www.crummy.com/software/BeautifulSoup/

в помощь

Даже не теоретиГ, а протиратель штанов.

Хорошо. У меня есть бот. Он тянет 10 статей в неделю с сайта, представляется как IE и тянет картинки вместе с текстом. Чем его поведение типично для бота?

В ПромоСтраницах появились показы Google анонсировал изменения алгоритма Дзен вводит дополнительную систему

5

105

5hark

16 сентября 2011, 07:26

#19

twilight_dream:
Даже не теоретиГ, а протиратель штанов.

Сколько еще у тебя клонов на этом форуме? Количество идиотов на этом форуме давно превышает все разумные пределы, о чем писали в том числе и модераторы этого форума.

Расскажу как выкачиваются сайты нормальными людьми, а не школьниками прочитавшими книгу "Выучи PHP за одну неделю с нуля". Если бы хоть один из вас писал нормальных ботов, чтобы выкачать какой нибудь крупный сайт, не писали бы в топике всякую хрень. Другим людям будет полезно, чтобы знать о проблеме с другой стороны. Если вы делаете ботов с помощью Php human emulator, Firefox iMacros итд - идите пишите дальше.

Задача 1

скачать с сайта www.yell.ru все данные об организациях и занести всё это в базу данных. Для школьников поясняю, в базе данных не нужен весь html мусор и прочее. Т.к. нужна возможность поиска по полям (название организации, улица, район, итд).

1. Сохраняем все категории, пример страницы http://www.yell.ru/avtomobili/

2. Дальше, бот заходит поочередно в каждую категорию (например http://www.yell.ru/avtomobili/azs_garazhi_stojanki/avtozapravochnye_stancii/), проходит все страницы в категории, складывает в таблицу где хранится очередь для скачивания урлов где находится инфа об организациях

Пример:

http://www.yell.ru/AVANTI_MTA_AZS_AVTOSERVIS_MOYKA_1966180/

http://www.yell.ru/LUKOYL_TSENTRNEFTEPRODUKT_3248572/

итд

3. когда по всем категориям прошлись, идем по урлам организаций и сохраняем все данные, типа телефон итд.

Задача 2

Выкачать все тендеры с сайта zakupki.gov.ru

смотрим на урл

http://zakupki.gov.ru/pgz/printForm?type=NOTIFICATION&id=1616926

теперь пишем скрипт не больше 20 строчек, который перебором цифр от 1 до 1616926 выкачивает страницы (которые кстати xml + xslt), парсит всё это и выкладывает в базу.

У многих других сайтов урлы так же сделаны с помощью айдишников, так что проверять есть ли новые посты/контент можно очень просто - прибавляя к последнему айдишнику по 1, до тех пор пока сайт не выдаст 404.

Реальным теоретикам, которые тут отписались чтобы в очередной раз набрать постов на форуме советую попробовать выкачать какой нибудь сайт, на котором будет хотя бы 300.000 страниц, и при каждом скачивании страницы выкачивать js/css и картинки, когда на какой нибудь 50000 странице у вас кончится место на диске, перечитайте эту страницу, начните думать головой. Это бывает полезным.

ps: отписываюсь от топика.

Новый сервис для определения Евангелист бизнеса Острова Яндекса: Алгоритм создания

[Удален]

16 сентября 2011, 07:33

#20

5hark:
советую попробовать выкачать какой нибудь сайт, на котором будет хотя бы 300.000 страниц

Выкачиваются, только смотря чем качать.

Картинки тоже качаются ещё как если знать чем качать и для чего.

По сути 100% защиты нет, берутся покупаются прокси и нормальная программа и качаются любые сайты.

Только по моему время таких экспериментов прошло поисковики отлично научились определять первоисточник. Бывают конечно глюки у них, но в общей массе. Мне лично давно пофигу что и где у меня скачают.

Вышла первая версия бесплатной Платон Щукин про индексацию Яндекс.Поиск: почему находится все

Что делать, если ваша email-рассылка попала в спам

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Грабят сайт, как обнаружить работу парсера?