- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Есть, конечно, но это усложнит граббинг и школоту отсеет => станет меньше клонов, а я так понял, что небольшое кол-во клонов устраивало ТС.
Позовут меня и всё, будет ещё куча копий 😂
Я подобный пост создавал еще в 2007 году на master-x http://www.master-x.com/forum/topics/93094/ тоже регулярно воровали. В каком то блоге я читал как человек писал владельцам сайтов и говорил что будет на них в суд подавать, потом хостерам, потом еще регистратору домена, вроде как иногда успешно было.
Насчет борьбы с граберами и прочей фигней, сейчас работаю с высоконагруженными сайтами, тоже регулярно грабить пытаются. У нас с ботами разбираются админы. Если с одного айпишника количество запросов в минуту больше чем заданное ими, IP банится на файрволе, самый простой и эффективный метод. Даже если бот на amazon ec2 и постоянно меняют айпишник, то это им быстро надоест.
Бот не будет дергать картинки, js, css как правило. Возможно бот дергает только новые материалы на сайте, в общем смотреть по ситуации надо.
Просто посмотреть айпишники Top-100 граберов/ботов можно и без написания скриптов:
cat ~/logs/apache/access.log | awk '{print $1}' | sort | uniq -c |sort -rn |head -100Ещё один теоретиГ. Догадаетесь, когда браузер не запрашивает картинки?
А cms не DLE случайно?
Для DLE есть решение защиты контента от грабберов.
http://www.4style.ru/cms/316-zahita-kontente-dle
Ещё один теоретиГ. Догадаетесь, когда браузер не запрашивает картинки?
Прежде чем писать тут "теоретиГ", подумал бы головой сначала. Причем тут браузер вообще? Я говорю о типичном поведении бота, который не будет тащить статику и исполнять js.
http://docs.python.org/library/urllib.html
http://ru.php.net/manual/en/function.curl-exec.php
http://www.crummy.com/software/BeautifulSoup/
в помощь
Пожаловаться в яндекс и гугль это обязательно. А насчет того, чтобы не грабили, это борьба с ветряными мельницами. Можно в .htaccess запретить показывать ваши картинки на других сайтах. Можно попробовать программно обнаруживать роботов. Просто раньше писал несколько парсеров. Для особо "вредных" жертв применялся полуавтоматический режим, картинки тоже перекачивались. Умный грабер не отличить от браузера. Так что только жаловаться.
twilight_dream добавил 16.09.2011 в 02:10
Ещё один теоретиГ. Догадаетесь, когда браузер не запрашивает картинки?
Как программист я Вас понимаю :) Ничем от них не спасешься. Только писать на мыло админа домена и пугать судом.
Единственная умная мысля, что все эти советы защитят от дурака и ленивого. Если за вас взялись всерьёз, всё это мертвому припарка.
Защититься невозможно, лишь усложнить жизнь грабберу... кому надо, всё равно всё сграббит
Прежде чем писать тут "теоретиГ", подумал бы головой сначала. Причем тут браузер вообще? Я говорю о типичном поведении бота, который не будет тащить статику и исполнять js.
http://docs.python.org/library/urllib.html
http://ru.php.net/manual/en/function.curl-exec.php
http://www.crummy.com/software/BeautifulSoup/
в помощь
Даже не теоретиГ, а протиратель штанов.
Хорошо. У меня есть бот. Он тянет 10 статей в неделю с сайта, представляется как IE и тянет картинки вместе с текстом. Чем его поведение типично для бота?
Даже не теоретиГ, а протиратель штанов.
Сколько еще у тебя клонов на этом форуме? Количество идиотов на этом форуме давно превышает все разумные пределы, о чем писали в том числе и модераторы этого форума.
Расскажу как выкачиваются сайты нормальными людьми, а не школьниками прочитавшими книгу "Выучи PHP за одну неделю с нуля". Если бы хоть один из вас писал нормальных ботов, чтобы выкачать какой нибудь крупный сайт, не писали бы в топике всякую хрень. Другим людям будет полезно, чтобы знать о проблеме с другой стороны. Если вы делаете ботов с помощью Php human emulator, Firefox iMacros итд - идите пишите дальше.
Задача 1
скачать с сайта www.yell.ru все данные об организациях и занести всё это в базу данных. Для школьников поясняю, в базе данных не нужен весь html мусор и прочее. Т.к. нужна возможность поиска по полям (название организации, улица, район, итд).
1. Сохраняем все категории, пример страницы http://www.yell.ru/avtomobili/
2. Дальше, бот заходит поочередно в каждую категорию (например http://www.yell.ru/avtomobili/azs_garazhi_stojanki/avtozapravochnye_stancii/), проходит все страницы в категории, складывает в таблицу где хранится очередь для скачивания урлов где находится инфа об организациях
Пример:
http://www.yell.ru/AVANTI_MTA_AZS_AVTOSERVIS_MOYKA_1966180/
http://www.yell.ru/LUKOYL_TSENTRNEFTEPRODUKT_3248572/
итд
3. когда по всем категориям прошлись, идем по урлам организаций и сохраняем все данные, типа телефон итд.
Задача 2
Выкачать все тендеры с сайта zakupki.gov.ru
смотрим на урл
http://zakupki.gov.ru/pgz/printForm?type=NOTIFICATION&id=1616926
теперь пишем скрипт не больше 20 строчек, который перебором цифр от 1 до 1616926 выкачивает страницы (которые кстати xml + xslt), парсит всё это и выкладывает в базу.
У многих других сайтов урлы так же сделаны с помощью айдишников, так что проверять есть ли новые посты/контент можно очень просто - прибавляя к последнему айдишнику по 1, до тех пор пока сайт не выдаст 404.
Реальным теоретикам, которые тут отписались чтобы в очередной раз набрать постов на форуме советую попробовать выкачать какой нибудь сайт, на котором будет хотя бы 300.000 страниц, и при каждом скачивании страницы выкачивать js/css и картинки, когда на какой нибудь 50000 странице у вас кончится место на диске, перечитайте эту страницу, начните думать головой. Это бывает полезным.
ps: отписываюсь от топика.
советую попробовать выкачать какой нибудь сайт, на котором будет хотя бы 300.000 страниц
Выкачиваются, только смотря чем качать.
Картинки тоже качаются ещё как если знать чем качать и для чего.
По сути 100% защиты нет, берутся покупаются прокси и нормальная программа и качаются любые сайты.
Только по моему время таких экспериментов прошло поисковики отлично научились определять первоисточник. Бывают конечно глюки у них, но в общей массе. Мне лично давно пофигу что и где у меня скачают.