Запрет массового скачивания картинок с сайта менеджерами закачек, как?

123
bay_ebook
На сайте с 28.05.2010
Offline
111
#11
m0ntag:
Хост который делает допустим 20 хитов за 10 секунд - банится по айпи в хтацесс

гугл тоже банит по IP и каптчу дает - и его прекрасно парсят :)

ПС - если поставишь скрипт, то тебя легко будет положить, примерно с сотня ботов, каждый по пару сотен в секунду запросов - и мускул лужит :)

Нужен прогер на php+mysql+понимание чужего кода? (/ru/forum/540660) Вам сюда PHP-шаман (http://php-shaman.pw/)
MoMM
На сайте с 16.06.2006
Offline
727
#12
SeVlad:
Палю тему - парсеры могут работать через прокси. Даже динамически их меняя

Здесь нет темы - именно так и работают брутфорсы паролей. И что? Хомяк на 5 страниц скачают за сутки, а уже 1000 страниц будут парсить неделю-две... а если еще на каждой стоит "яма для волков" в виде сслыки, невидимой обычным пользователям, то улетать в бан будут с каждой страницы...

Не вопрос: если нужно спарсить один конкретный сайт, один раз, то будут и ждать и искать новые прокси и т.д. и т.п. А если это просто "прочесывание местности", то плюнут и перейдут туда, где гемора меньше...

SeVlad
На сайте с 03.11.2008
Offline
1523
#13
MoMM:
И что? Хомяк на 5 страниц скачают за сутки, а уже 1000 страниц будут парсить неделю-две... а если еще на каждой стоит "яма для волков" в виде сслыки, невидимой обычным пользователям, то улетать в бан будут с каждой страницы...

Да всё быстро происходит:

SeVlad:
Вкратце: тянется параллельно через пачку проксей с разными ЮА.

А искать прокси - это для школоты ну или "разовых акций". Профи знают где покупать или даже имеют свои автоискалки-чекеры. Так что прокси - это вооще не проблема.

Делаю хорошие сайты хорошим людям. Предпочтение коммерческим направлениям. Связь со мной через http://wp.me/P3YHjQ-3.
IL
На сайте с 20.04.2007
Offline
418
#14
MoMM:
отчего ж? у меня на многих сайтах годами стоят приблуды, отправляющие в сад на 2 суток любого, кто сделает больше 60 запросов к контенту в минуту или больше 15 404-х... на

Эти приблуды запросы к картинкам считают (к вопросу из первого поста)? Или всё же картинки nginx-ом отдаются без разбору, а под контентом имеется ввиду "контентная" страница, генерируемая скриптом?

... :) Облачные серверы от RegRu - промокод 3F85-3D10-806D-7224 ( http://levik.info/regru )
M
На сайте с 18.05.2009
Offline
108
#15
SeVlad:


Ты ппц.. не догоняешь. Тот робот - и есть "живой юзер". Тоже самое тебе покажет файрбаг в браузере.


Это ты не догоняешь, причем здесь запросы к скриптам и картинкам при генерации страницы, речь идет о хитах . Мокрое с горячим путаешь

SeVlad:

Ты реально считаешь, что проще найти другую жертву, настроить парсер под неё и тд, нежели просто тыкнуть 2 кнопки в том же ДМ?
SeVlad:

И на бис: те, кто занимаются парсингом - они найдут способ скачать твой ГС. В большинстве случае даже и искать не будут - всё и так настроено. Вкратце: тянется параллельно через пачку проксей с разными ЮА. Не андестнт?

На бис? У тебя бенефис чтоль?)

В первых у меня не гс.

Во вторых - только в твоих грезах сайты сканирует армия прекрасно подготовленных вм, оснащенных парсерами и умеющими с полпинка настраивать их под любые задачи. Основная часть это нубы, потребности которых можно озвучить как "клевые на сайте картинки, вот я щас телепортом себе все скачаю, гы".

Не андестнт?

Неа. Давай еще раз выйди на бис))

Сообщение от m0ntag Посмотреть сообщение
Хост который делает допустим 20 хитов за 10 секунд - банится по айпи в хтацесс
гугл тоже банит по IP и каптчу дает - и его прекрасно парсят

ПС - если поставишь скрипт, то тебя легко будет положить, примерно с сотня ботов, каждый по пару сотен в секунду запросов - и мускул лужит

Ой, какая тут полсотня ботов.. я чтоль защиту от ддос изобретаю? У меня коммерческий мегапортал? Речь о "приблуде", которая даст какую-никакую защиту "от дурака"

MoMM
На сайте с 16.06.2006
Offline
727
#16
ivan-lev:
Эти приблуды запросы к картинкам считают (к вопросу из первого поста)? Или всё же картинки nginx-ом отдаются без разбору, а под контентом имеется ввиду "контентная" страница, генерируемая скриптом?

у меня сделано так, что считается отдельным запросом каждая строчка лога сервера

IL
На сайте с 20.04.2007
Offline
418
#17
MoMM:
у меня сделано так, что считается отдельным запросом каждая строчка лога сервера

А всё же ответа на свой вопрос я не получил. Лог какого сервера анализируется? Apache? Nginx? [или всё один сервер обрабатывает] Nginx для статики часто настраивают без записи в логи. (Если будет линк на сайт с приблудой - сам посмотрю)

Попробую на примере пояснить.

Если в дизайне, например 20 картинок (логотип, уголки-кнопочки-рюшечки всякие, изображение товара.. штук 10 на страничке - более чем реально), то 3 запроса в минуту (тоже вполне реально - главная, страница категории, страница товара) с отключенным кэшированием картинок (по условию выше перевалили за ограничение 60 запросов в минуту) попадают под "бан". Или просмотр 5 страниц в минуту с кэшированием с 10-ю разными товарами каждая (обычная постраничная разбивка категории) - аналогично, в бан.

Действительно ли "приблуда" работает именно так?

MoMM
На сайте с 16.06.2006
Offline
727
#18
ivan-lev:
Действительно ли "приблуда" работает именно так?

ссылки не будет :)

кто там пишет в логи error_log и access_log? вот на него приблуда и навешена... 60 - это было "среднепотолочное" - у разных сайтов по разному настройки: и числа разные и методы разные - у некоторых сразу в бан, у некоторых начинают отдавать "не более 10 строчек в минуту"... короче: пользователи не жалуются :)

IL
На сайте с 20.04.2007
Offline
418
#19
MoMM:
кто там пишет в логи error_log и access_log? вот на него приблуда и навешена...

:D дык.. зависит от настроек, кто и куда логи пишет. /всё та же ситуация - если картинки отдаются nginx-ом, то до apache (и соответственно access-лога апачевского) запрос просто не доходит/ В общем понял.. можно и у Вас все картинки выкачать

SeVlad
На сайте с 03.11.2008
Offline
1523
#20
m0ntag:
потребности которых можно озвучить как "клевые на сайте картинки, вот я щас телепортом себе все скачаю, гы".

Конкретный сайт - конкретные настройки (на 2 сек дела).. Это быстрее, чем гуглить что-то новое.

Впрочем, вижу бесполезно очевидное показывать. Боритесь дальше с мельницами..

ivan-lev:
общем понял.. можно и у Вас все картинки выкачать

:)

ЗЫ. А ещё люди за NATом и корп. проксями юзают инет..

123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий