Большая проблема с парсерами

1 234 5
SilverMaster
На сайте с 08.10.2003
Offline
228
#21

у нас nginx + mysql

думаю будем мускуль выносить на отдельный сервер

пока других идей нет

Из детских комшаров: "А вдруг ночью придет страшный робот!" Из взрослых: "И криво проиндексирует сайт". Не всякий гик добежит до середины поисковой страницы гугла
Brand from Amber
На сайте с 18.08.2007
Offline
293
#22
юни:
Ну, похоже, что действительно кто-то из ботнета выжимает остатки... причём американские пулы

Хоть география и обширна, но ни одного АмерикоССкого IP.

юни:
Можно, кстати, по региональному признакому блокирнуть - зачем тебе всякие дубайско-штатовские непоймикто?

Вот это дело... я у себя не то что по странам, я по регионам внутри страны и по провайдерам внутри регионов фильтрую.

SilverMaster:
Отсеивать тоже не дело. Они приносять деньги, хоть правда копейки, но сейчас такое время

Кто? Боты? :-) Отсеивать можно и нужно! Как вариант, "руби" всех кто пришел не на морду с чужестранного IP и без внятного реферера.

Brand from Amber добавил 06.01.2010 в 22:48

SilverMaster:
думаю будем мускуль выносить на отдельный сервер

Это должно было быть сделано ещё давно из соображений безопасности и независимо от мощности web-сервера.

Лучший способ понять что-то самому - объяснить это другому.
юни
На сайте с 01.11.2005
Offline
914
#23
Brand from Amber:
Хоть география и обширна, но ни одного АмерикоССкого IP

А, ну точно, все европейские. Значит, прикрывают ботнет, видимо, после праздников займутся окончательно.

https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
dayw
На сайте с 25.01.2006
Offline
116
#24

А написать небольшой плагин для смены последовательности html тегов, т.е. менять атрибуты местами и т.п... У меня для одного сайта такое в планах. Это нормально будет?

Интернет-магазин игровых приставок в Москве (https://savelagame.ru)
SilverMaster
На сайте с 08.10.2003
Offline
228
#25
dayw:
А написать небольшой плагин для смены последовательности html тегов, т.е. менять атрибуты местами и т.п... У меня для одного сайта такое в планах. Это нормально будет?

Это только усложнит парсинг. Дело в том, что мы бы с радостью отдали весь контент в дампе мускульном, лишь бы нам не делали такую нагрузку.

А про то, как к такому методу скрытия информации отнесеться гугль - я вообще чесно признаться и думать не хочу. Не то чтобы пеналя или фильтра боюсь, не уверен что схавает контент правильно.

SilverMaster добавил 07.01.2010 в 00:31

юни:
А, ну точно, все европейские. Значит, прикрывают ботнет, видимо, после праздников займутся окончательно.

Боюсь это просто такая короткая выборка. Там очень разношерстно.

Собсно, как вирусы цепляют не зависимо от страны. Нубов хватает везде.

Seredniy
На сайте с 17.03.2008
Offline
251
#26
SilverMaster:
Это только усложнит парсинг. Дело в том, что мы бы с радостью отдали весь контент в дампе мускульном, лишь бы нам не делали такую нагрузку.

Ну зачем же так ) своё отдавать всяким "прохожим" не хорошо. Они тогда вообще обленятся и вместо парсинга будут сразу писать владельцам сайтов что-то типа:

"Ей, сишишь, давай дамп базы, а то парсить буду, всем будет плохо. Если не отдатите в течении часа то ябуду парсить по 1к старниц в ..."

В общем не сдавайтесь, боритесь за своё.

И кстати, такой мощный сервер и не хватает мощи? Если не секрет, какая посещалка вообще? без этих ботов

Wordpress и другие CMS: правки, настройка, верстка и натяжка шаблонов, разработка сайтов "под ключ" (/ru/forum/1008050)
malls
На сайте с 08.08.2005
Offline
255
#27

Слежу за топиком из интереса...

На основании уже вышесказанного, я бы попробовал:

Вычленять не характерную аудиторию (т.е. IP из Гондурасов и т.п.), оценивать частоту запросов от таковых и банить нафиг наглухо.

т.е., например, IP - Эмираты - второй запрос за минуту и больше - кажем фигу! Желательно не просто фигу, а сливать очень сильный траф (может быть через внешний сервак) - чтобы на "той стороне" тоже проблемы были с приемом.

SilverMaster:
Отсеивать тоже не дело. Они приносять деньги, хоть правда копейки, но сейчас такое время.

Лучше забанить нафиг на неделю (не вечно же будут пытаться выдрать контент) и потерять малое число нехарактерных юзеров, чем иметь проблемы с такими ботнетами...

Brand from Amber
На сайте с 18.08.2007
Offline
293
#28
SilverMaster:
А про то, как к такому методу скрытия информации отнесеться гугль - я вообще чесно признаться и думать не хочу. Не то чтобы пеналя или фильтра боюсь, не уверен что схавает контент правильно.

ПС не индексируют HTML, они его кэшируют..., а индексируют только контент, т.к. поиск осуществляется именно по нему.

SilverMaster:
Дело в том, что мы бы с радостью отдали весь контент в дампе мускульном

Создавайте API и делайте его своей фичей.

Seredniy:
И кстати, такой мощный сервер и не хватает мощи?

Видимо канал укладывают. ...ну, либо, скрипты кривые.

A
На сайте с 30.12.2009
Offline
3
#29

понятно что весь сайт в мемкеш не загрнишь, а вот в файловый можно - это про наггрузки

парсер можно вычислить вставив во все страницы, например, картинку, которую браузер загрузит, а парсер пропустит.

вычисляешь все подозрительные ИП и выдаешь им специально подготовленный файловый кеш с месивом

SilverMaster
На сайте с 08.10.2003
Offline
228
#30
Brand from Amber:

Создавайте API и делайте его своей фичей.

Мысль ваша прекрасна!

Пришли первые парсеры - прийдут вторые.

Я тоже склонен к изящным решениям.

SilverMaster добавил 07.01.2010 в 01:09

Seredniy:

И кстати, такой мощный сервер и не хватает мощи? Если не секрет, какая посещалка вообще? без этих ботов

Мощи хватает, просто есть несколько десятков выборок на довольно объемных базах.

И когда 5-10 запросов страниц умножить на 20 запросов = 100-200 мускуль запросов.. Вообщем тут и Quad Core говорит "извините"

Запросы оптимизированы. Все очень пристально просмотрено mysql топ программерами.

1 234 5

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий