SilverMaster

SilverMaster
Рейтинг
228
Регистрация
08.10.2003
'[umka:
;6099770']
Вообще, то что вы спрашиваете - это всё очень и очень сложно.

Соглашусь с umka, задачу вы ставите очень серьезную. Такой ли серьезный проект вы делаете?

avtoblog:
да как я и писл досточно любой файл, который не нужен парсеру

вобще конечно сайт явно неоптимально написан раз не хватает таких мощностей

У сайта в лучшие времена 12к рейтинг по Алексе.

Написано отптимально, по запросам mysql аудит делали ребята из MySQL Performance Blog.

Так что давайте гепотетически предположим, что это не в скриптах дело, а в оочень сильной нагрузке.

SilverMaster добавил 07.01.2010 в 10:21

netwind:
А сделайте закрытый сайт с авторизацией и подтверждением через смс. Аккаунты банить значительно легче IP.
У вас ведь Контент, а не сеошное дрочево какое.

В таком случае 100% потеряем посщаемость. Т.к. монетизация адсенс.

Brand from Amber:

Создавайте API и делайте его своей фичей.

Мысль ваша прекрасна!

Пришли первые парсеры - прийдут вторые.

Я тоже склонен к изящным решениям.

SilverMaster добавил 07.01.2010 в 01:09

Seredniy:

И кстати, такой мощный сервер и не хватает мощи? Если не секрет, какая посещалка вообще? без этих ботов

Мощи хватает, просто есть несколько десятков выборок на довольно объемных базах.

И когда 5-10 запросов страниц умножить на 20 запросов = 100-200 мускуль запросов.. Вообщем тут и Quad Core говорит "извините"

Запросы оптимизированы. Все очень пристально просмотрено mysql топ программерами.

dayw:
А написать небольшой плагин для смены последовательности html тегов, т.е. менять атрибуты местами и т.п... У меня для одного сайта такое в планах. Это нормально будет?

Это только усложнит парсинг. Дело в том, что мы бы с радостью отдали весь контент в дампе мускульном, лишь бы нам не делали такую нагрузку.

А про то, как к такому методу скрытия информации отнесеться гугль - я вообще чесно признаться и думать не хочу. Не то чтобы пеналя или фильтра боюсь, не уверен что схавает контент правильно.

SilverMaster добавил 07.01.2010 в 00:31

юни:
А, ну точно, все европейские. Значит, прикрывают ботнет, видимо, после праздников займутся окончательно.

Боюсь это просто такая короткая выборка. Там очень разношерстно.

Собсно, как вирусы цепляют не зависимо от страны. Нубов хватает везде.

у нас nginx + mysql

думаю будем мускуль выносить на отдельный сервер

пока других идей нет

юни:

В общем, их нужно по нагрузке отличать.

аааа это как?

можно ткнуть носом?

Да, юни, ты прав. Надо подсовывать, но реально если они прикидываются нормальными людьми - то я не могу их определи.

Просто я поражаюсь как динамично и красиво меняеться их пул ипов.

Вообщем судя по всему только наращивать железо...

В дальнейшем тоже пригодиться имхо.

Отсеивать тоже не дело. Они приносять деньги, хоть правда копейки, но сейчас такое время.

114.39.206.132

109.88.5.201

122.100.239.174

124.6.181.143

195.229.236.212

из последних

да обычный сайт, тематика рингтоны

SilverMaster добавил 06.01.2010 в 18:49

юни:
Смотри хуизы и трассировку.

Будет давать нагрузку - в бан. А если не нагружает сервак, то и ладно.
Сеткой из множества подсетей. А 10К, это всего лишь 40 блоков /24, ими Гугл особо не попарсишь.

юни, это не 10к из одной сети, это все разные сетки

походу зараженные компы

xpert13:
У вас уже есть какая-то часть их ипов? Так вы не баньте их, а просто выдавайте всякую хр*нь на запросы из этих ипов. У них получится такая ситуация: одни страницы парсится нормально, другие плохо. А почему - сразу не догонят.

Пусть немного голову поломают, а потом думаю надоест (разве что у вас контент очень нужный)

Правильно!

Мы так и сделали, отдавали не те страницы ( отдавали закешированые ПОХОЖИЕ страницы).

Разумеется - у них теперь не база, а каша, но судя по всему они нас парсят на заказ ( я видел на гетафрилансере запрос на парсинг нашего сайта), так что

мы только ухудшаем ситуацию, так как они по новой пойдут.

Всего: 1174