firstman

firstman
Рейтинг
173
Регистрация
08.01.2010
uoOk:
Какой канал у датацентра?

На данный момент мы располагаем 3мя каналами, два из них основные: БиЛайн 10Гбит/c (что дает отменную связность) и АндерсТелеком 10Гбит/c - оба канала работают параллельно, что дает нам высокий uptime

lokid7,

Спасибо, за отзыв - рады стараться.

Хотим проинформировать, что для мгновенной активации доступны сервера:


Intel Xeon
X3450 16Гб 1ТБ - 3900р.


Intel Core 2 Quad
2.5Ггц 4Гб 1Тб - 3300р.


Intel Atom D525
1.8Ггц 2Гб ОЗУ 500Гб - 1900р

MyOST:
да, нет не перепроверяем, пользователи "свежими" данными добивают

перепроверять такой объем - увы, мы не сможем на данный момент

Стоп. То есть пользователь идет к Вам - если есть инфа по ключу, то забирает ее, если нет, то идет сам в вордстат забирает инфу себе и передает заодно вам.

Так?

Одним словом - вы сами в вордстат не ходите - так?

MyOST:
все кто готов этой информацией делиться - идет к нам автоматом запрос сразу, если в бд нет информации, идет в яндекс и потом обратно нам

Кэш не локален

Я бы сделал тогда эту функцию принудительной. Тогда это просто прекрасно, это должно экономить сильно кол-во запросов.

MyOST:
http://www.key-collector.ru/news/wordstat-problem.php - кэширование мы тоже ввели

Надо централизованный кеш делать. Чтобы со всех пользователей либо инфа собиралась, либо все запросы на ваш сервер шли.

локальный кеш, смысла не имеет.

юни:
Уже сейчас можно сказать, что картина вряд ли изменится.

Блокируют не по адресу, видимо, а по владельцу блока, определяемому тем или иным способом (долго же они к этому шли).

Это не подтвержденная информация. Иначе бы, скажем наши прокси блокировали бы полностью, а не 20-30%. Я уж не говорю, что владелец наших блоков очень большой LIR - его заблокировать полностью нереально. Поэтому блокировать по владельцу то же не простая задача.

Сокрее всего им просто не нужно блокировать, иначе действительно заблокировали. Им нужны SEOшники, так же как пираты нужны MS. Они просто поняли, что расширять аппаратную платформу под wordstat нет смысла и ввели ограничения.

MyOST:
уже получается под 100к запросов.

Это нереально много. Надо что-то с этим делать. Например, предлагаю кешировать эти данные.

MyOST:
надеюсь с вводом IPv6 все станет в десятки и сотни раз проще и дешевле.

Это, как минимум, года через 2 заработает. Хотя мы уже внедряем у себя, но яндекс врядли даст свои сервисы на IPv6.

Опция "Ограничение на кол-во капч для аккаунта" позволяет указать максимальное количество капч, полученных на аккаунте, при достижения которого поток, использующий этот аккаунт, завершается. Т.е. если изначально было запущено 5 потоков, а спустя 30 минут сбора один из аккаунтов собрал, например, 30 капчей, то количество потоков уменьшается до 4 (5 - 1 = 4).

Хорошая опция.

А вообще в среднем народу много запросов к wordstat нужно делать?

MyOST,

Кстати, а через xml.yandex.ru не пробовали данные wordstat получать? Или там только выдача?

MyOST:
антигейт давно включен в программу, с этим проблем не будет

главное чтобы не на каждый запрос капча сыпалась, ибо накладно при больших объемах

Ну это уж простите. Обойти капчу не получится. Они рассчитывают на определенное кол-во запросов в минуту.

Если их будет больше то будет появляться капча и опять же они добьются нужного кол-ва запросов.

MyOST:
зависит от подсети, ибо недавно у них рассылка была, что они новые подключают (не загашенные еще)
master_jeday:
Вот те на! А мне в саппорте глобатела уже неделю с лишним моск парят. И не слова о бане подсети.

1) Заблокированных сетей не так много. Мы сейчас активно по ним пишем в яндекс. На время мы сузили канал до wordstat так, чтобы можно было сделать 5-10 запросов за 1 мин.

2) Сейчас активно выводится капча - нужно в ПО реализовать распознование капчи. Тогда блокировок уж точно не будет.

Вот собственно и все.

Всего: 1780