Капча и бан - не знаю. Яндекс, насколько мне известно, действует иначе - он выдает энное количество ответов на публичные запросы, за определенный промежуток времени, на 1 IP. Если превысить лимит, он перестает выдавать. Потом снова начинает, когда количество запросов на единицу времени становится, с его точки зрения, допустимым. Исчерпаете минутный лимит за секунду - будете ждать 59 секунд. Не помню точно, но по тИЦ он обрабатывал не меньше 10 запросов в секунду (пользовался десктопной утилитой собственного изготовления).
Если у вас, скажем, 20 тысяч блогов в системе, и необходимо проверить в среднем 25 страниц индекс-выдачи (~500 страниц на блог, по 20 результатов на странице, т.е. 25 запросов), вы сможете проверять один блог примерно за 3 секунды. 20 блогов в минуту, 600 в час, чуть меньше 40 часов - все блоги. Это с 1 IP. Если у вас хотя бы 16 IP, проверите довольно быстро. :-)
Но можно поступить иначе. В системе есть активные пользователи и неактивные. Если пользователь активен, ему необходимо частое обновление данных. Сделайте кнопку, по которой он сам, из браузера, со своего IP, запросит данные, и вы их получите, воспользовавшись его компьютером, как прокси-сервером. Кажется, ява-скрипт это позволяет сделать. Или нажмет на кнопку "Обновить показатели" и попросит ваш скрипт обновить данные его блога вне очереди. Тиц, PR, количество подходящих для размещения ссылок страниц, и т.д. Можете приделать к кнопке капчу, чтобы избежать атак - думаю, никто не будет возражать против её ввода. :-)
> Завтра к 15:00 часам все должно стать на место.
Давайте-давайте, 0 страниц в индексе в нескольких блогах совсем не радует.
> Угу, особенно, когда нужно проверить несколько миллионов страниц.
Ну, вы же не вручную их проверяете, правда?... 🚬
Если у вас хороший канал, и есть хотя бы десяток IP, запускаете скрипт-шарманку с регулярным выражением внутри, и вперёд, кофе пить. Работы на полдня, реально. На все тыщапятьсот блогов в вашей базе, ИМХО. :)
Вероятнее всего, ссылки продавались не на месяц, а на дни. И система зачислила деньги за эти дни. Многие рекламодатели покупают ссылки на 1-2 дня.
Кстати, эту практику - позволять покупать ссылку на день - было бы неплохо ограничить, и сделать это довольно просто. Пусть ставят хотя бы на неделю, а лучше - на весь месяц. Если страница осталась в индексе и новых внешних не появилось, снять досрочно нельзя, скрипт это вполне может контролировать. Страница вылетела из индекса - пусть снимают.
А вот насчет второго пункта - согласен, чехарда с индексацией весьма странная. В моем основном блоге, например, более 3000 страниц в индексе, при этом сейчас в запрете стоит больше 90%, как якобы отсутствующие в индексе.
Вопрос к саппорту. Скажите пожалуйста, откуда взялась проблема "0 страниц доступно", или запрет на кучу страниц, которые в индексе и имеют нормальный контент? Это связано с отсутствием средств на автовыкуп? Когда будет решена эта проблема (проверить наличие страницы в индексе, ИМХО, несложно, и можно сделать в любой момент для любого блога любым роботом на полстраницы кода).
И второй вопрос. Вы действительно, на полном серьезе, утверждаете, что Байпост сможет выкупить 50% страниц за 50% от рекомендованных цен, притом не на час, а на месяц? Если честно, по этому пункту у меня основые сомнения.
Отлично. Если собираетесь делать глобальный улучшайзинг, могу подкинуть немного идей.
Снова вывалился один из блогов (ID 5140). Верните его на место, пожалуйста.
Может быть, модифицировать алгоритм работы парсера? Пусть перед выкидыванием выжидает временной промежуток и проверяет доступность ещё раз.
Вывалился так же, как предыдущий, ситуация описана Грехом тут:
/ru/forum/comment/7318676
Блог прошел модерацию, появился в панели блогов, начал торговать ссылками, а сегодня его в панели блогов не оказалось. Остальные есть со всеми пузомерками, а этого нет. Возможно, причина та же - ваш робот не смог до него достучаться.
Саппорт байпоста отвечает, но не на все сообщения и с приличной задержкой. На одно мне ответили там после того, как я написал сюда, а на второе не ответили (частично ответили здесь). Поэтому вопросы, если не возражаете, буду пока задавать тут.
P.S. Присмотрелся - действительно, тИЦ у всего списка стал нулевым. Возможно, последний блог вывалился именно из-за этого, т.к. PR у него = 0. Очень надеюсь, что блог скоро вернется обратно (его тИЦ = 60).
Ещё один блог вывалился - look-like-that.livejournal.com
(id 5140)
Спасибо!
Каждый апдейт - насколько это часто? Раз в несколько дней, неделю, две недели? Приблизительно.
Из байпоста просто вывалился блог, id5140.
Саппорт на вопросы, заданные чуть больше суток назад, пока не ответил.
Вопрос к работникам: как часто байпост проверяет яндексовский индекс на предмет новых постов?