Я описал возможные варианты отслеживания. Естественно, это всё привязывается к ИП. Не к кукисам же привязываться. :-)
Может я чего не понимаю, но:
Яндекс выдаёт капчу, если за N секунд было больше M запросов.
Что Яндекс может получить от пользователя, чтобы узнать - робот, или нет:
1. Частота запросов.
2. Загрузка картинок и выполнение JS-скриптов с последующей загрузкой какого-то файла с сервера (чтобы узнать - парсер это, или нормальный браузер).
3. Кукисы.
4. Проверка перехода по ссылкам из серпа.
--Подробнее по поводу перехода по ссылкам из серпа--
Вот пример строки из выдачи Яндекса:
<a tabindex="2" onmousedown="rc(this, 'http:\/\/clck.yandex.ru\/redir\/AiuY0DBWFJ4ePaEse6rgeAjgs2pI3DW99KUdgowt9XvqxGyo_rnZJpNjfFDg3rinpgkjQ5A7rU-ukShpMqhmin8kDlFhIRmm41p9as_3LyV4__MUfkxU4bBi9SyJqugv?data=UlNrNmk5WktYejR0eWJFYk1LdmtxcndHdzNSM0JFQi1RdHdEeklXSFJmUGZaQ18zb1RLTzRfMjZRdWxQaFpBclRXSnNBTkdxSlYxbEF0NFNLRG1iTDV4MkN4dXVzcmVIYW80RUJrRHR4OTZtLV9Yc0dtM1JkZnh5c1ZyTk9yYjJ3QlVIWmRPeUs0X19oM1JUTlNGUHMtTC15WGNUVDB4OTl4OEs3WFBaZlRMSEdPT280TnJpZnc&b64e=2&sign=9975c1108d9f4bfcd67361c3976c682a&keyno=0')" href="http://www.snowball.ru/forums/?board=anapolis&action=new&id=500126" target="_blank"><span>Штурм - Город Анаполис - Мафия - Snowball Forums </span></a>
В парсере не нужно сразу сохранять\переходить на "http://www.snowball.ru/forums/?board=anapolis&action=new&id=500126", а нужно посмотреть - что за функция rc, и посетить адрес:
"http:\/\/clck.yandex.ru\/redir\/AiuY0DBWFJ4ePaEse6rgeAjgs2pI3DW99KUdgowt9XvqxGyo_rnZJpNjfFDg3rinpgkjQ5A7rU-ukShpMqhmin8kDlFhIRmm41p9as_3LyV4__MUfkxU4bBi9SyJqugv?data=UlNrNmk5WktYejR0eWJFYk1LdmtxcndHdzNSM0JFQi1RdHdEeklXSFJmUGZaQ18zb1RLTzRfMjZRdWxQaFpBclRXSnNBTkdxSlYxbEF0NFNLRG1iTDV4MkN4dXVzcmVIYW80RUJrRHR4OTZtLV9Yc0dtM1JkZnh5c1ZyTk9yYjJ3QlVIWmRPeUs0X19oM1JUTlNGUHMtTC15WGNUVDB4OTl4OEs3WFBaZlRMSEdPT280TnJpZnc&b64e=2&sign=9975c1108d9f4bfcd67361c3976c682a&keyno=0", ну и так парочку переходов с каждого запроса.
--
Тут я ещё не лез в кишки JS функции rc(..), возможно, она берёт координаты мышки и сверяет их с координатами строки из выдачи серпа.
------------
Ну, вродебы это всё, как можно эмулировать поведение человека в поисковой системе.
Но всё равно, мне кажется, что Яндекс будет выдавать капчу, если превышать M запросов за N времени, помойму, это - главный параметр.
Ещё можно посмотреть, не используют ли какие-то сайты базу Яндекса для формирования своей выдачи, но без всякого прямого взаимодействия юзера и серверов Яндекса.
Вот примерно как-то так я вижу проблему. Извините за сумбурность. :-)
Смотри в сторону настроек в IE. Скорей всего у тебя стоит "Проверять обновление файлов" - "Никогда", поставь "Всегда".
Так-же ставь "Очищать cookies" в "True".
Ну пипец просто, стоит заняться другими делами, как на тебе - паразиты какие-то появляются. Эцик с гаоздями тебе, ТС, пожизненно! :-)
Не сочтите за рекламу, но попробуйте воспользоваться негроимитатором, описание в соседней ветке.
ИМХО, сложность разработки никого не интересует. Интересует результат. Цена образуется не из трудозатрат, а из срока окупаемости софта.
Если бы цена образовалась из трудозатрат, все программисты до сих пор всё писали бы на Assembler'е, или в двоичном коде. :-D
"Здесь мерилом работы считают усталость" (с) Наутилус, "Скованные одной цепью"
А так, чувствуется, что программа хорошая. Респект.
Привязывается к железу.
При покупке даю лицензию на 2 компа (если сразу готов сообщить коды, сгенерированные на обоих компах).
А помойму БлогХарвестер - уже давно известная программа. Почти как Хрюмер.
А если это сделать в виде сервиса, с оплатой, допустим, $10 в месяц?
Lucid_Mind добавил 28.04.2009 в 09:26
Т.е. регистрируешься, пишешь свой логин\пасс от сапы, указываешь, сколько апов выдачи может ссылка не быть в Яше и Гугле (3 по умолчанию). Если ссылки нету в индексе - ссылка удаляется.
Естественно, по каждому шагу будет формироваться отчёт.
Через какой сервис лучше всего проверять - был ли ап выдачи?
Кстати, Яндекс.Вебмастер врёт насчёт времени последнего посещения сайта роботом. Я смотрю по посетителям с фильтром по юзер-агенту, на один мой сайт, где нету ни одной страницы в индексе, регулярно заходит бот от Яндекса.
Мне вот тут интересно стало - а считает ли Яндексовый бот ссылку со страницы, не находящейся в индексе?
Т.к. "страницы в индексе" - это страницы, участвующие в ранжировании при поисковых запросах, а может ссылки с таких страниц считаются?