Lucid_Mind

Рейтинг
7
Регистрация
01.01.2009

Я описал возможные варианты отслеживания. Естественно, это всё привязывается к ИП. Не к кукисам же привязываться. :-)

Может я чего не понимаю, но:

Яндекс выдаёт капчу, если за N секунд было больше M запросов.

Что Яндекс может получить от пользователя, чтобы узнать - робот, или нет:

1. Частота запросов.

2. Загрузка картинок и выполнение JS-скриптов с последующей загрузкой какого-то файла с сервера (чтобы узнать - парсер это, или нормальный браузер).

3. Кукисы.

4. Проверка перехода по ссылкам из серпа.

--Подробнее по поводу перехода по ссылкам из серпа--

Вот пример строки из выдачи Яндекса:

<a tabindex="2" onmousedown="rc(this, 'http:\/\/clck.yandex.ru\/redir\/AiuY0DBWFJ4ePaEse6rgeAjgs2pI3DW99KUdgowt9XvqxGyo_rnZJpNjfFDg3rinpgkjQ5A7rU-ukShpMqhmin8kDlFhIRmm41p9as_3LyV4__MUfkxU4bBi9SyJqugv?data=UlNrNmk5WktYejR0eWJFYk1LdmtxcndHdzNSM0JFQi1RdHdEeklXSFJmUGZaQ18zb1RLTzRfMjZRdWxQaFpBclRXSnNBTkdxSlYxbEF0NFNLRG1iTDV4MkN4dXVzcmVIYW80RUJrRHR4OTZtLV9Yc0dtM1JkZnh5c1ZyTk9yYjJ3QlVIWmRPeUs0X19oM1JUTlNGUHMtTC15WGNUVDB4OTl4OEs3WFBaZlRMSEdPT280TnJpZnc&b64e=2&sign=9975c1108d9f4bfcd67361c3976c682a&keyno=0')" href="http://www.snowball.ru/forums/?board=anapolis&amp;action=new&amp;id=500126" target="_blank"><span>Штурм - Город Анаполис - Мафия - Snowball Forums </span></a>

В парсере не нужно сразу сохранять\переходить на "http://www.snowball.ru/forums/?board=anapolis&amp;action=new&amp;id=500126", а нужно посмотреть - что за функция rc, и посетить адрес:

"http:\/\/clck.yandex.ru\/redir\/AiuY0DBWFJ4ePaEse6rgeAjgs2pI3DW99KUdgowt9XvqxGyo_rnZJpNjfFDg3rinpgkjQ5A7rU-ukShpMqhmin8kDlFhIRmm41p9as_3LyV4__MUfkxU4bBi9SyJqugv?data=UlNrNmk5WktYejR0eWJFYk1LdmtxcndHdzNSM0JFQi1RdHdEeklXSFJmUGZaQ18zb1RLTzRfMjZRdWxQaFpBclRXSnNBTkdxSlYxbEF0NFNLRG1iTDV4MkN4dXVzcmVIYW80RUJrRHR4OTZtLV9Yc0dtM1JkZnh5c1ZyTk9yYjJ3QlVIWmRPeUs0X19oM1JUTlNGUHMtTC15WGNUVDB4OTl4OEs3WFBaZlRMSEdPT280TnJpZnc&b64e=2&sign=9975c1108d9f4bfcd67361c3976c682a&keyno=0", ну и так парочку переходов с каждого запроса.

--

Тут я ещё не лез в кишки JS функции rc(..), возможно, она берёт координаты мышки и сверяет их с координатами строки из выдачи серпа.

------------

Ну, вродебы это всё, как можно эмулировать поведение человека в поисковой системе.

Но всё равно, мне кажется, что Яндекс будет выдавать капчу, если превышать M запросов за N времени, помойму, это - главный параметр.

Ещё можно посмотреть, не используют ли какие-то сайты базу Яндекса для формирования своей выдачи, но без всякого прямого взаимодействия юзера и серверов Яндекса.

--

Вот примерно как-то так я вижу проблему. Извините за сумбурность. :-)

Смотри в сторону настроек в IE. Скорей всего у тебя стоит "Проверять обновление файлов" - "Никогда", поставь "Всегда".

Так-же ставь "Очищать cookies" в "True".

Ну пипец просто, стоит заняться другими делами, как на тебе - паразиты какие-то появляются. Эцик с гаоздями тебе, ТС, пожизненно! :-)

Не сочтите за рекламу, но попробуйте воспользоваться негроимитатором, описание в соседней ветке.

ИМХО, сложность разработки никого не интересует. Интересует результат. Цена образуется не из трудозатрат, а из срока окупаемости софта.

Если бы цена образовалась из трудозатрат, все программисты до сих пор всё писали бы на Assembler'е, или в двоичном коде. :-D

--

"Здесь мерилом работы считают усталость" (с) Наутилус, "Скованные одной цепью"

--

А так, чувствуется, что программа хорошая. Респект.

Привязывается к железу.

При покупке даю лицензию на 2 компа (если сразу готов сообщить коды, сгенерированные на обоих компах).

А помойму БлогХарвестер - уже давно известная программа. Почти как Хрюмер.

А если это сделать в виде сервиса, с оплатой, допустим, $10 в месяц?

Lucid_Mind добавил 28.04.2009 в 09:26

Т.е. регистрируешься, пишешь свой логин\пасс от сапы, указываешь, сколько апов выдачи может ссылка не быть в Яше и Гугле (3 по умолчанию). Если ссылки нету в индексе - ссылка удаляется.

Естественно, по каждому шагу будет формироваться отчёт.

Через какой сервис лучше всего проверять - был ли ап выдачи?

Кстати, Яндекс.Вебмастер врёт насчёт времени последнего посещения сайта роботом. Я смотрю по посетителям с фильтром по юзер-агенту, на один мой сайт, где нету ни одной страницы в индексе, регулярно заходит бот от Яндекса.

Мне вот тут интересно стало - а считает ли Яндексовый бот ссылку со страницы, не находящейся в индексе?

Т.к. "страницы в индексе" - это страницы, участвующие в ранжировании при поисковых запросах, а может ссылки с таких страниц считаются?

123 4
Всего: 31