Qvent

Рейтинг
40
Регистрация
20.12.2006
dooraway:
да, вот еще мысль пришла.
может есть поисковики какие нибудь малоизвестные, где нет ограничения на размер выдачи?

Только вот и индекс у них другого размера наверное :)

А по поводу проксей, не согласен. Вот к примеру сервис с нормальными проксями, сам его юзаю http://proxy-list.org/

Конкретизируй запрос. На пример site:com site:org inurl:bla-bla allinurl: в общем используй доп. запросы, их ОЧЕНЬ МНОГО можно придумать. И с каждого вытащишь по 1000 урлов. Главное потом на дублирование проверяй.

apache:
Ну почему же, если лить трафик не сразу на вашу страницу, а редиректить с промежуточной JS, причем JS менять периодически и шифровать, часть ботов просто не пройдет его - т.е. не получить адрес следующей страницы и все.

Ещё раз напоминаю. JS может защитить от поисковых краулеров, которые жабаскрипт не выполняют (и то не все, кстати). А эти боты на 99% сгенерены трояном, и запрос они делают обычным браузером, который этот скрипт выполнит, и перейдет на следующую страничку. Вот кстати интересную статейку сегодня выложили на умакс-форуме... http://www.affftar.com/?p=8

la-la-la:
ну и как у вас доры под яндекс в спб.ру поживают? не логично ли яндексу спамные мск.ру, спб.ру фильтровать? и цн, которые в рунете разве что под доры юзать будут?

У меня ваще доры не в яндексе живут, а в гугле....

ЦН действительно в яндексе не нашел. Но речь по моему шла о фильтре.... А его, как видно из моего поста, нету.

la-la-la:
ну и как у вас доры под яндекс в спб.ру поживают? не логично ли яндексу спамные мск.ру, спб.ру фильтровать? и цн, которые в рунете разве что под доры юзать будут?

У меня ваще доры не в яндексе живут, а в гугле....

ЦН действительно в яндексе не нашел. Но речь по моему шла о фильтре.... А его, как видно из моего поста, нету.

neznaika:
Qvent, умничать вредно без прочтения сорцев.

Честно говоря не оч. понятно к чему это...

Вячеслав.РУ:
Читал, что Google в состоянии определить уникальная ли фотография размещена на сайте. Но каким образом Google определяет эту уникальность? Каким-то образом сканирует изображение?

ИМХО белая горячка.... Вы представляете какие аппаратные ресусы нужны для такого анализа графики? А в масштабах индекса гугла?

Альты - может быть, а уникальность картинки - бред по моему...

Arbeiten:
эти домены под фильтром

Это какие домены под фильтром?

apache:
Про фильтрацию ботов на входе(это конечно не для всех ботов, но зато позволяет фильтровать трафик на входе, а не анализировать хождение по ссылкам и тд).

Дело в том, что не все боты "умные", т.е. не все могут полностью(или в большой мере) эммитировать браузер - это куки(ну это многие умеют, но всетаки), js и собственно это и используется для первоначального отсеивания ботов.

Речь не о поисковых ботах идет, а о накрутке трафика. Т.е. о иммитации нормального серфера. А это никаким JS не отследишь...

Всего: 234