Altavista и парсеры

MokuZ
На сайте с 12.03.2006
Offline
158
1519

Если ввести адрес в браузер, то все ок. По этому же адресу робот получает последовательность практически бессмысленных абракадабр.

Например, по адресу http://www.altavista.com/web/results?itag=ody&kgs=0&kls=0&nbq=100&q=link%3Awww.ya.ru&stq=0

вот такая инфа:

Реклама в интернете. Статьи: раскрутка сайта, продвижение сайта ...
Веб-услуги - интернет портал о интернет рекламе. Собраны масса статей на темы: поисковая ... Создан сервис позволяющий оценить качество продвижения сайта, ...
www.web-uslugi.ru • Translate
More pages from web-uslugi.ru


PeterLink
Web server that provides various commercial information including dating service with Russian people.
www.peterlink.ru • Translate
More pages from peterlink.ru


Информационные технологии для предпринимателей
Обеспечения информационной поддержки и обслуживания субъектов малого ... Поддерживая и развивая благоприятные условия для дальнейшего роста экономической ...
www.binec.ru • Translate
More pages from binec.ru

А робот получает по этому же адресу вот такую фигню:

span class=rgy> • Translate
More pages from peterlink.ru


tavista.com/web/results?sc=off&q=link%3Awww.ya.ru+domain%3Abinec.ru'>More pages from binec.ru


About Feedback Submit! English Russia just because something cool happens ...
englishrussia.com/?p=252
More pages from englishrussia.com

код там тоже концептуально отличается, понятное дело.

Вопросы:

1. это такая модная защита от роботов? :eek::no:

2. это можно как-то обойти?

яху не катит из-за ограничения в 5К запросов в сутки, а ротацию айпишников не хочется делать, да и много их понадобится.

nickspring
На сайте с 29.03.2006
Offline
228
#1

1. Альтависта юзает яху.

MokuZ:
яху не катит из-за ограничения в 5К запросов в сутки, а ротацию айпишников не хочется делать, да и много их понадобится.

2. 5к юзается в Yazzle и никто еще не пожаловался что мало. А Вы наивно полагаете что сделаете более 5к автозапросов к Altavista в день и Вас не забанят?

MokuZ
На сайте с 12.03.2006
Offline
158
#2
nickspring:
1. Альтависта юзает яху.
2. 5к юзается в Yazzle и никто еще не пожаловался что мало. А Вы наивно полагаете что сделаете более 5к автозапросов к Altavista в день и Вас не забанят?

1. это я заметил :) каждая ссылка ведет на блабла.яху.ком/блаблаблабла

2. ну Yazzle тоже пользуюсь, но тут посчитал. надо тысяч 100 в день. кстати, вряд ли бы забанили за автозапросы :)

пс. а если яндекс введет такую фигню 😮

fly21
На сайте с 20.04.2006
Offline
15
#3

mokuz:

Вы попробуйте найти в коде <span class=ngrn>www.сайт.ru_ </span>

Именно между этим span и заключается то, что Вам нужно.

"Если действовать не будешь, ни к чему ума палата" (Шота Руставели).
MokuZ
На сайте с 12.03.2006
Offline
158
#4
fly21:
mokuz:
Вы попробуйте найти в коде <span class=ngrn>www.сайт.ru_ </span>
Именно между этим span и заключается то, что Вам нужно.

отличная идея! если я говорю про парсеры, значит, я наверное, знаю как парсить.

робот получает код, отличный от того, что виден в браузере.

он получает вот такой вот примерно поток бреда:

<br class='lb'><a class='res' href='http://www.web-uslugi.ru/'>span class=rgy> &#8226; <a class=rgy href="http://babelfish.altavista.com/tr?tt=url&url=http%3A%2F%2Fwww.peterlink.ru%2F&lp=ru_en&lang=&rt=http://www.altavista.com/web/results?itag=ody&kgs=0&kls=0&nbq=100&stq=0&q=link%3Awww.ya.ru">Translate</a></span><br><a class=rgy href='http://www.altavista.com/web/results?sc=off&q=link%3Awww.ya.ru+domain%3Apeterlink.ru'>More pages from peterlink.ru</a>&nbsp;<br><br><br class='lb'><a class='res' href='http://www.binec.ru/'>tavista.com/web/results?sc=off&q=link%3Awww.ya.ru+domain%3Abinec.ru'>More pages from binec.ru</a>&nbsp;<br><br><br class='lb'><a class='res' href='http://www.ya-ca.ru/'> About Feedback Submit! English Russia just because something cool happens ...<br></span><span class=ngrn>englishrussia.com/?p=252 </span> <span class=rgy></span><br><a class=rgy href='http://www.altavista.com/web/results?sc=off&q=link%3Awww.ya.ru+domain%3Aenglishrussia.com'>More pages from englishrussia.com</a>&nbsp;<br><br><br class='lb'><a class='res' href='http://www.eu.spb.ru/'> pages from eu.spb.ru</a>&nbsp;<br><br><br class='lb'><a class='res' href='http://www.auto-snab.ru/'>stq=0&q=link%3Awww.ya.ru">Translate</a></span><br><a class=rgy href='http://www.altavista.com/web/results?sc=off&q=link%3Awww.ya.ru+domain%3Asitekat.spb.ru'>More pages from sitekat.spb.ru</a>&nbsp;<br><br><br class='lb'><a class='res' href='http://sitekat.msk.ru/'>?tt=url&url=http%3A%2F%2Fwww.avtoradio.net%2F&lp=ru_en&lang=&rt=http://www.altavista.com/web/results?itag=ody&kgs=0&kls=0&nbq=100&stq=0&q=link%3Awww.ya.ru">Translate</a></span><br>

найдите здесь <span class=ngrn>

fly21
На сайте с 20.04.2006
Offline
15
#5

Во вложенни то, что получил мой парсер по Вашему запросу.

А кода-то всего


<?php
$file = 'http://www.altavista.com/web/results?itag=ody&kgs=0&kls=0&nbq=100&q=link%3Awww.ya.ru&stq=0';
if ($cont = file_get_contents($file)) {
echo $cont;
} else {echo "Ky-Ky";}

?>
txt parcer.txt
MokuZ
На сайте с 12.03.2006
Offline
158
#6

fly21, мдя. у Вас тоже код изменяется, но по крайней мере, урлы целы. а у меня используется не php, а asp. и тут он выдает

parser.txt :(

txt asp_parser.txt
fly21
На сайте с 20.04.2006
Offline
15
#7
MokuZ:
fly21, мдя. у Вас тоже код изменяется, но по крайней мере, урлы целы. а у меня используется не php, а asp. и тут он выдает
parser.txt :(

Судя по вашему результату, похоже что в строке нужно искать

<a class='res' href='http://www.sait.ru_/'>
и выдирать оттуда значение href

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий