Парсинг результатов поисковиков

12
Т
На сайте с 29.04.2004
Offline
1
1340

Пожалуйста, подскажите основные алгоритмы парсинга страниц результатов поисковых систем, например, яндекса

D
На сайте с 23.11.2003
Offline
167
dmt
#1

Вопрос задан не корректно. Смотря что вы хотите получить...

Советую зайти сюда: http://xml.yandex.ru

Т
На сайте с 29.04.2004
Offline
1
#2

Я имел ввиду, что надо достать результаты поисковика, например только ссылки на найденые странице. И не обязательно в Yandex`е но и других поисковиках

Григорий Селезнев
На сайте с 25.09.2001
Offline
298
#3

алгоритмы? неа ! это разбор страницы по шаблонам ...

Каширин
На сайте с 03.01.2004
Offline
1018
#4
Как писал Толик
Я имел ввиду, что надо достать результаты поисковика, например только ссылки на найденые странице. И не обязательно в Yandex`е но и других поисковиках

Если бы поисковиков было бы несколько сотен, тогда имел бы смысл унифицированный алгоритм, а так гораздо проще код ковырнуть и по конкретному куску кода парсить. Кстати, если будешь шпиговать яндекс запросами get - забанят айпишник.

R
На сайте с 08.04.2004
Offline
58
#5

а как тоогда работает siteposition.ru, а если я буду активно использовать netpromoter и смотреть позиции

[R
На сайте с 12.03.2004
Offline
5
#6

Толик,

регулярные выражения в Perl и PHP отлично справляются с данной задачей

если будешь шпиговать яндекс запросами get - забанят айпишник

Было дело - раз перебрал. Забанили на отметке более 200 запросов в час (точнее не знаю - статистики не вел). Потом из-за собственного баловства менял IP-ик у сервера.

Back Door Man
На сайте с 20.08.2003
Offline
151
#7
Было дело - раз перебрал. Забанили на отметке более 200 запросов в час (точнее не знаю - статистики не вел).

А заголовки какие были в запросе?

Есть подозрение, что надо еще мимикрировать под броузер.

Дмитрий
[R
На сайте с 12.03.2004
Offline
5
#8
Есть подозрение, что надо еще мимикрировать под броузер.

Менял HTTP_USER_AGENT случайно - один из четырех (Мозилки всякие стандартные :)

Думаю, Я среагировал именно на большой поток за ед.времени.

Подделать можно почти любой хидер (IP - отдельный разговор) - и в Я это отлично знают.

euhenio
На сайте с 21.09.2001
Offline
357
#9

200 в час - маловато, на мой взгляд! А когда это было? И сколько всего запросов было послано (сколько часов)?

Вообще, Яндекс ведь прощает эти вещи. Возможно, даже автоматически прощает через несколько часов.

с ув., Евгений Трофименко seo блог Trofimenko.ru ( http://trofimenko.ru/ ) но ыыы мало обновляется... Tools.Promosite.ru - анализатор апдейтов Яндекса (пожертвуйте лимиты на Яндекс.XML! ( https://searchengines.guru/ru/forum/801888/page7#comment_11942489 )) Konvr.ru - увеличение конверсии сайта на 81% за 4 недели ( http://konvr.ru/ )
Каширин
На сайте с 03.01.2004
Offline
1018
#10
Как писал euhenio
200 в час - маловато, на мой взгляд! А когда это было? И сколько всего запросов было послано (сколько часов)?

Вообще, Яндекс ведь прощает эти вещи. Возможно, даже автоматически прощает через несколько часов.

Автоматически не прощает, прийдется писать письмо и объясняться. 200 запросов в час - не так и мало. Нормальный пользователь разве способен на такое??

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий