Парсинг результатов поисковиков

Т

1

Толик

29 апреля 2004, 12:07

1340

Пожалуйста, подскажите основные алгоритмы парсинга страниц результатов поисковых систем, например, яндекса

D

167

dmt

29 апреля 2004, 12:43

#1

Вопрос задан не корректно. Смотря что вы хотите получить...

Советую зайти сюда: http://xml.yandex.ru

Т

1

Толик

30 апреля 2004, 10:51

#2

Я имел ввиду, что надо достать результаты поисковика, например только ссылки на найденые странице. И не обязательно в Yandex`е но и других поисковиках

298

Григорий Селезнев

30 апреля 2004, 11:53

#3

алгоритмы? неа ! это разбор страницы по шаблонам ...

1018

Каширин

30 апреля 2004, 12:26

#4

Как писал Толик
Я имел ввиду, что надо достать результаты поисковика, например только ссылки на найденые странице. И не обязательно в Yandex`е но и других поисковиках

Если бы поисковиков было бы несколько сотен, тогда имел бы смысл унифицированный алгоритм, а так гораздо проще код ковырнуть и по конкретному куску кода парсить. Кстати, если будешь шпиговать яндекс запросами get - забанят айпишник.

R

58

resident

30 апреля 2004, 16:42

#5

а как тоогда работает siteposition.ru, а если я буду активно использовать netpromoter и смотреть позиции

[R

5

[SeRGi]

30 апреля 2004, 16:57

#6

Толик,

регулярные выражения в Perl и PHP отлично справляются с данной задачей

если будешь шпиговать яндекс запросами get - забанят айпишник

Было дело - раз перебрал. Забанили на отметке более 200 запросов в час (точнее не знаю - статистики не вел). Потом из-за собственного баловства менял IP-ик у сервера.

Cloudflare стал выдавать сайту Падают просмотры на ютуб Блоги всё?

151

Back Door Man

30 апреля 2004, 18:17

#7

Было дело - раз перебрал. Забанили на отметке более 200 запросов в час (точнее не знаю - статистики не вел).

А заголовки какие были в запросе?

Есть подозрение, что надо еще мимикрировать под броузер.

Дмитрий

[R

5

[SeRGi]

30 апреля 2004, 19:12

#8

Есть подозрение, что надо еще мимикрировать под броузер.

Менял HTTP_USER_AGENT случайно - один из четырех (Мозилки всякие стандартные :)

Думаю, Я среагировал именно на большой поток за ед.времени.

Подделать можно почти любой хидер (IP - отдельный разговор) - и в Я это отлично знают.

357

euhenio

5 мая 2004, 12:53

#9

200 в час - маловато, на мой взгляд! А когда это было? И сколько всего запросов было послано (сколько часов)?

Вообще, Яндекс ведь прощает эти вещи. Возможно, даже автоматически прощает через несколько часов.

с ув., Евгений Трофименко seo блог Trofimenko.ru ( http://trofimenko.ru/ ) но ыыы мало обновляется... Tools.Promosite.ru - анализатор апдейтов Яндекса (пожертвуйте лимиты на Яндекс.XML! ( https://searchengines.guru/ru/forum/801888/page7#comment_11942489 )) Konvr.ru - увеличение конверсии сайта на 81% за 4 недели ( http://konvr.ru/ )

1018

Каширин

5 мая 2004, 12:58

#10

Как писал euhenio
200 в час - маловато, на мой взгляд! А когда это было? И сколько всего запросов было послано (сколько часов)?

Вообще, Яндекс ведь прощает эти вещи. Возможно, даже автоматически прощает через несколько часов.

Автоматически не прощает, прийдется писать письмо и объясняться. 200 запросов в час - не так и мало. Нормальный пользователь разве способен на такое??

Что такое Power BI и зачем это нужно бизнесу

Яндекс Вебмастер вынес товарные фиды в отдельный раздел