- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Пожалуйста, подскажите основные алгоритмы парсинга страниц результатов поисковых систем, например, яндекса
Вопрос задан не корректно. Смотря что вы хотите получить...
Советую зайти сюда: http://xml.yandex.ru
Я имел ввиду, что надо достать результаты поисковика, например только ссылки на найденые странице. И не обязательно в Yandex`е но и других поисковиках
алгоритмы? неа ! это разбор страницы по шаблонам ...
Я имел ввиду, что надо достать результаты поисковика, например только ссылки на найденые странице. И не обязательно в Yandex`е но и других поисковиках
Если бы поисковиков было бы несколько сотен, тогда имел бы смысл унифицированный алгоритм, а так гораздо проще код ковырнуть и по конкретному куску кода парсить. Кстати, если будешь шпиговать яндекс запросами get - забанят айпишник.
а как тоогда работает siteposition.ru, а если я буду активно использовать netpromoter и смотреть позиции
Толик,
регулярные выражения в Perl и PHP отлично справляются с данной задачей
Было дело - раз перебрал. Забанили на отметке более 200 запросов в час (точнее не знаю - статистики не вел). Потом из-за собственного баловства менял IP-ик у сервера.
А заголовки какие были в запросе?
Есть подозрение, что надо еще мимикрировать под броузер.
Менял HTTP_USER_AGENT случайно - один из четырех (Мозилки всякие стандартные :)
Думаю, Я среагировал именно на большой поток за ед.времени.
Подделать можно почти любой хидер (IP - отдельный разговор) - и в Я это отлично знают.
200 в час - маловато, на мой взгляд! А когда это было? И сколько всего запросов было послано (сколько часов)?
Вообще, Яндекс ведь прощает эти вещи. Возможно, даже автоматически прощает через несколько часов.
200 в час - маловато, на мой взгляд! А когда это было? И сколько всего запросов было послано (сколько часов)?
Вообще, Яндекс ведь прощает эти вещи. Возможно, даже автоматически прощает через несколько часов.
Автоматически не прощает, прийдется писать письмо и объясняться. 200 запросов в час - не так и мало. Нормальный пользователь разве способен на такое??