Нужен робот-паук.

кот Бегемот
На сайте с 07.12.2009
Offline
278
987

Сегодня ко мне обратился мой знакомый, которому я делал сайт, вот с такой просьбой:

нужен робот который будет просматривать список сайтов с объявлениями. и по критерию скидывать ссылки мне на почту

Насколько это реально? Я что-то сам не догоняю.. На моё ИМХО что-то уж больно хитро..

Яндекс Директ, Гугд адворс, не дорого и ответственно. Телеграмм @H_Ilin
Dreammaker
На сайте с 20.04.2006
Offline
569
#1

garik77, для среднего веб-программиста - ничего сложного. Есть нюансы от деталей задачи, но в целом реализуемо.

кот Бегемот
На сайте с 07.12.2009
Offline
278
#2

Тогда подскажите в какую сторону копать? Или может где исходники есть?

C
На сайте с 21.03.2010
Offline
10
#3

Если знакомы с php, то алгоритм достаточно прост:

парсим контент

отбираем нужное

и отсылаем на почту

В других языках, насколько мне известно, на прямую на почтну нельзя отправлять.

Ну а на деле всё может быть и потруднее, нужно смотреть, что будет парсится.

кот Бегемот
На сайте с 07.12.2009
Offline
278
#4

Спасибо, уже понятнее..

E3
На сайте с 20.12.2010
Offline
18
#5
garik77:
Тогда подскажите в какую сторону копать? Или может где исходники есть?

Исходников таких точно нет. Это пишется исключительно под заказ.

Копать в сторону понимания реализации алгоритма.

1) Получение данных с удаленного адреса. в php к примеру (curl,file_get_contents)

2) Обработка полученных данных. (работа со строками, находим, извлекаем)

3) Хранение данных и обработка (работа со строками, MySql)

4) Отправить на мыло данные в обще не должно быть проблемой.

как-то так в общих чертах.

DV
На сайте с 01.05.2010
Offline
644
#6

Если php для вас тёмный лес, посмотрите AutoIT под Windows. Может всё. Прост как Бейсик

VDS хостинг ( http://clck.ru/0u97l ) Нет нерешаемых задач ( https://searchengines.guru/ru/forum/806725 ) | Перенос сайтов на Drupal 7 с любых CMS. ( https://searchengines.guru/ru/forum/531842/page6#comment_10504844 )
кот Бегемот
На сайте с 07.12.2009
Offline
278
#7
DenisVS:
Если php для вас тёмный лес, посмотрите AutoIT под Windows. Может всё. Прост как Бейсик

Спасибо, не совсем конечно, темный лес, но боюсь что все же моих познаний может не хватить.

rbbumfirst
На сайте с 03.04.2009
Offline
87
#8

Рекурсивная функция, которая тянет страницу со ссылками(определяя внутренние ссылки, конкретные ссылки, необходимые страницы, необходимые ссылки на страницы с объявлением и т.п.), пишет их в базу, помечая страницы, на которых уже был паук, чтобы не зациклиться. Не найдя "непосещенных" страниц - return.

Это максимально упрощенно для одного сайта с объявлениями. Не забываем про то, что можно многопоточно это сделать, сократив время парсинга. Не забываем про куки, редиректы и прочую борьбу с краулерами. Если нужно юзаем прокси.

Запасаемся терпением и ждем )

Уверен, будет полезным сей класс. Хотя есть и более быстрые экземпляры.

Удачи, друг! )

Web developer (http://rudov.com). разработка на Go, ReactJS, React Native

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий