Нужно написать скрипт, идущий по ссылкам и сохраняющий страницы

targon5
На сайте с 08.09.2004
Offline
103
1059

Старый клиент попросил помочь:

Ситуация: есть сайт с неким контентом (не адалт). Контент состоит из некоторых объявлений и доступен зарегистрированым пользователям. Пользователи с помощью формы поиска по множеству критериев производят выборку объявлений. Объявления показываются в виде списка заголовков со ссылкой на полный текст. Полный текст каждого объявления открывается на отдельной странице, URL каждой страницы с полным текстом имеет вид типа site.ru/data/******, где ****** - номер объявления (нумерация не по порядку).

Что хочет заказчик: иметь возможность скачивать себе оффлайновую версию интересующих его выборок вместе со связанными с ними полными текстами объявлений. Не обязательно, чтобы ссылки работали, основной интерес представляют именно полные тексты объявлений.

Проблема: сайт динамический и хитронаписаный, и страницы с полными текстами нельзя выкачать с помощью оффлайн-браузера типа WebZip или Teleport. Даже если любую из страниц сайта пытаться сохранить из браузера, используя кнопку "Сохранить объект как" на ведущей на любую страницу ссылке, то ничего не получится - выдается ошибка "Невозможно сохранить объект". В то же время любая страница с полным текстом объявления будучи открытой в браузере вполне себе поддается сохранению.

Что нужно сделать: написать скрипт либо плагин к браузеру, который мог бы идти по ссылкам, реально открывать страницу, сохранять ее в указанной папке на диске.

Требования по функционалу:

1. Скрипт должен выдавать себя за браузер

2. Скрипт должен проходить через этап авторизации на сайте (ввод логина-пароля) и держать сессию при работе

3. Скрипт должен выдерживать заданную паузу между открыванием новых страниц, по возможности маскируясь под человека.

4. Скрипт должен открывать и сохранять только те страницы, которые совпадают по маске с заданным значением (только страницы в определенном каталоге сайта - чтобы не сохранять лишних страниц, и не идти по ссылкам типа "Logout")

5. Глубина скачивания - одна страница, т.е. скрипт не обращает внимания на ссылки, содержащиеся в открытых им страницах.

6. Одна выборка может содержать в себе ссылки на несколько сотен страниц.

Как должен выглядеть результат:

В виде лежащих на диске в заданной папке html-страничек с полными текстами объявлений.

Бюджет: Клиент хотел бы уложиться в $100-150. Реально если есть наработки то работы толковому программеру немного. Если есть встречное предложение по стоимости - пишите, договоримся. Оплата налом (Москва) или вебманями по вашему выбору.

Дальнейшая работа: Если автор скрипта обладает достаточными знаниями и сможет в дальнейшем написать еще один скрипт, который будет парсить сохраненные массивы шаблонных страниц с текстами объявлений и закидывать объявления в Lotus Notes, раскладывая их по нужным полям базы данных - прекрасно, нам будет над чем работать, по цене договоримся. Если нет - то ограничимся этим скриптом и расстанемся друзьями.

Дисклеймер: Сохраненный контент будет использоваться исключительно во внутренних рабочих процессах заказчика (обеспечивать менеджеров оффлайновым архивом объявлений и ускорять работу) и не будет размещаться где-либо в Интернете. Это не pisding контента.

Контакт: Через личку на этом форуме и ICQ в моем профиле.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий