Скачать и проиндексировать 10000 веб-страниц

E
На сайте с 26.02.2009
Offline
6
3439

Список ссылок на веб-страницы находиться в файле links.txt. Каждая строчка новая ссылка.

Стоит задача скачать веб-страницу и сопутствующие ей css, js,png,jpg, gif с возможностью локального просмотра. Аналог Firefox->File-> Save Page As -> Web page, complete. Но как понимаете для 10000 страниц это не вариант.

Попробовал wget и httrack, но они либо скачивают только один html или пытаются рекурсивно загрузить сайт целиком.

Вторая часть задачи - проиндексировать скаченные страницы для быстрого поиска.

Подскажите возможные решения поставленных задач.

[Удален]
#1

Offline Explorer Pro просто монстр в этом деле (особенно подключаемые модули как Textpipe =)

По поводу индексации к сожалению не знаю.

moonters
На сайте с 09.10.2008
Offline
139
#2

Teleport, как вариант.

Для индексации - Google Desktop

Мобильные прокси беру только тут - https://goo.su/G5nhch
D
На сайте с 10.10.2008
Offline
14
#3

А мне больше десктопный Яндекс нравится: http://desktop.yandex.ru

AboutSEO
На сайте с 18.01.2007
Offline
154
#4
exvion:

.... Попробовал wget и httrack, но они либо скачивают только один html или пытаются рекурсивно ....

wget который из портов в freebsd ставил справляется с поставленной задачей.

в детстве как сейчас помню... порнушные галереи выкачивал поностью по списку. :D

там главное доки проштудировать по wget,

а с индексацией ничего не скажу, не знаю.

web09
На сайте с 11.02.2010
Offline
10
#5

Если интересует, могу сделать. Стучитесь в личку

Сбор контента, наполнение магазинов (/ru/forum/460538) Настройка и администрирование Joomla, DLE, WP. Магазинов Webassyst, Opencart, Virtuemart. Форумов. PHP, MYSQL, javascript. Связь - личка или icq 355-557-338
R
На сайте с 07.03.2010
Offline
8
#6

Если я правильно понял задачу, есть у меня то что тебе нужно. Но оно умеет еще много чего делать.

У меня по сути мини-поисковик получился. Держит 100-200К(а может и больше) поисковых запросов в сутки на полумиллионной базе.

Использовать его для твоих целей, как из пушки по воробьям.

Если интересно, напиши в личку или сюда, как ты эту программу использовать собрался? Типа постоянно, или для экспериментов, какая нагрузка. Может придумаю что отключить, так чтобы тебе было интересно.

Говорят на sourceforge.net есть готовые поисковики, но я не смог их настроить под свои нужды.

И еще в голову пришло. Вроде бы то ли нигма, то ли еще кто то дает сделать типа своего поисковика. Правда не знаю как там с локальным кешем страницы работать.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий