Скачать и проиндексировать 10000 веб-страниц

6

exvion

28 октября 2009, 08:45

3458

Список ссылок на веб-страницы находиться в файле links.txt. Каждая строчка новая ссылка.

Стоит задача скачать веб-страницу и сопутствующие ей css, js,png,jpg, gif с возможностью локального просмотра. Аналог Firefox->File-> Save Page As -> Web page, complete. Но как понимаете для 10000 страниц это не вариант.

Попробовал wget и httrack, но они либо скачивают только один html или пытаются рекурсивно загрузить сайт целиком.

Вторая часть задачи - проиндексировать скаченные страницы для быстрого поиска.

Подскажите возможные решения поставленных задач.

[Удален]

2 ноября 2009, 12:49

#1

Offline Explorer Pro просто монстр в этом деле (особенно подключаемые модули как Textpipe =)

По поводу индексации к сожалению не знаю.

139

moonters

6 ноября 2009, 11:47

#2

Teleport, как вариант.

Для индексации - Google Desktop

Мобильные прокси беру только тут - https://goo.su/G5nhch

D

14

denton

1 февраля 2010, 08:35

#3

А мне больше десктопный Яндекс нравится: http://desktop.yandex.ru

154

AboutSEO

16 февраля 2010, 09:35

#4

exvion:

.... Попробовал wget и httrack, но они либо скачивают только один html или пытаются рекурсивно ....

wget который из портов в freebsd ставил справляется с поставленной задачей.

в детстве как сейчас помню... порнушные галереи выкачивал поностью по списку. :D

там главное доки проштудировать по wget,

а с индексацией ничего не скажу, не знаю.

10

web09

22 февраля 2010, 08:58

#5

Если интересует, могу сделать. Стучитесь в личку

Сбор контента, наполнение магазинов (/ru/forum/460538) Настройка и администрирование Joomla, DLE, WP. Магазинов Webassyst, Opencart, Virtuemart. Форумов. PHP, MYSQL, javascript. Связь - личка или icq 355-557-338

R

8

rocata

7 марта 2010, 21:41

#6

Если я правильно понял задачу, есть у меня то что тебе нужно. Но оно умеет еще много чего делать.

У меня по сути мини-поисковик получился. Держит 100-200К(а может и больше) поисковых запросов в сутки на полумиллионной базе.

Использовать его для твоих целей, как из пушки по воробьям.

Если интересно, напиши в личку или сюда, как ты эту программу использовать собрался? Типа постоянно, или для экспериментов, какая нагрузка. Может придумаю что отключить, так чтобы тебе было интересно.

Говорят на sourceforge.net есть готовые поисковики, но я не смог их настроить под свои нужды.

И еще в голову пришло. Вроде бы то ли нигма, то ли еще кто то дает сделать типа своего поисковика. Правда не знаю как там с локальным кешем страницы работать.

include в php большого Стоит ли открывать для Яндекс кобласит

Что делать, чтобы попасть в ответы Google Bard

Дзен реализовал для авторов возможность вывода денег через СПБ