Nobbin

Рейтинг
12
Регистрация
15.12.2002

А wget не подойдет? Скачать им все страницы на диск, а потом посчитать размеры файлов. По ссылкам он сам ходить умеет, только ему ключик нужно указать, чтобы он рекурсивно страницы обходил.

Мой вопрос прежний - есть ли реально в массовом (для массового пользователя) поиске задачи, которые могут решаться лучше с использованием доп.разметки, как бы она не называлась.

При поиске людей наверное может пригодиться. Если я знаю фамилию, имя и отчество, а мне нужны все упоминания как полностью написанных ФИО, так и фамилии с инициалами. Обычно поисковики выдают кучу мусора (например список людей, где у одного совпадают инициалы, а у следующего фамилия).

Как писал AiK

Ты так сказал, как-будто речь идёт о тактическом ядерном оружии.
Интерпретатор, в отличие от ракеты и в open source проектах позаимствовать можно. И потом, я писал "парсить" а не "выполнять". Как говорится почувствуйте разницу.

На мой взгляд, парсить как раз не достаточно. Надо уметь выявлять ссылки. Теоретически, на JS можно написать такой изврат, что очень сложно будет понять, что это за ссылка.

Нпаример, можно часть ссылки вычислять в какой-нибудь функции.

Но я это все к тому говорю, что все равно этого почти никто не делает и для обычного паука разбирать JavaScript совсем необязательно.

Как писал AiK
Nobbin, предупреждаю, что сайт с сессиями в URL ты целиком никогда не выкачаешь...

Да. Тут не поспоришь :(

Как писал AiK
И потом, вроде бы он JS не парсит, т. что сайты с динамическим меню отпадают тоже.

А мне казалось, что JS вообще мало кто парсит. Ну уж по крайней мере, чтобы парсить динамическое меню, нужно иметь на борту не менее чем полноценный интерпретатор JavaScript.

Как писал nis
Далее - многопоточное скачивание, асинхронный DNS,
балансировщик нагрузки, реализация стратегии обхода ...

Ну, для многопоточного скачивания можно запустить несколько wget'ов одновременно и напустить их на разные сайты, чтобы не пересекались. Нагрузку тоже делить по количеству сайтов для скачивания. Обходить в конечном итоге нужно весь сайт целиком, поэтому не все ли равно в каком порядке?