А wget не подойдет? Скачать им все страницы на диск, а потом посчитать размеры файлов. По ссылкам он сам ходить умеет, только ему ключик нужно указать, чтобы он рекурсивно страницы обходил.
При поиске людей наверное может пригодиться. Если я знаю фамилию, имя и отчество, а мне нужны все упоминания как полностью написанных ФИО, так и фамилии с инициалами. Обычно поисковики выдают кучу мусора (например список людей, где у одного совпадают инициалы, а у следующего фамилия).
На мой взгляд, парсить как раз не достаточно. Надо уметь выявлять ссылки. Теоретически, на JS можно написать такой изврат, что очень сложно будет понять, что это за ссылка.
Нпаример, можно часть ссылки вычислять в какой-нибудь функции.
Но я это все к тому говорю, что все равно этого почти никто не делает и для обычного паука разбирать JavaScript совсем необязательно.
Да. Тут не поспоришь :(
А мне казалось, что JS вообще мало кто парсит. Ну уж по крайней мере, чтобы парсить динамическое меню, нужно иметь на борту не менее чем полноценный интерпретатор JavaScript.
Ну, для многопоточного скачивания можно запустить несколько wget'ов одновременно и напустить их на разные сайты, чтобы не пересекались. Нагрузку тоже делить по количеству сайтов для скачивания. Обходить в конечном итоге нужно весь сайт целиком, поэтому не все ли равно в каком порядке?