Нет, яваскрипт не выполняется, да и кривую разметку программа уже умеет обходить. Проблема глубже, и из-за нее делается вторая версия на новом движке.
Программа обновлена до 1.8.2
Исправлены ошибки при работе с robots.txt о которых писали выше.
Так же добавлен переключатель секций robots.txt. Если переключатель установлен (по-умолачанию) будет искатся секция User-Agent: PageWeight и использоваться правила от туда. Иначе или если User-Agent: PageWeight будет не найден то программа будет брать правила из User-Agent: *
Да. Мы стараемся работать по стандартами W3C, а по ним картинка это такой же документ. В общем случае не исключена ситуация когда вместо картинки будет страница (с ошибкой например) и тогда программа позволит ее поймать.
В следующих версиях по умолчанию будут заданы исключения на картинки, которые, при желании, можно будет удалить.
exp131 добавил 01.12.2011 в 09:01
Версии ветки 1.х можно ставить на любое количество своих компов. Вторая будет привязываться к железу, но предусмотрим скидки при покупке нескольких копий.
Попробуйте увеличить величину паузы.
Скиньте в личку или на support@page-weight.ru какой сайт вы проверяете, разберемся почему так получается с ссылками.
Апдейт.
Выпущена версия 1.8.1
Наконец-то доделан обработчик robots.txt. Программа теперь "понимает" и нормально обрабатывает файлы robots.txt (v.1 - только инструкции Disallow). Однако поддеживаются шаблоны:
На самом деле в программе нет подобного массива. Обход ссылок осуществляется рекурсивно, и поэтому программа "не знает" длины очереди. Нашла ссылку - прошла по ней если ее еще нет в базе и так пока не обойдет всю глубину вложенности.
Возможно именно из-за этого возникают "глюки" при большом объеме страниц на сайте или большой вложенности (/page1/page2/page3/page4/page5/page6/.../pageN). Во второй версии мы полностью изменили алгоритм обхода сайта, поэтому там такая функция реальна и в конечном итоге будет реализована.
90 тыс. страниц? Это новый рекорд для программы. Вы уверены что именно столько страниц было на сайте?
Дело скорее всего в том, что после того как вы нажали ОК программа попыталась отобразить все эти 90 тыс. страниц. Однако такой объем очень велик и поэтому она "подвисла". На самом деле нужно просто было немного подождать (хотя честно говоря сколько будет выводиться такой объем я сказать не смогу, может 5-10 минут, а может быть и 2-3 часа). Обычно программа при выводе данных "наглухо" не подвисает.
Сейчас ведется интенсивная работа над ней. Примерно - конец ноября.
Все обновления ветки 1.х бесплатны. Переход на версию 2 будет платный. Точная стоимость будет известна ближе к релизу. Для всех покупателей 1-й версии обновление до 2-й будет по специальной "льготной" цене.
Апдейт:
Выпущена версия 1.8.
Добавлено:
Попробуйте еще раз. Был небольшой сбой на сервере обновлений. Сейчас все проблемы устранены.
Я вернулся из отпуска. Продолжаем работу над программой с новыми силами :)