exp131

Рейтинг
69
Регистрация
26.05.2010
admak:
немного не понятно, Ваш парсер выполняет яваскрипт?.. иначе чем мешает кривой код сайта? полностью пытаться разгрести DOM - безсмысленно. IMHO, обычного набора регулярок будет достаточно.

Нет, яваскрипт не выполняется, да и кривую разметку программа уже умеет обходить. Проблема глубже, и из-за нее делается вторая версия на новом движке.

Программа обновлена до 1.8.2

Исправлены ошибки при работе с robots.txt о которых писали выше.

Так же добавлен переключатель секций robots.txt. Если переключатель установлен (по-умолачанию) будет искатся секция User-Agent: PageWeight и использоваться правила от туда. Иначе или если User-Agent: PageWeight будет не найден то программа будет брать правила из User-Agent: *

aryanatha:
зачем???
почему это не прописано по умолчанию? вы можете назвать хоть одну причину по которой программе нужно качать картинки из инета?

Да. Мы стараемся работать по стандартами W3C, а по ним картинка это такой же документ. В общем случае не исключена ситуация когда вместо картинки будет страница (с ошибкой например) и тогда программа позволит ее поймать.

В следующих версиях по умолчанию будут заданы исключения на картинки, которые, при желании, можно будет удалить.

exp131 добавил 01.12.2011 в 09:01

CMePTHuK:
Здравствуйте, хочу приобрести вашу прогу, но есть вопрос на сколько компов её можно поставить?

Версии ветки 1.х можно ставить на любое количество своих компов. Вторая будет привязываться к железу, но предусмотрим скидки при покупке нескольких копий.

legora:
К сожалению пауза не помогает. Битые ссылки с ошибкой "Исключение во время запроса WebClient." все равно остаются.

Попробуйте увеличить величину паузы.

legora:
Причем рабочая ссылка, например: href="../stati.html" в битых ссылках отображается, как ссылка с ошибкой: /statistati.html, т.е прилепляется слово stati еще раз.
Жалко, однако, купил прогу, а попользоваться не могу.

Скиньте в личку или на support@page-weight.ru какой сайт вы проверяете, разберемся почему так получается с ссылками.

Апдейт.

Выпущена версия 1.8.1

Наконец-то доделан обработчик robots.txt. Программа теперь "понимает" и нормально обрабатывает файлы robots.txt (v.1 - только инструкции Disallow). Однако поддеживаются шаблоны:

  • * - любая последовательность символов (Прмер: Disallow: /img* будет отключено сканирование всех URL начинающися с /img: /images/, /img/img.jpg и пр.).
  • $ - конец строки. Disallow: /link$ отключит сканирование страниц /link, но включит /link/subleve1/.../sublevelN
Kostushko:

В программе должен быть массив в котором хранятся текущие не загруженные страницы - нужно всего-то сосчитать количество этих страниц и вывести. Если они в одном массиве то это что-то типа count(array_url) и всего-то, если массив более сложный то добавится пара-тройка строк кода. В общем, то что я прощу абсолютно реально, просто и быстро реализуемо - если вы считаете что это не так - попытайтесь понять о чем я говорю.

На самом деле в программе нет подобного массива. Обход ссылок осуществляется рекурсивно, и поэтому программа "не знает" длины очереди. Нашла ссылку - прошла по ней если ее еще нет в базе и так пока не обойдет всю глубину вложенности.

Возможно именно из-за этого возникают "глюки" при большом объеме страниц на сайте или большой вложенности (/page1/page2/page3/page4/page5/page6/.../pageN). Во второй версии мы полностью изменили алгоритм обхода сайта, поэтому там такая функция реальна и в конечном итоге будет реализована.

Anny:
Извините, если такой вопрос уже был, всю ветку читать я не ослилила...

Случился у меня с прогой такой косячок. Я вчера вечером поставила ее сканировать большой сайт (она насканировала около 90000 страниц). Инет у меня не быстрый + я задержку поставила, чтобы сайт не вешать лишний раз. Так что, чтобы прога не мешалась, я ее свернула.

90 тыс. страниц? Это новый рекорд для программы. Вы уверены что именно столько страниц было на сайте?

Anny:

Сайт просканировался, я нажала ОК, окошко сканирования закрылось, а прога осталась свернутая в трей. А вот из трея вытащить ее у меня так и не получилось... Ни левой кнопкой мыши, ни правой. В результате пришлось, прибить через диспетчер задач.

И вот хотелось бы понять, в чем проблема - в проге, в виндах или в прокладке между стулом и столом... 🤪

Дело скорее всего в том, что после того как вы нажали ОК программа попыталась отобразить все эти 90 тыс. страниц. Однако такой объем очень велик и поэтому она "подвисла". На самом деле нужно просто было немного подождать (хотя честно говоря сколько будет выводиться такой объем я сказать не смогу, может 5-10 минут, а может быть и 2-3 часа). Обычно программа при выводе данных "наглухо" не подвисает.

Оу!:
когда примерно будет выпущена 2-ая версия? обновление бесплатно?

Сейчас ведется интенсивная работа над ней. Примерно - конец ноября.

Все обновления ветки 1.х бесплатны. Переход на версию 2 будет платный. Точная стоимость будет известна ближе к релизу. Для всех покупателей 1-й версии обновление до 2-й будет по специальной "льготной" цене.

Апдейт:

Выпущена версия 1.8.

Добавлено:

  • Настраиваемая пауза между запросами страниц. На тот случай если сервер выдает ошибки при слишком частых запросах.
  • Опция, позволяющая считать все "закрытые" ссылки (исключения и атрибут nofollow) как внешние при расчете веса.
chajka:
Версия программы 1.7.5. При запуске хочет обновиться, но потом пишет невозможно подключиться к серверу. Как быть?

Попробуйте еще раз. Был небольшой сбой на сервере обновлений. Сейчас все проблемы устранены.

Я вернулся из отпуска. Продолжаем работу над программой с новыми силами :)

Всего: 467