Это нам еще на курсах говорили (тех, что самые первые были когда то, Каширин вел). Можно попробовать по архивам РОМИПа полазить, поискать.
Сейчас разломали всю прогу нафиг. Переделываем таблицы, методику обсчета. Должна побыстрее работать после обновления.
Это пока не совсем обновление, но у кого пробеммы с парсингом (находит явно больше страниц, чем должно быть) качаем новый краулер.
В папке с программой удаляем старый, а этот на его место (т.е. просто в папку помещаем).
Доброго времени суток!
По техническим причинам меня почти неделю не было в сети. Вот как только подключился - сразу сюда.
Тем, кто оплатил - вышлю в ближайшие сутки (кипер еще не восстановил).
На все вопросы отвечу, и тут и в личке, как только немного разгребу все навалившееся за неделю.
Приношу свои извинения за доставленные неудобства.
Ваши сайты, увы, не уникальны. Очень много подобных. Новый краулер выслал. С ним все парсится отлично. И кодировка, как и говорил, не при чем.
Решетку в ограничения добавил - отобрало только две страницы. Так что дело в ней.
Вообще понимает. Но вот почему она её считала как /subsite/subsub/b.html - х.з. И поскольку по 404 ошибке был редирект на главную, то от неё и полезло по всему сайту.
Программа не умеет начинать поиск со страницы. Т.к. определются верхние уровни.
Грубо говоря: http://www.nezamerz.net/subsite/ - правильно
http://www.nezamerz.net/subsite/index.html - не правильно
Если исправите, что бы индексный файл открывался по УРЛу папки, то, по идее, должно работать :)
А base href часто идет "в комплекте" с различными CMS. И не всегда правильно определяется путь (путают кол-во слешей в тэгах base и a href). И программа, соответственно, не правильно определяет пути для ссылок и не видит страницы... Вобщем безгранична фантазия вэбмастеров :)
-----------------------
Кстати, немного доработали краулер. Теперь кол-во сайтов, на которых программа циклится должно сократиться 😎
Новый краулер разошлю вместе с обновлением, кому очень срочно - мыло в личку
Нет, проблемма не в кодировке. Если кодировка определена не правильно, то вместо тайтлов и анкоров получите кракозябры. Но на парсинг это не влияет.
К тому же, если подозреваете, что какая то папка или файл не дает программе работать корректно, то его можно добавить в настройках в ограничениях. В Вашем случае это en
На Ваших же сайтах программа перестает считать ссылки (т.е. их число в определенный момент перестает увеличиваться), но продолжает накручивать страницы. Это нонсенс, т.к. не может быть страниц без ведущих на них ссылок. Где именно Ваш сайт зацикливает программу - пока не нашли.
Опять же смотрите base href и его синтаксис.
Будет.
Там, если не ошибаюсь, не формула, а принцип работы нового алгоритма.
На Ваших сайтах программа на чем-то циклится. На чем именно пока не поймали. Проверьте валидность кода.
Это Вам не повезло так сильно 😒
Шучу :) Не стОит на основе одного поста панику разводить. Ключей нет и не было никогда.
Если тэг
<meta http-equiv="Content-Type" content="text/html; charset=windows-1251" />
Скиньте УРЛ в личку и странички с 301 редиректом. Я так понимаю, сайт переделали, а страницы подклеили?
base href в коде присутствует? Если да, то проверьте синтаксис.
То ли я отстал от жизни, то ли что-то не так понял. Пробелы в УРЛах? И они работают?
Фига се! Редко встречаются сайты, где больше одной-двух битых ссылок. Но сделаем.
Не будет никогда, ибо баловство.
Программа к компу не привязывается. На линуксе врядли, т.к. требует НетФреймворк.
--------------------------------
Еще очень хочется сказать. В 99% сбоя программы виноват кривой код сайта. Обходить все "выкрутасы" вэб-мастеров нет ни желания, ни возможности.
Обычно, когда жалуются на то, что прога не работают, и присылают УРЛ сайта, я просто смотрю отдаваемый код и указываю вэб-мастеру на ошибку. Не всегда у меня есть возможность искать и исправлять чужие ошибки.
Единственный глюк, который сейчас исправляем - это тот, что заметил rootv. Все остальные пожелания будут учтены в новой версии.
Уважаемые коллеги! Оптимизация - это не только ссылки, это еще и грамотный код!
Какой перелинкатор?