Нашли ошибку в обработчике роботса, в ближайшее время будет обновление
Проблема осталась? Вообще, это что-то новое, что бы программа бесследно исчезала... Если не решилось - можно урл в личку.
Sterh добавил 03.12.2011 в 18:57
В принципе уже ответили. Программа работае в соответствии с примерами в статье
Каюсь, не успел спарсить.. дошел до 2К с небольшим, вынужден был остановить. Вообще действительно, в 95% случаев какие то баги программы - это баги кода сайтов.
Ну а задача не совсем тривиальна 😕 А вот https нужно проверить....
Там есть галочка - считать закрытые ссылки как внешние. Если отмечаете - то считает, если нет - игнорирует совсем.
Ну а по первому вопросу на форуме очень много написано. Если коротко, то для закрытия используйте яву или XML
Ага, посмотрим сегодня
2 ruizAv, aryanatha
Какая версия программы? Если 1.8.1. - то урлы в личку плиз. Если ниже, то обновитесь и попробуйте еще раз. В 1.8.1. учет robots.txt нормально должен работать.
Вообще это мелочь (в смысле такие объемы вполне по силам). А урл можно в личку?
да вобщем то никак. Для этого нужно считать весь интернет. Вы можете для себя лично определить, что вот по такой то ссылке предается столько то веса, а вот по такой - столько то.
Циферки веса к реальным значениям не имеют никакого отношения. Они лишь иллюстрирую куда и как перетекает вес. Т.е. смотрим не на значение циферек, а на их соотношение. Чем больше итераций - тем меньше погрешность.
Я не говорил, что без багов, я говорил наоборот :) Много до ошибки страниц спарсило?
Блин.. карма у неё такая :) Паук был так написан изначально.
Вообще я писал модератору, что бы ссылку вставили... значит не вставили...
Картинки качаются только когда есть конструкция <a href="123.jpg"> и т.п., поскольку все равно ссылка. img src игнорируются. Можно настроить в ограничениях не качать картинки, добавив .jpg, .gif, .png
Да, есть такое неудобство. В новом парсере эту неприятность уже убрали
П.С.: я правильно понимаю, что не учитываются внешние ссылки. ведущие на сайт?
Входящие внешние ссылки не учитываются. Однако, если Вы знаете какие ссылки куда ведут, то можно изменить стартовые веса расчета, что бы примерно представлять общую картину.
Ну, и у нас не без багов... Большой сайт не потянет. Оптимально до 5К страниц (хотя есть отдельные рекорды). А так - работает, по проблемам стараемся отвечать оперативно. В крайнем случае вернем деньги.
1. Программа учитывает nofollow и такая ссылка участвует в расчете как внешняя, т.е. вес по ней уходит в никуда.
2. Программа игнорирует этот атрибут, и ссылка участвует в расчете как обычная внутренняя.
Нету
😮
нет слов ))
А как хотите :) можно учитывать, можно игнорировать - все в настройках можно указать.
Вообще в программе очень гибкие настройки... почти на все случаи :)
[ATTACH]100129[/ATTACH]