Sterh

Sterh
Рейтинг
226
Регистрация
15.06.2006
ruizAv:
Во-первых...
aryanatha:
такие урлы....

Нашли ошибку в обработчике роботса, в ближайшее время будет обновление

d4k:
Приобрел сегодня же софтину...

Проблема осталась? Вообще, это что-то новое, что бы программа бесследно исчезала... Если не решилось - можно урл в личку.

Sterh добавил 03.12.2011 в 18:57

goliafz:
Автор программы :) У меня есть вопросы.

В принципе уже ответили. Программа работае в соответствии с примерами в статье

x-mobi.ru:
Sterh, с моей проблемой также пока что тишина?

x-mobi.ru добавил 03.12.2011 в 10:37
Чет вроде триавиальная задача, обход сайта по ссылкам, подсчет их кол-ва и т.п., а такие проблемки возникают, пока - не понимаю :)

p.s. но заметил, что если баг на каком-то сайте, то он будет всегда. А на некоторых багов нет и не бывает, один сайт - 5к страниц, а ссылок, наверное, под миллион - отработало норм.

x-mobi.ru добавил 03.12.2011 в 10:49
Кстати, прога походу не понимает https, точнее, она считает такую ссылку внутренней, а не внешней. Нашел в битых

Каюсь, не успел спарсить.. дошел до 2К с небольшим, вынужден был остановить. Вообще действительно, в 95% случаев какие то баги программы - это баги кода сайтов.

Ну а задача не совсем тривиальна 😕 А вот https нужно проверить....

dabustard:


Да и вопрос ближе к теме:
Как программа обрабатывает ссылки закрытые в роботс или добавленные через исключения? Учитывает их при распределении веса по остальным страницам или считает что ссылок на эти страницы не существует?

Там есть галочка - считать закрытые ссылки как внешние. Если отмечаете - то считает, если нет - игнорирует совсем.

Ну а по первому вопросу на форуме очень много написано. Если коротко, то для закрытия используйте яву или XML

ruizAv:
1.8.1, ссылку кинул

Ага, посмотрим сегодня

2 ruizAv, aryanatha

Какая версия программы? Если 1.8.1. - то урлы в личку плиз. Если ниже, то обновитесь и попробуйте еще раз. В 1.8.1. учет robots.txt нормально должен работать.

x-mobi.ru:


x-mobi.ru добавил 01.12.2011 в 14:55
В общем 2300 отсканировало и умерло... чего делать та? Новенькая версия когда будет?

Вообще это мелочь (в смысле такие объемы вполне по силам). А урл можно в личку?

Kosmeg:
А можно поподробнее?
Я пока, можно сказать, начинающий в СЕО (с профессиональной точки зрения). Как рассчитать передающий вес ведущих страниц?

да вобщем то никак. Для этого нужно считать весь интернет. Вы можете для себя лично определить, что вот по такой то ссылке предается столько то веса, а вот по такой - столько то.

Kosmeg:

И еще вопрос. При увеличении итераций значительно увеличивается вес каждой страницы. С чем это связано и при каком количестве итераций вес максимально приближен к реальности?

Циферки веса к реальным значениям не имеют никакого отношения. Они лишь иллюстрирую куда и как перетекает вес. Т.е. смотрим не на значение циферек, а на их соотношение. Чем больше итераций - тем меньше погрешность.

x-mobi.ru:
Приобрел. Пару сайтов проверил нормально, но один не могу уже с 5-й попытки, постоянно вылетает ошибка, как у Александра. И чего теперь? А говорите, что ваша программа без багов.

Я не говорил, что без багов, я говорил наоборот :) Много до ошибки страниц спарсило?

aryanatha:
зачем???

почему это не прописано по умолчанию? вы можете назвать хоть одну причину по которой программе нужно качать картинки из инета?

Блин.. карма у неё такая :) Паук был так написан изначально.

aryanatha:
как-то странно. старую ветку закрыли, Но ни в начале её, ни в конце не дали ссылку на новую - сотни людей вынуждены рыться теперь в результатах поиска...

В предыдущей ветке я так и не увидел ответа на мой, как мне кажется, важный вопрос:
зачем программа качает из инета картинки? трафик и время теряется. а смысла в скачивании картинки - ноль!

Вообще я писал модератору, что бы ссылку вставили... значит не вставили...

Картинки качаются только когда есть конструкция <a href="123.jpg"> и т.п., поскольку все равно ссылка. img src игнорируются. Можно настроить в ограничениях не качать картинки, добавив .jpg, .gif, .png

Kosmeg:
у меня вопрос по работе проги. Если сначала спарсил один сайт, провел необходимые замеры, а затем начинаешь парсить второй, то страницы не обновляются и не сбрасываются. Приходится перезапускать прогу, что не очень удобно. Это я что-то не так делаю, или работа программы так устроена? Если второй вариант, то планируется ли переработать этот аспект ее работы?

Да, есть такое неудобство. В новом парсере эту неприятность уже убрали

П.С.: я правильно понимаю, что не учитываются внешние ссылки. ведущие на сайт?

Входящие внешние ссылки не учитываются. Однако, если Вы знаете какие ссылки куда ведут, то можно изменить стартовые веса расчета, что бы примерно представлять общую картину.

x-mobi.ru:
Печально... как тогда убедиться, что она нормально отработает? Просто начал использовать аналогичный другой софт, иногда бывают баги, а некоторые сайты не отрабатываются нормально, по не понятным причинам. Благо там триальная версия есть.

Ну, и у нас не без багов... Большой сайт не потянет. Оптимально до 5К страниц (хотя есть отдельные рекорды). А так - работает, по проблемам стараемся отвечать оперативно. В крайнем случае вернем деньги.

dabustard:
Не совсем понятно.
Разъясните пожалуйста, как программа расчитывает вес в этих двух случаях:
1. Флаг "Игнорировать nofollow выключен.
2. Флаг "Игнорировать nofollow включен.

1. Программа учитывает nofollow и такая ссылка участвует в расчете как внешняя, т.е. вес по ней уходит в никуда.

2. Программа игнорирует этот атрибут, и ссылка участвует в расчете как обычная внутренняя.

x-mobi.ru:
демки то нету?

Нету

HeR0vn1k:
Программа работает больше недели:

😮

нет слов ))

dabustard:
Извините если уже было, но как программа обрабатывает ссылки с "nofollow" ?

А как хотите :) можно учитывать, можно игнорировать - все в настройках можно указать.

Вообще в программе очень гибкие настройки... почти на все случаи :)

[ATTACH]100129[/ATTACH]

jpg pwint.jpg
Всего: 2040