Бесплатная программа для анализа внутренних ссылок сайта.

R
На сайте с 25.07.2009
Offline
114
#41
mark3000:
Realtim, "Бегущая строка была активна"? Дело в том, что программа работает с активным интернетом, может проблема с коннектом?

Неа. Под бегущей строкой вы понимаете строку состояния я так понимаю. Не было ничего. Запус и через пару секунд - анализ завершен, хотя никаких данных нету.

С инетом все нормально. Через прокси и т.п. не работаю.

Оказываю услуги по съему санкций Google (/ru/forum/943387)
S2
На сайте с 07.01.2008
Offline
611
#42
mark3000:
Имеется ввиду редактировать сам файл, либо делать какое то направление для сканирования, например закрыть от сканирования определенные области сайта?

Второе. Дописать закрытие какого-то раздела, перед проверкаой. Собственно как-тут: http://webmaster.yandex.ru/wmconsole/public_robots_txt.xml

o_nix:
Str256 - просто праграмма в процессе определения проиндексированности той или иной страницы банится яндексом по ip и начинает отправлять большинство страниц в непроиндексированные.

А при чём тут проиндексированность? Она просто страницы не находит. А наоборот находит кучу страниц которые не в индексе.

Не надо приписывать мне свои выводы, я имею ввиду только то, что написал. Лучшая партнёрка по футболкам/толстовкам (http://partnerka.kolorado.ru/?ref=1921540) Опрос: Проверить текст на уник - как? (/ru/forum/495885)
mark3000
На сайте с 29.08.2009
Offline
115
#43

Realtim, Здесь по моему что то с коннектом связанно, может какой то блокиратор стоит или файрволл, может антивирус блокирует. Но скорее всего дело не в программе, так как даже подключения не было.

Str256, Подсказка интересная, надо будет об этом подумать:)

Относительно того что программа ищет то что не в индексе. Индекс Поисковых систем не влияет на способ определения (нахождения) страниц сайта. Она сама по себе находит страницы. Просто при обращении за определением показателя проиндексированности и определения пузомерок она обращается к ПС, вот здесь то может случиться блокировка.

LINKOSCOP 4.2 (http://www.interascope.biz/linkoscop-4/) это 100+ функций для работы с внутренней перелинковкой
S2
На сайте с 07.01.2008
Offline
611
#44
mark3000:
Относительно того что программа ищет то что не в индексе. Индекс Поисковых систем не влияет на способ определения (нахождения) страниц сайта. Она сама по себе находит страницы. Просто при обращении за определением показателя проиндексированности и определения пузомерок она обращается к ПС, вот здесь то может случиться блокировка.

Тогда бы это касалось каждый раз разных страниц, а не одних и тех же. К тому же у меня параметр - "индекс Яндекса" - галочка не стоит. Так, что как может случиться блокировка - не понятно совершенно. И кроме этого, прога не соблюдает запреты роботса. У меня скажем стоит запрет: Disallow: /*/?curPos=0

А страницы содержащие этот параметр были скачены. И ещё - находит 249 страниц - загружает только 30, включая не нужные. А страницы, что не в индексе - при нажатой галочке - определяет как в индексе.

R
На сайте с 25.07.2009
Offline
114
#45
mark3000:
Realtim, Здесь по моему что то с коннектом связанно, может какой то блокиратор стоит или файрволл, может антивирус блокирует. Но скорее всего дело не в программе, так как даже подключения не было.

Возможно... Что посоветуете тогда сделать, чтобы все нормально работало?

mark3000
На сайте с 29.08.2009
Offline
115
#46

Str256, По нынешней задумке программа и не должна соблюдать роботс, это просто информация о том закрыта или нет страница для той или иной ПС в этом файле. Но в следующей версии все таки наверное стоит подумать о том что бы сделать свой, своеобразный роботс для направления потоков сканирования.

- Разница в том что нашлось и то что отсканировалась действительно существует. Исправление этого параметра уже внесено в список исправлений.

Realtim, Наверно все таки стоит проверить нет ли каких либо запретов. Если есть, то временно их приостановить (программа неопасная, уже около 200 человек безприпятственно подключались:)).

S2
На сайте с 07.01.2008
Offline
611
#47

Как насчёт нагрузки на сайт? 2-а раза пользовался вашей программой, см. мои посты выше - пришло после этого 2-а письма с хостинга о превышении допустимой процессорной нагрузки. Даты и время в письмах совпадают. До этого никогда таких писем по этому сайту не приходило.

Сейчас посмотрел логи - ваша программа обращалась к страницам, которых нет. Результат 404 ошибка.

Причём обращения по таким адресам, которых и раньше не было, типа /textile/textile/textile/ или /top/about/top/about/ - она вообще откуда адреса такие берёт? Или может сама генерирует возможные? Ссылок в контенте точно таких нет и не было.

mark3000
На сайте с 29.08.2009
Offline
115
#48

Это конечно интересно, можно адрес сайта и адрес хостинга?

Сама программа никаких подстановок не делает, только то что есть, возможно неверно истолковывает некоторые скрипты.

S2
На сайте с 07.01.2008
Offline
611
#49
mark3000:
Это конечно интересно, можно адрес сайта и адрес хостинга?
Сама программа никаких подстановок не делает, только то что есть, возможно неверно истолковывает некоторые скрипты.

Смс Netcat лайт. Хостинг наунет. Написали, что ещё нескольких таких обращений и сайт отключат. Так что урл дать могу, но никаких обращений вашей программой к сайту чтобы не было - так, что это вам даст? Структура сайта стандартная.

mark3000
На сайте с 29.08.2009
Offline
115
#50

Я попробовал поговорить по этому поводу с программистом и скорее всего это какой то алгоритм данного CMS, например такое же может произойти и на Drupal е. Все таки интересно было бы адрес сайта (можно в личку) для анализа (напрягать хостера не буду).

Относительно хостинга, здесь уже говорилось об этом, что некоторые не совсем "сильные" машины, могут воспринимать обращение к страницам как dos атаку, из за частоты обращения, в большинстве случает это может быть, если страниц сайта достаточно много.

С "Наунет" ом я пока не сталкивался, но Вы первый кто затронул этот вопрос. Может у кого то еще имеются подобные проблемы с хостером, что бы иметь это ввиду в дальнейшем?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий