Sterh, а что насчёт того что я написал тут для 1.х версии: /ru/forum/comment/10741993 будет исправлено?
L!mur, щас тестирование идёт программы 2.0, где всё сохраняется на лету в sql базу.
2.0 версия сейчас тестируется, там теоретически должно быть быстрее, с автосохранениями и без ограничения числа страниц. А трафик - от размера сайта зависит - прога для того чтобы получитть все внутрение ссылки фактически скачивает сайт, кроме тех файлов что есть в списке исключений. И потом кто трафик сейчас считает, меняйте провайдера если дорого. Или на онлайн-версию переходите.
Ссылок до миллиона. Страниц - считается 5к максимум, но может быть и больше и меньше. Картинки - не надо сканировать, в исключения сразу добавлять.
Проблема:
В Битых ссылках можно перейти на страницу с битой ссылкой - есть такой пункт меню и есть титл страницы где эта ссылка расположена.
А в внешних ссылках такого пункта нету. Есть 4 колонки, во всех только - перейти на урл куда идёт ссылка. Надо добавить, иначе не найдёшь её. Версия 1.8.9. - вроде последняя.
P.S. Вот ещё проблема.
Сперва просканировал сайт без роботс.тхт - выдало много страниц там закрытых. Включил повторное сканирование, с использованием списка уже полученных страниц. Так вот список этих страниц закрытых в роботс.тхт остался.
Сслки ведущие на страницу - 0
Ссылки ведущие со страницы - хх
Условный вес - 1
Удалить их скопом нельзя - через шифт, выделение не работает, да и по одной тоже нельзя - нет пункта удалить. После расчёта веса они тоже остаются с весом 1. В общем не порядок.
Я джпеги, и раньше исключал - сайты быстрее сканируются. Одно дело если это страница на которой текст + фото, а другие дело только фото.
Но вот там щас в списке исключений по умолчанию doc документы. И я не уверен что это правильно. Так как ссылки в них индексируются и бот может по ним дальше пойти.
Если зайти в расширенный поиск Яндекса, то видно что по умолчанию идёт поиск по:
html
pdf
doc
rtf
Думаю некаду действительно пытались развести. С собой для тестирования/продажи берут обычно не самые тяжёлые блоки питания. 4-е года назад, рублей 700 - стоил PowerMan ватт на 350, я такой пару раз покупал хватало на неск лет. Минус - шумноват и без защит. Сейчас цены выросли уже в том плане, что 350 ватники спросом уже не пользуются, так как компы стали мощнее и продают поэтому 600 ватные и выше, а они и стоят больше. Я месяц назад купил такой: FSP Group ATX-600PNR 600W за 2к рублей, пока доволен - работает тихо, даже ночью и это без доработки типо смены вентилятора.
Ставьте всегда одинаковое количество итераций - 4 к примеру. Если итерации разные, смотрите веса страниц в пределах одной итерации.
Иначе говоря, все веса относительные - чем больше число итераций тем просто расчёт точнее. Цифра просто показывает соотношение весов одной страницы относительно других, при данном количестве итераций.
Только если заходить с компа, у которого выделенный IP. В противном случае, можно найти свободный прокси в нужном диапазоне. Имеется ввиду, что полный контроль не удастся получить над сайтом. А шелл зальют конечно если дырка будет.
http://habrahabr.ru/post/108574/ эта что ли?
тут почти в каждом посту пишется про рефссылки.