Str256

Рейтинг
611
Регистрация
07.01.2008
Интересы
компьютеры, интернет

Sterh, а что насчёт того что я написал тут для 1.х версии: /ru/forum/comment/10741993 будет исправлено?

L!mur, щас тестирование идёт программы 2.0, где всё сохраняется на лету в sql базу.

total7:
Может кто-нибудь посоветует прогу типа этой, но нормальную, что бы она работала стабильно, побыстрее(ночь комп жужжит), не жрала столько трафика, могла работать с сайтами на которых 10 000 и выше страниц.

2.0 версия сейчас тестируется, там теоретически должно быть быстрее, с автосохранениями и без ограничения числа страниц. А трафик - от размера сайта зависит - прога для того чтобы получитть все внутрение ссылки фактически скачивает сайт, кроме тех файлов что есть в списке исключений. И потом кто трафик сейчас считает, меняйте провайдера если дорого. Или на онлайн-версию переходите.

German V:
Ксену показывает 6500 урлов включая урлы картинок и html страницы, Page Weight справляется с таким количеством?
И есть ли демо версия, не нашел на сайте?

Ссылок до миллиона. Страниц - считается 5к максимум, но может быть и больше и меньше. Картинки - не надо сканировать, в исключения сразу добавлять.

Проблема:

В Битых ссылках можно перейти на страницу с битой ссылкой - есть такой пункт меню и есть титл страницы где эта ссылка расположена.

А в внешних ссылках такого пункта нету. Есть 4 колонки, во всех только - перейти на урл куда идёт ссылка. Надо добавить, иначе не найдёшь её. Версия 1.8.9. - вроде последняя.

P.S. Вот ещё проблема.

Сперва просканировал сайт без роботс.тхт - выдало много страниц там закрытых. Включил повторное сканирование, с использованием списка уже полученных страниц. Так вот список этих страниц закрытых в роботс.тхт остался.

Сслки ведущие на страницу - 0

Ссылки ведущие со страницы - хх

Условный вес - 1

Удалить их скопом нельзя - через шифт, выделение не работает, да и по одной тоже нельзя - нет пункта удалить. После расчёта веса они тоже остаются с весом 1. В общем не порядок.

Я джпеги, и раньше исключал - сайты быстрее сканируются. Одно дело если это страница на которой текст + фото, а другие дело только фото.

Но вот там щас в списке исключений по умолчанию doc документы. И я не уверен что это правильно. Так как ссылки в них индексируются и бот может по ним дальше пойти.

Если зайти в расширенный поиск Яндекса, то видно что по умолчанию идёт поиск по:

html

pdf

doc

rtf

Думаю некаду действительно пытались развести. С собой для тестирования/продажи берут обычно не самые тяжёлые блоки питания. 4-е года назад, рублей 700 - стоил PowerMan ватт на 350, я такой пару раз покупал хватало на неск лет. Минус - шумноват и без защит. Сейчас цены выросли уже в том плане, что 350 ватники спросом уже не пользуются, так как компы стали мощнее и продают поэтому 600 ватные и выше, а они и стоят больше. Я месяц назад купил такой: FSP Group ATX-600PNR 600W за 2к рублей, пока доволен - работает тихо, даже ночью и это без доработки типо смены вентилятора.

Ставьте всегда одинаковое количество итераций - 4 к примеру. Если итерации разные, смотрите веса страниц в пределах одной итерации.

Иначе говоря, все веса относительные - чем больше число итераций тем просто расчёт точнее. Цифра просто показывает соотношение весов одной страницы относительно других, при данном количестве итераций.

GolDima:
А возможно ли как-то ограничить возможность использования дырок по IP?

Только если заходить с компа, у которого выделенный IP. В противном случае, можно найти свободный прокси в нужном диапазоне. Имеется ввиду, что полный контроль не удастся получить над сайтом. А шелл зальют конечно если дырка будет.

stanly0:
К сожалению, я не в курсе, что на хабре по поводу подпорок написано.. Можно ссылочку для ознакомления?

http://habrahabr.ru/post/108574/ эта что ли?

тут почти в каждом посту пишется про рефссылки.

Всего: 15927