На сайте, который я хочу на биржу сдать, полно страниц с ненулевым pr гораздо дальше двух кликов от морды. Причем сайт старый, большой и сделан для людей. Неохота теперь там все переделывать только ради сапы.
А у нас что, жаба только на дорах живет?
И вообще, способность паука исполнять жабу никакого отношения к алгоритмам детектирования доров не имеет.
Гугл жабу исполняет на раз.
Обычное дело. Он так еще несколько лет может ходить.
Деньги не влаживают, а вкладывают. "Влаживать" это от слова лажа, что ли?
А тиц, зачем он Вам? Ни на что он все равно не влияет.
Получайте ссылки на свой сайт - будет тиц бесплатно. Или покупайте, но покупной без вложений сдуется - за него нужно платить абонплату, как за мобилку, постоянно.
А правильно ли я понял, что в сапу берут ТОЛЬКО страницы не дальше двух кликов от морды? И не больше тысячи с одного сайта?
Код сапы распознать не получится, да и нет в этом смысла. Продавцов внутряка вычислить IMHO несложно. Если тупо посчитать удельную плотность несквозных ссылок (те на разные урлы) с внутренних страниц, то у саперов она будет аномально высока.
Это я по своим серверным логам проверил.
2 ALL Спасибо за советы. Багу с дублями пофиксил, благо это элементарно. По ходу дела выяснились еще подробности. Исследование логов за последние полгода с пристрастием показало, что яндекс этот дубль знает давно, минимум полгода. Индексер где-то раз в месяц его проверял. Но ни одного человеческого перехода на эту страницу не было. Зато эту же страницу периодически проверяли рамблер и черепаха. Они то откуда его взяли? Значит точно где-то ссылка давным давно была...
Ну а завершилось все, как положено, хэппи эндом. В процессе сегодняшнего апдейта морда вернулась в индекс и в серп на свое место. Дубль из индекса исчез. Учитывая то, что багу я поправил только вчера, врятли яндекс это без посторонней помощи сделал. Я вчера написал о проблеме (о выпадении морды) в саппорт, ответа пока не пришло, но, поскольку проблема уже решена, есть вероятность, что именно это обращение и помогло.
putty - это терминал. Значит должен быть ssh доступ. Следовательно, узнать логин/пароль , зайти по ssh, найти диру с логами и смотреть используя less, cat итп, если хостинг *nix-овый.
Да, остается только так. Странно только, почему mod_rewrite так капризничает. Даже маны от него почитал, но ясности не появилось...