mlu

Рейтинг
68
Регистрация
09.02.2008
Nimor:
Ладно, а на тайтл как проверку поставить?)

Модуль выдёргивания тайтлов со страниц содержится в дистрибутиве в файле /examples/http_modules/html_title.xml

Всё, что Вам надо сделать - подключить его директивой


<include enabled="1" file="/путь/до/папки/с/модулем/имя_модуля.xml"/>

Этот тег необходимо добавить сразу после тега <params> внутри конфига программы.

Посмотрите примеры (довольно детально разобраны) в директории /examples/includes/

Список проверяемых ссылок добавьте в файлик domains.txt, который содержится в дистрибутиве, удалите из него все данные и добавьте свои ссылки.

Так же необходимо отключить или удалить модули проверки ПР и ТИЦ, они просто по дефолту включены.

Будут вопросы - я с радостью :)

BotaniQ:
А как именно это сделать не догадался, так как я не программист к сожалению)

Думаю, в простейшем случае (костыль) надо будет заменить это:


return array('404', 'Not Found');

На примерно такое:


header("HTTP/1.1 404 Not Found", true, 404);
readfile("404.html");
exit;

Ну и в файлик 404.html нужно будет поместить контент хтмл-странички с 404 ошибкой.

Первая строчка выводит статус и хттп-ошибку (404), вторая строчка выводит содержимое файла 404.хтмл, третья строчка принудительно выходит из скрипта.

Более правильно, думаю, сделает автор скрипта, если он, конечно, не забросил его еще :)

BotaniQ:
Как сделать чтобы 404 страницы имели свой вид с ссылкой на главную?

Посмотрите скриптик index.php, он ищет файл на диске и выводит его в браузер. Если файл не найден, то выводит 404, вот непосредственно код:


return array('404', 'Not Found');

Сделайте там вывод полноценной страницы со ссылкой на главную и будет работать :)

/ru/forum/511667

Бесплатно :)

/ru/forum/658844

С новым годом 8)

'[umka:
;9854977']Хост в обратной зоне можно прописать какой угодно.

Это заметно сложнее, нежели UA подменить в запросе. Более того, это не везде возможно в принципе. Например, когда качают через прокси или с хостингов, которые не позволяют птр вбить.

Этот способ вполне работает и его рекомендуют сами поисковики. Например, яндекс: http://help.yandex.ru/webmaster/?id=1076102

Зачем RIPE, whois и прочее, для большинства ботов от ПС проверка вполне может ограничиться вычислением хостнейма по айпишке.

Для пхп это функция gethostbyaddr(). У гугла хостнейм оканчивается на "googlebot.com", у яши - yandex.(ru|com), у яху - yahoo.net, у мылру - mail.ru, бинг - search.msn.com.

Найденные правильные айпишки настоящих можно сразу в локальный вайтлист заносить, чтобы второй раз не резолвить, аналогично с явно левыми ботами.

У меня такая система работает на некоторых сайтах и вполне успешно банит много левых ботов, которые прикидываются яшей и прочими гуглботами.

Похожая ситуация, регулярно появляются сильные всплески траффика (превышающие норму раза в 3), траффик живой, естественный, с поиска, не боты. Сайт образовательной тематики. Посещалка 15-20К визитов в сутки.

Картинка кликабельная, объяснить такое поведение не получается 8)

Результаты парсинга софтом через прокси могут отличаться, т.к. у прокси может быть другая страна и выдача может быть с привязкой к языку/региону.

/ru/forum/511667

ЧекПарамс, бесплатно :)

Всего: 316