Sape любит ПС Яндекс ;)

12
AH
На сайте с 18.03.2006
Offline
204
2166

С недавнего времени заметил что не принимают сайты, у которых не все страницы проиндексированы в Яндексе.

У меня есть несколько каталогов, у которых страниц больше 10000, Яндекс же видит всего 2-3 тысячи страниц сайтов, долго ломал себе голову и придумал написать код, который не даст sape вносить в базу страницы, которых нет в Яндекс, вроде помогло, поэтому хочу поделиться со всеми:

Код только на PHP, так как другими не владею:

<?

$url = $HTTP_SERVER_VARS["HTTP_HOST"].$HTTP_SERVER_VARS["REQUEST_URI"];

$e = explode("/",$url);

if(!$e[1]) $url = str_replace("/","",$url); //убираем слэш в конце главной страницы

$url_www = rawurlencode("www.".$url);

$url = rawurlencode($url);

$ya = "http://www.yandex.ru/yandsearch?rpt=rad&text=url%3D%22".$url_www."%22+%7C+url%3D%22".$url."%22";

$file=@file_get_contents($ya);

if(preg_match("!Результат поиска: страниц&nbsp;&mdash; <b>(.*?)</b>!si",$file,$ok)) $is = $ok[1];

if($is)

{

// ЗДЕСЬ ДОЛЖЕН БЫТЬ КОД САПЕ

}

?>

после того как Sape закончит индексацию, можно удалить этот код и заменить только кодом системы Sape.

Цены на регистрацию доменов ( https://1reg.online/domains.price ).
iBBi
На сайте с 13.02.2007
Offline
323
#1

Артур почему я все узнаю на форумах? все нужно в одном офисе работать.

AH
На сайте с 18.03.2006
Offline
204
#2
iBBi:
Артур почему я все узнаю на форумах? все нужно в одном офисе работать.

Работа это одно, а форум другое, здесь я просто общаюсь :)

mustafa
На сайте с 28.10.2005
Offline
202
#3

Art-Host, бан по айпи через 1000 запросов. Хотя вариант неплохой.

AH
На сайте с 18.03.2006
Offline
204
#4

Да, забыл, если переменная $url в конце содержит слэш, например site.ru/links/, то слэш нужно убрать, так как страница не будет найдена в Яндекс.

AH
На сайте с 18.03.2006
Offline
204
#5
mustafa:
Art-Host, бан по айпи через 1000 запросов.

Откуда такая информация?

Запросы же не к XML, а на обычные страницы с поиском

Flint
На сайте с 25.12.2002
Offline
98
#6
Art-Host:
Откуда такая информация?
Запросы же не к XML, а на обычные страницы с поиском

Сделайте так, чтоб парсер "засыпал" на рандомное время, и всё будет ок :)

С уважением, Копылов Кирилл | ICQ - 505-982 | Тел. +7 (8412) 25-22-00
AH
На сайте с 18.03.2006
Offline
204
#7
Flint:
Сделайте так, чтоб парсер "засыпал" на рандомное время, и всё будет ок :)

типа такого sleep(mt_rand(1,100)) ?

[Удален]
#8
Откуда такая информация?

Это не "откуда", это жизнь такая.

dkameleon
На сайте с 09.12.2005
Offline
386
#9
Art-Host:

Откуда такая информация?
Запросы же не к XML, а на обычные страницы с поиском

тожек блочат, когда слишком много запросов в единицу времени привалит с одного айпишника.

Дизайн интерьера (http://balabukha.com/)
Flint
На сайте с 25.12.2002
Offline
98
#10
Art-Host:
типа такого sleep(mt_rand(1,100)) ?

Я так думаю от 10мс до 1-2с хватит...

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий