Выдергиваем проиндексированные страницы.

AH
На сайте с 18.03.2006
Offline
204
1440

Написал скриптик для тех кому нужно выдернуть список проиндексированных страниц в Яндекс ПС.

Например можно этот список использовать в sape.ru для включения проиндексированных страниц и удаления не проиндексированных.

<form method=POST>

URL: <input name="url" value="<? echo $_POST['url']; ?>">
Страница: <select name=p>
<?
for($i=0;$i<100;$i++)
{
echo "<option value=".$i;
if($i == $p) echo " selected";
echo ">".($i+1)."</option>";
}
?>
</select>
<input type=submit>
</form>
<hr>
<?
if($_POST['url'])
{
$url = str_replace("http://www.","",$_POST['url']);
$url = str_replace("www.","",$_POST['url']);
$p = $_POST['p'];
$f = join("",file("http://www.yandex.ru/yandsearch?p=".$p."&surl=www.".$url."&pag=u&numdoc=50&rd=0"));
$pattern="/<span style=\"color:#060;\">(.*)&nbsp;&middot;&nbsp;/Uis";
preg_match_all($pattern,$f,$n);
unset($n[0]);
echo "<textarea cols=60 rows=30>";
for($i=0;$i<count($n[1]);$i++) echo trim($n[1][$i])."\n";
echo "</textarea>";
}
?>
Цены на регистрацию доменов ( https://1reg.online/domains.price ).
dobrosyn
На сайте с 04.02.2007
Offline
123
#1

Не плохо. Спасибо.

Продвижение сайтов в сложных тематиках (https://luxsite.ua/seo/)
Alex11
На сайте с 18.04.2006
Offline
65
#2

Для вебмастеров удобная вещь(у меня в эксель сохраняет:)), проблему у оптимизаторов попробуйте решить.. вот счас решение вроде минут за 5 придумали)

+1 ТС.

AH
На сайте с 18.03.2006
Offline
204
#3
Alex11:
проблему у оптимизаторов попробуйте решить..

о каких проблемах речь?

Alex11
На сайте с 18.04.2006
Offline
65
#4
Art-Host:
о каких проблемах речь?

У Вас куплено, к примеру, 1к ссылок на проекте.

Задача - отсеять непроиндексированные (проставить галочки), поясняю - "Введите УРЛы страниц (с новой строки, с http://):" - текстариа отсутствует.

mihan
На сайте с 20.12.2005
Offline
379
#5

Art-Host, спасибо!

Лидер по шакесам - ШАКЕС.ПРО (http://shakes.pro) Гемблинг конвертится тут - WelcomePartners (http://welcome.partners/webmaster/register?ref=vh3gd)
AH
На сайте с 18.03.2006
Offline
204
#6
Alex11:
У Вас куплено, к примеру, 1к ссылок на проекте.
Задача - отсеять непроиндексированные (проставить галочки), поясняю - "Введите УРЛы страниц (с новой строки, с http://):" - текстариа отсутствует.

Такое будет сложно сделать, так как я понял, 1k ссылок это все разные домены, поэтому для каждой ссылки нужен будет запрос к Яндекс, а это уже проблема.

Guard
На сайте с 06.08.2007
Offline
112
#7

Полезно, спасибо.

humbert
На сайте с 16.03.2006
Offline
527
#8

А если страница такого вида?

http://site.ru?url=http://site2.ru

Парсинг прайс-листов, наполнение интернет-магазина товаром. (https://humbert.ru) Любая CMS (Битрикс, OpenCart, Prestashop и даже Woo Commerce )
AH
На сайте с 18.03.2006
Offline
204
#9
humbert:
А если страница такого вида?
http://site.ru?url=http://site2.ru

Меняем POST на GET, делов то :)

AH
На сайте с 18.03.2006
Offline
204
#10

Так как Яндекс что-то "намутил" с кодировкой :) пришлось скрипт доделать, так же добавил еще поле выбора количества ссылок выводимых на странице:

<form method=POST>

URL: <input name="url" value="<? echo $_POST['url']; ?>">
Страница: <select name=p>
<?
for($i=0;$i<100;$i++)
{
echo "<option value=".$i;
if($i == $p) echo " selected";
echo ">".($i+1)."</option>";
}
?>
</select>
Ссылок на странице: <select name=n>
<?
for($i=10;$i<1000;$i+=10)
{
echo "<option value=".$i;
if($i == $n) echo " selected";
echo ">".$i."</option>";
}
?>
</select>
<input type=submit>
</form>
<hr>
<?
if($_POST['url'])
{
//set_time_limit(0);
$url = str_replace("http://www.","",$_POST['url']);
$url = str_replace("www.","",$_POST['url']);
$p = $_POST['p'];
$n = $_POST['n'];
$f = "http://www.yandex.ru/yandsearch?p=".$p."text=%23url%3D%22www.".$url."*%22&pag=u&surl=".$url."&numdoc=".$n;
$f = iconv("UTF-8","windows-1251",join("",file($f)));
$pattern="/<span style=\"color:#060;\">(.*)&nbsp;&middot;&nbsp;/Uis";
preg_match_all($pattern,$f,$n);
unset($n[0]);
echo "<textarea cols=60 rows=30>";
for($i=0;$i<count($n[1]);$i++) echo "http://".trim($n[1][$i])."\n";
echo "</textarea>";
}
?>

при выборе большого количества страниц нужно раскоментировать set_time_limit(0);, убрать два слэша перед ней, функция не на всех хостингах включена к тому же.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий