С помощью чего можно получить список страниц в яндексе

12 3
SG
На сайте с 21.01.2007
Offline
96
5026

С помощью какой бесплатной программы/онлайн утилиты можно получить файл-список проиндексированных страниц в яндексе?

SG
На сайте с 21.01.2007
Offline
96
#1

ну хоть в одном инструменте это есть? семонитор выводит только часть проиндексированных страниц

upyrj
На сайте с 17.09.2005
Offline
140
#2

Вообще говоря, никакая тулза не высосет из Яндекса то, что он не показывает через браузер.

Для всяких хитрых нужд есть у меня самопальная обдиралка любого SERPа в Яндексе.

1. Выкладываем файл на хостинг с PHP, убрав предварительно «.txt».

2. Формируем нужный запрос к Яндексу, лучше по 50 результатов (к урлу прибавить &numdoc=50), копируем URL.

3. В нижнее поле «обдиралки» пихаем целиком этот Яндексовский URL и жмем на кнопку.

4. Страница начинает время от времени перезагружаться, в текстовое поле вываливаются URLы из SERPа.

5. Когда выдача заканчивается, скрипт сам останавливается, а поле с URLом SERPа очищается.

Есть шанс бана сервера Яндексом, но если не постоянно гонять, то вроде и не банит.

Денис Иванов Важно: обменом валют я не занимаюсь.
cims
На сайте с 15.11.2005
Offline
60
#3
upyrj:
Вообще говоря, никакая тулза не высосет из Яндекса то, что он не показывает через браузер.

Для всяких хитрых нужд есть у меня самопальная обдиралка любого SERPа в Яндексе.
1. Выкладываем файл на хостинг с PHP, убрав предварительно «.txt».
2. Формируем нужный запрос к Яндексу, лучше по 50 результатов (к урлу прибавить &numdoc=50), копируем URL.
3. В нижнее поле «обдиралки» пихаем целиком этот Яндексовский URL и жмем на кнопку.
4. Страница начинает время от времени перезагружаться, в текстовое поле вываливаются URLы из SERPа.
5. Когда выдача заканчивается, скрипт сам останавливается, а поле с URLом SERPа очищается.

Есть шанс бана сервера Яндексом, но если не постоянно гонять, то вроде и не банит.

О чудо такое еще и приносит пользу ?

жуть

одноформатный скрипт работает имменно та как работает. по другому не дает

либо пишете согласно своих критериев либо даеЁте сводку на коменнты к нему,

upyrj
На сайте с 17.09.2005
Offline
140
#4
cims:
О чудо такое еще и приносит пользу?

Польза — вещь относительная. Мне понадобилось ободрать 20 нетривиальных серпов — я написал «чудо», как сумел. Если вам оно бесполезно — никто не неволит. Задачу, поставленную Stalker-g2, оно может решить ровно настолько, насколько это решается с помощью языка запросов к Яндексу. Надо только запрос подобрать наиболее подходящий. Например, такой или такой.

cims:
одноформатный скрипт работает имменно та как работает. по другому не дает
либо пишете согласно своих критериев либо даеЁте сводку на коменнты к нему,

Ничего не понял. Поясните.

MASe
На сайте с 17.09.2002
Offline
219
#5

кстати, прикольная утилитка... спасибо за линк

Only God Can Judge Me... Nobody Else... Дрезна (http://www.drezna.ru/) Помощники: Sape (http://www.sape.ru/r.167724536c.php)
SG
На сайте с 21.01.2007
Offline
96
#6

да, спасибо, очень интересно :)) а я подумал решить задачу по-другому, написал робот-индексатор сайта, карту составляет.

потом её проверять на проиндексированность в Я... каждую страницу

SG
На сайте с 21.01.2007
Offline
96
#7

собственно говоря такой скрипт на перле, размещённый в папке c:\crawler откроет файлик sitemap.txt, который содержит на каждой строке по ссылке и разобьёт его на 2 файла sitemap.ind.txt и sitemap.noind.txt - проиндексированные и непроиндексированные странички.

use strict;

use LWP::Simple;

open SITEMAP, "<c:\\Crawler\\sitemap.txt";

my @url_list;
my $url;

while(<SITEMAP>) {
chomp;

$_ =~ /href=\"(.*)\"/;
$url = $1;

# %2F = /
# %3F = ?
# %3D = =
# %26 = &

$url =~ s/\/$//;

while($url =~ s/http:\/\///) {};
while($url =~ s/\//\%2F/) {};
while($url =~ s/\?/\%3F/) {};
while($url =~ s/=/\%3D/) {};
while($url =~ s/\&/\%26/) {};
while($url =~ s/ //) {};

push @url_list, $url;
}

while($url = pop @url_list) {
my $link = "http://www.yandex.ru/yandsearch?rpt=rad&text=url%3D%22$url%22";
my $content = get $link;

if($content =~ /Сохраненная копия/) {
while($url =~ s/\%2F/\//) {};
while($url =~ s/\%3F/\?/) {};
while($url =~ s/\%3D/\=/) {};
while($url =~ s/\%26/\&/) {};

open SITEMAPIND, ">>c:\\Crawler\\sitemap.ind.txt";
print SITEMAPIND "http://$url\n";
close SITEMAPIND;
print "\nIND: $url\n";
}
else {
while($url =~ s/\%2F/\//) {};
while($url =~ s/\%3F/\?/) {};
while($url =~ s/\%3D/\=/) {};
while($url =~ s/\%26/\&/) {};

open SITEMAPNOIND, ">>c:\\Crawler\\sitemap.noind.txt";
print SITEMAPNOIND "http://$url\n";
close SITEMAPNOIND;

print "\nNOIND: $url\n";
}
sleep 1;
}

fima32
На сайте с 12.01.2006
Offline
132
#8

Создал папку c:\crawler, создал файл crawler.pl и sitemap.txt. В sitemap.txt положил адреса нескольких страниц сайта на каждой строке. Запустил скрипт - не работает

З.Ы. Просто мне нужен скрипт, который бы проверял проиндексированность каждой страницы из списка

Петр Елагин
На сайте с 21.03.2007
Offline
197
#9

я бы у яндекса XML спросил.

SG
На сайте с 21.01.2007
Offline
96
#10

яндекс.xml жадный-1000 запросов сутки, а мне по 4000 в сутки проверять надо.

так-проверяет нормально. а xml я думаю быстро заблочит

12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий