fima32

fima32
Рейтинг
132
Регистрация
12.01.2006

Представляю, как сейчас народ кинулся ссылки на Сапе скупать, пока они не подорожали. 😂

Ап ТИЦа уже бурно обсуждается тут - /ru/forum/163910

Stalker-g2:
собственно говоря такой скрипт на перле, размещённый в папке c:\crawler откроет файлик sitemap.txt, который содержит на каждой строке по ссылке и разобьёт его на 2 файла sitemap.ind.txt и sitemap.noind.txt - проиндексированные и непроиндексированные странички.
use strict;

use LWP::Simple;

open SITEMAP, "<c:\\Crawler\\sitemap.txt";

my @url_list;
my $url;

while(<SITEMAP>) {
chomp;

$_ =~ /href=\"(.*)\"/;
$url = $1;

# %2F = /
# %3F = ?
# %3D = =
# %26 = &

$url =~ s/\/$//;

while($url =~ s/http:\/\///) {};
while($url =~ s/\//\%2F/) {};
while($url =~ s/\?/\%3F/) {};
while($url =~ s/=/\%3D/) {};
while($url =~ s/\&/\%26/) {};
while($url =~ s/ //) {};

push @url_list, $url;
}

while($url = pop @url_list) {
my $link = "http://www.yandex.ru/yandsearch?rpt=rad&text=url%3D%22$url%22";
my $content = get $link;

if($content =~ /Сохраненная копия/) {
while($url =~ s/\%2F/\//) {};
while($url =~ s/\%3F/\?/) {};
while($url =~ s/\%3D/\=/) {};
while($url =~ s/\%26/\&/) {};

open SITEMAPIND, ">>c:\\Crawler\\sitemap.ind.txt";
print SITEMAPIND "http://$url\n";
close SITEMAPIND;
print "\nIND: $url\n";
}
else {
while($url =~ s/\%2F/\//) {};
while($url =~ s/\%3F/\?/) {};
while($url =~ s/\%3D/\=/) {};
while($url =~ s/\%26/\&/) {};

open SITEMAPNOIND, ">>c:\\Crawler\\sitemap.noind.txt";
print SITEMAPNOIND "http://$url\n";
close SITEMAPNOIND;

print "\nNOIND: $url\n";
}
sleep 1;
}

Я Ваш скриптик чуток доделал, чтобы он проверял страницы формата:

www.site.ru/page1/ и www.site.ru/page1.html

use strict;

use LWP::Simple;

open SITEMAPIND, ">sitemap.noind.txt";
close SITEMAPIND;
open SITEMAPNOIND, ">sitemap.noind.txt";
close SITEMAPNOIND;
open MYLOG, ">log.txt";
close MYLOG;

open SITEMAP, "<sitemap.txt";

my @url_list;
my $url;

while(<SITEMAP>) {
chomp;

#$_ =~ /href=\"(.*)\"/;
$url = $_;

# %2F = /
# %3F = ?
# %3D = =
# %26 = &

while($url =~ s/http:\/\///) {};
while($url =~ s/\//\%2F/) {};
while($url =~ s/\?/\%3F/) {};
while($url =~ s/=/\%3D/) {};
while($url =~ s/\&/\%26/) {};
while($url =~ s/ //) {};

push @url_list, $url;
}

while($url = pop @url_list) {
my $link;
my $url_slash;
my $url_slash_no_www;

my $url_no_www = $url;
$url_no_www =~ s/www\.//;

if($url =~ /\%2F$/) {
$url =~ /(.*)\%2F$/;
$url_slash = $1;
$url_slash_no_www = $url_slash;
$url_slash_no_www =~ s/www\.//;
# $link = "http://www.yandex.ru/yandsearch?rpt=rad&text=url%3D%22$url%22+%7C+url%3D%22$url_slash%22+%7C+url%3D%22$url_no_www%22+%7C+url%3D%22$url_slash_no_www%22";
$link = "http://www.yandex.ru/yandsearch?rpt=rad&text=url%3D%22$url_slash%22+%7C+url%3D%22$url_slash_no_www%22";
}
else {
$link = "http://www.yandex.ru/yandsearch?rpt=rad&text=url%3D%22$url%22+%7C+url%3D%22$url_no_www%22";

}

open MYLOG, ">>log.txt";
print MYLOG "$link\n";
close MYLOG;

my $content = get $link;

if($content =~ /&#209;&#238;&#245;&#240;&#224;&#237;&#229;&#237;&#237;&#224;&#255; &#234;&#238;&#239;&#232;&#255;/) {
while($url =~ s/\%2F/\//) {};
while($url =~ s/\%3F/\?/) {};
while($url =~ s/\%3D/\=/) {};
while($url =~ s/\%26/\&/) {};

open SITEMAPIND, ">>sitemap.ind.txt";
print SITEMAPIND "http://$url\n";
close SITEMAPIND;
print "\nIND: $url\n";
}
else {
while($url =~ s/\%2F/\//) {};
while($url =~ s/\%3F/\?/) {};
while($url =~ s/\%3D/\=/) {};
while($url =~ s/\%26/\&/) {};

open SITEMAPNOIND, ">>sitemap.noind.txt";
print SITEMAPNOIND "http://$url\n";
close SITEMAPNOIND;

print "\nNOIND: $url\n";
}
sleep 1;
}

Делать можно так:

В списке проиндексированных саповским ботом страниц жмете внизу на экспорт всех страниц. Далее сохраняете свой список в .txt формате.

Потом берете вот этот скрипт - /ru/forum/140215

(правда придется установить перл).

Далее чекаете свой список на проиндексированность и список непроиндексированных страниц загоняете в окошко "Введите УРЛы страниц", потом просто удаляете отмеченные галочкой страницы.

NEWinSEO:
Скажите пожайлуста, как сделать сателит, чего для этого нужно занть?

Смотря, что Вы от него хотите, то и нужно знать.

joost:
-= Serafim =-, но сами поддомены в Яндексе имеют низкий уровень доверия (ТИЦ).

С каких это пор ТИЦ стал уровнем доверия?

ТИЦ - это тематический индекс цитирования

Одно другому не мешает ;)

Есть такое и не Вы один с таким столкнулись, даже если разработчик скрипта напишет исправление, то врядли оно появится даже на 5% сайтов, так как многие работают по принципу "поставил и забыл"(у нас даже заплатки на винду мало кто ставит)

P.S. Аналогичная проблема возникает при регистрации в каталогах, сайтов начинающихся на www.info...(к примеру www.infobot.ru), у многих ограничение на доменную зону работает криво

mvkozyrev:
А есть у кого-нибудь опыт работы с этими биржами в плане продажи ссылок со своего сайта?

Тоже интересен этот вопрос, но не из-за того что страшновато, а непонятны формы расчета с вебмастерами(тут моногие на форуме говорят что с вебманями за бугром мало кто работает).

Вот кто-бы поподробнее объяснил или ссылочку кинул 🙄

Всегда на телефоне оставлял настройки как есть, ибо "наигрался" с midi - лет 15 назад, а с мр3 - еще лет 10 назад

Всего: 2379