Представляю, как сейчас народ кинулся ссылки на Сапе скупать, пока они не подорожали. 😂
Ап ТИЦа уже бурно обсуждается тут - /ru/forum/163910
use strict; use LWP::Simple; open SITEMAP, "<c:\\Crawler\\sitemap.txt"; my @url_list; my $url; while(<SITEMAP>) { chomp; $_ =~ /href=\"(.*)\"/; $url = $1; # %2F = / # %3F = ? # %3D = = # %26 = & $url =~ s/\/$//; while($url =~ s/http:\/\///) {}; while($url =~ s/\//\%2F/) {}; while($url =~ s/\?/\%3F/) {}; while($url =~ s/=/\%3D/) {}; while($url =~ s/\&/\%26/) {}; while($url =~ s/ //) {}; push @url_list, $url; } while($url = pop @url_list) { my $link = "http://www.yandex.ru/yandsearch?rpt=rad&text=url%3D%22$url%22"; my $content = get $link; if($content =~ /Сохраненная копия/) { while($url =~ s/\%2F/\//) {}; while($url =~ s/\%3F/\?/) {}; while($url =~ s/\%3D/\=/) {}; while($url =~ s/\%26/\&/) {}; open SITEMAPIND, ">>c:\\Crawler\\sitemap.ind.txt"; print SITEMAPIND "http://$url\n"; close SITEMAPIND; print "\nIND: $url\n"; } else { while($url =~ s/\%2F/\//) {}; while($url =~ s/\%3F/\?/) {}; while($url =~ s/\%3D/\=/) {}; while($url =~ s/\%26/\&/) {}; open SITEMAPNOIND, ">>c:\\Crawler\\sitemap.noind.txt"; print SITEMAPNOIND "http://$url\n"; close SITEMAPNOIND; print "\nNOIND: $url\n"; } sleep 1; }
Я Ваш скриптик чуток доделал, чтобы он проверял страницы формата:
www.site.ru/page1/ и www.site.ru/page1.html
use strict; use LWP::Simple; open SITEMAPIND, ">sitemap.noind.txt"; close SITEMAPIND; open SITEMAPNOIND, ">sitemap.noind.txt"; close SITEMAPNOIND; open MYLOG, ">log.txt"; close MYLOG; open SITEMAP, "<sitemap.txt"; my @url_list; my $url; while(<SITEMAP>) { chomp; #$_ =~ /href=\"(.*)\"/; $url = $_; # %2F = / # %3F = ? # %3D = = # %26 = & while($url =~ s/http:\/\///) {}; while($url =~ s/\//\%2F/) {}; while($url =~ s/\?/\%3F/) {}; while($url =~ s/=/\%3D/) {}; while($url =~ s/\&/\%26/) {}; while($url =~ s/ //) {}; push @url_list, $url; } while($url = pop @url_list) { my $link; my $url_slash; my $url_slash_no_www; my $url_no_www = $url; $url_no_www =~ s/www\.//; if($url =~ /\%2F$/) { $url =~ /(.*)\%2F$/; $url_slash = $1; $url_slash_no_www = $url_slash; $url_slash_no_www =~ s/www\.//; # $link = "http://www.yandex.ru/yandsearch?rpt=rad&text=url%3D%22$url%22+%7C+url%3D%22$url_slash%22+%7C+url%3D%22$url_no_www%22+%7C+url%3D%22$url_slash_no_www%22"; $link = "http://www.yandex.ru/yandsearch?rpt=rad&text=url%3D%22$url_slash%22+%7C+url%3D%22$url_slash_no_www%22"; } else { $link = "http://www.yandex.ru/yandsearch?rpt=rad&text=url%3D%22$url%22+%7C+url%3D%22$url_no_www%22"; } open MYLOG, ">>log.txt"; print MYLOG "$link\n"; close MYLOG; my $content = get $link; if($content =~ /Ñîõðàíåííàÿ êîïèÿ/) { while($url =~ s/\%2F/\//) {}; while($url =~ s/\%3F/\?/) {}; while($url =~ s/\%3D/\=/) {}; while($url =~ s/\%26/\&/) {}; open SITEMAPIND, ">>sitemap.ind.txt"; print SITEMAPIND "http://$url\n"; close SITEMAPIND; print "\nIND: $url\n"; } else { while($url =~ s/\%2F/\//) {}; while($url =~ s/\%3F/\?/) {}; while($url =~ s/\%3D/\=/) {}; while($url =~ s/\%26/\&/) {}; open SITEMAPNOIND, ">>sitemap.noind.txt"; print SITEMAPNOIND "http://$url\n"; close SITEMAPNOIND; print "\nNOIND: $url\n"; } sleep 1; }
Делать можно так:
В списке проиндексированных саповским ботом страниц жмете внизу на экспорт всех страниц. Далее сохраняете свой список в .txt формате.
Потом берете вот этот скрипт - /ru/forum/140215
(правда придется установить перл).
Далее чекаете свой список на проиндексированность и список непроиндексированных страниц загоняете в окошко "Введите УРЛы страниц", потом просто удаляете отмеченные галочкой страницы.
Смотря, что Вы от него хотите, то и нужно знать.
С каких это пор ТИЦ стал уровнем доверия?
ТИЦ - это тематический индекс цитирования
Одно другому не мешает ;)
Есть такое и не Вы один с таким столкнулись, даже если разработчик скрипта напишет исправление, то врядли оно появится даже на 5% сайтов, так как многие работают по принципу "поставил и забыл"(у нас даже заплатки на винду мало кто ставит)
P.S. Аналогичная проблема возникает при регистрации в каталогах, сайтов начинающихся на www.info...(к примеру www.infobot.ru), у многих ограничение на доменную зону работает криво
Тоже интересен этот вопрос, но не из-за того что страшновато, а непонятны формы расчета с вебмастерами(тут моногие на форуме говорят что с вебманями за бугром мало кто работает).
Вот кто-бы поподробнее объяснил или ссылочку кинул 🙄
Всегда на телефоне оставлял настройки как есть, ибо "наигрался" с midi - лет 15 назад, а с мр3 - еще лет 10 назад