Dmitriy_2014

Dmitriy_2014
Рейтинг
370
Регистрация
01.07.2014
Интересы
Веб-технологии
А, да, вот, ещё что хотел спросить – А имеет ли это все хоть какой-то смысл удалять застрявшие и почему-то не удалившиеся страницы ошибок 404, какие-то дубликаты и т.п. страницы которые попали в поисковую базу Яндекса и застряли там, ну то есть это принесет какой-то профит, в виде улучшения позиции, посещаемости или типа того?

Действительно нормальные страницы получают Статус – Отклонено.

И почему-то когда копируешь в форму ссылку с окончанием /kak-varit-borsh/? то он пытается удалить нормальную страницу без окончания /?, естественно знаки вопроса запрещены в robots.txt, но у них в базе почему-то такие страницы есть, хотя их же инструмент проверки Анализ robots.txt говорит что да эти страницы - Ссылка запрещена директивой Disallow: /*/*?.
Ладно, всем спасибо за ответы, я в общем и целом понял, нормальная страница не удалится, а если вдруг удалится, то через три недели восстановится.
Антоний Казанский #:

Смотря что считать лишним.

Формально бесполезные страницы в индексе хранить не нужно.

Ну вот как в Яндексе, который по полгода хранит 404-е страницы в своей базе, например.
А есть ли такой инструмент в Google Webmaser’е и стоит ли там поудалять лишнее?
Антоний Казанский #:

Да, и в целом это логично. 

Извиняюсь что я ничего не читаю никогда, но цитирую из Вебмастера:

Вы можете убрать из поиска отдельные страницы: удаленные с сайта или закрытые от индексирования.

Но есть некоторые нюансы, например, что даже на запрещенных в robots.txt и удаленные страницы могут:

При этом страница может иногда появляться в результатах поиска, например, если на нее ведут ссылки с других ресурсов.

И даже если страница удалится, то её типа можно вернуть в поиск:

Уберите запрет на индексирование: директиву Disallow в файле robots.txt или метатег noindex. Страницы вернутся в результаты поиска, когда робот обойдет сайт и узнает об изменениях. Это может занять до трех недель.

Но в целом вы можете добавить туда любые ссылки и нажать кнопку удалить.
Антоний Казанский #:

Формально, если ваша страница не запрещена к индексации, то заявка на удаление и не будет удовлетворена.

Понятно, но проверять я это не буду.

Так получается, что удалить можно только то что запрещено, удаленно, перенесено и т.п.
nomarketing #:
Можно написать самому
Это я уже понял, я думал есть отдельная утилита для этого.
wraithis #:
#!/usr/bin/perl
use warnings;
use strict;
use File::Slurp;
use WWW::Mechanize;
use Try::Tiny;
use WWW::Mechanize::DecodedContent;
use JSON qw(decode_json);
use utf8;
use Data::Dumper qw(Dumper);
#use Net::SSL;
$|=1;

my $m = WWW::Mechanize->new(agent => 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:56.0) Gecko/20100101 Firefox/56.0',cookie_jar => {}, autocheck => 0, stack_depth => 0, ssl_opts => { verify_hostname => 0 });$m->add_header('Accept' => "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8");$m->add_header('Accept-Language' => "en-US,en;q=0.5");$m->add_header('Accept-Encoding' => 'gzip, deflate');

my @url = read_file("site.txt");

for (@url){
chomp;
$m->get($_);
print $m->status(); exit;
print $m->decoded_content(); exit;
}
#       write_file( "matched.txt", {append => 1},@a ) ;
# write_file( "d.html", {binmode => ':utf8'}, $m->decoded_content());
# write_file( "d.html", {binmode => ':utf8'}, @dump);

Ого на Perl, ну это жестковато для меня, самое простое это wget, или как у Eddgar’а команда.
Eddgar #:

В linux полно утилит по умолчанию, их просто комбнировать надо)

Вывести в консоль

или в файл

cat urls.txt | xargs -I {} -P 10 sh -c 'echo "{}: $(curl -s -o /dev/null -w "%{http_code}" "{}")"'
Эта команда работает, но объяснить бы поподробней для новичков таких как я, примерно мы берем вывод из файла, передаем его xargs, xargs передает его sh, интерпретатору shell который выполняет curl для каждой ссылки отбрасывая все и оставляя только код ответа.
Всего: 2034