Dmitriy_2014

Dmitriy_2014
Рейтинг
370
Регистрация
01.07.2014
Интересы
Веб-технологии
А есть ли такой инструмент в Google Webmaser’е и стоит ли там поудалять лишнее?
Антоний Казанский #:

Да, и в целом это логично. 

Извиняюсь что я ничего не читаю никогда, но цитирую из Вебмастера:

Вы можете убрать из поиска отдельные страницы: удаленные с сайта или закрытые от индексирования.

Но есть некоторые нюансы, например, что даже на запрещенных в robots.txt и удаленные страницы могут:

При этом страница может иногда появляться в результатах поиска, например, если на нее ведут ссылки с других ресурсов.

И даже если страница удалится, то её типа можно вернуть в поиск:

Уберите запрет на индексирование: директиву Disallow в файле robots.txt или метатег noindex. Страницы вернутся в результаты поиска, когда робот обойдет сайт и узнает об изменениях. Это может занять до трех недель.

Но в целом вы можете добавить туда любые ссылки и нажать кнопку удалить.
Антоний Казанский #:

Формально, если ваша страница не запрещена к индексации, то заявка на удаление и не будет удовлетворена.

Понятно, но проверять я это не буду.

Так получается, что удалить можно только то что запрещено, удаленно, перенесено и т.п.
nomarketing #:
Можно написать самому
Это я уже понял, я думал есть отдельная утилита для этого.
wraithis #:
#!/usr/bin/perl
use warnings;
use strict;
use File::Slurp;
use WWW::Mechanize;
use Try::Tiny;
use WWW::Mechanize::DecodedContent;
use JSON qw(decode_json);
use utf8;
use Data::Dumper qw(Dumper);
#use Net::SSL;
$|=1;

my $m = WWW::Mechanize->new(agent => 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:56.0) Gecko/20100101 Firefox/56.0',cookie_jar => {}, autocheck => 0, stack_depth => 0, ssl_opts => { verify_hostname => 0 });$m->add_header('Accept' => "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8");$m->add_header('Accept-Language' => "en-US,en;q=0.5");$m->add_header('Accept-Encoding' => 'gzip, deflate');

my @url = read_file("site.txt");

for (@url){
chomp;
$m->get($_);
print $m->status(); exit;
print $m->decoded_content(); exit;
}
#       write_file( "matched.txt", {append => 1},@a ) ;
# write_file( "d.html", {binmode => ':utf8'}, $m->decoded_content());
# write_file( "d.html", {binmode => ':utf8'}, @dump);

Ого на Perl, ну это жестковато для меня, самое простое это wget, или как у Eddgar’а команда.
Eddgar #:

В linux полно утилит по умолчанию, их просто комбнировать надо)

Вывести в консоль

или в файл

cat urls.txt | xargs -I {} -P 10 sh -c 'echo "{}: $(curl -s -o /dev/null -w "%{http_code}" "{}")"'
Эта команда работает, но объяснить бы поподробней для новичков таких как я, примерно мы берем вывод из файла, передаем его xargs, xargs передает его sh, интерпретатору shell который выполняет curl для каждой ссылки отбрасывая все и оставляя только код ответа.
А почему, ну я понимаю что это наверное не быстро происходит, но я удалил через Инструменты -> Удаление страниц из поиска некоторые долго не удалявшиеся 404 страницы, и даже в Статус пишет что Удалена, но если зайти в Страницы в поиске -> Все страницы и скачать таблицу в CSV то там все еще будут те страницы которые я удалил и имеют Статус Удалена, ну то есть я понимаю что это не мгновенно наверное происходит, но какое время это занимает интересно, хотя в Инструменты -> Удаление страниц Статус поменялся на Удалена достаточно быстро, по моему менее суток, а вот из основной базы когда они удалятся непонятно?
alexbez #:

А также для удаления из индекса тех страниц, что были проиндексированы, но потом ты их закрыл от индексации и хочешь чтобы яндекс выкинул из индекса побыстрее. Ну а если отправить нормальную страницу, то яндекс отклонит такую заявку.


Понял, спасибо!
alexbez #:

Невозможно через этот инструмент случайно удалить нормальную страницу.

Так, а что будет если я вставлю URL нормальной страницы и нажму удалить, она не удалится, это только для удаления ещё не удалившихся сами собой 404-ых получается?
estic #:
Dmitriy_2014 #:Вообще странно, что вы про wget сразу не вспомнили. Это основная "рабочая лошадка" при выкачивании сайтов и т.п.


Я вам сразу написал: PHP CLI, читаете файл (целиком или построчно) и передаете каждую строку в PHP cURL, результат сохраняете в нужном виде.

Да через wget нормально, мне просто посмотреть ответы кодов состояния HTTP по списку URL.

Да я думал что-то простое есть типа как вот на этом сайте - https://coolakov.ru/tools/ping/, скопировал пачку и посмотрел, но там ограничение до 500 URL.
Всего: 2000