Dmitriy_2014

Dmitriy_2014
Рейтинг
370
Регистрация
01.07.2014
Интересы
Веб-технологии
Антоний Казанский #:

Формально, если ваша страница не запрещена к индексации, то заявка на удаление и не будет удовлетворена.

Понятно, но проверять я это не буду.

Так получается, что удалить можно только то что запрещено, удаленно, перенесено и т.п.
nomarketing #:
Можно написать самому
Это я уже понял, я думал есть отдельная утилита для этого.
wraithis #:
#!/usr/bin/perl
use warnings;
use strict;
use File::Slurp;
use WWW::Mechanize;
use Try::Tiny;
use WWW::Mechanize::DecodedContent;
use JSON qw(decode_json);
use utf8;
use Data::Dumper qw(Dumper);
#use Net::SSL;
$|=1;

my $m = WWW::Mechanize->new(agent => 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:56.0) Gecko/20100101 Firefox/56.0',cookie_jar => {}, autocheck => 0, stack_depth => 0, ssl_opts => { verify_hostname => 0 });$m->add_header('Accept' => "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8");$m->add_header('Accept-Language' => "en-US,en;q=0.5");$m->add_header('Accept-Encoding' => 'gzip, deflate');

my @url = read_file("site.txt");

for (@url){
chomp;
$m->get($_);
print $m->status(); exit;
print $m->decoded_content(); exit;
}
#       write_file( "matched.txt", {append => 1},@a ) ;
# write_file( "d.html", {binmode => ':utf8'}, $m->decoded_content());
# write_file( "d.html", {binmode => ':utf8'}, @dump);

Ого на Perl, ну это жестковато для меня, самое простое это wget, или как у Eddgar’а команда.
Eddgar #:

В linux полно утилит по умолчанию, их просто комбнировать надо)

Вывести в консоль

или в файл

cat urls.txt | xargs -I {} -P 10 sh -c 'echo "{}: $(curl -s -o /dev/null -w "%{http_code}" "{}")"'
Эта команда работает, но объяснить бы поподробней для новичков таких как я, примерно мы берем вывод из файла, передаем его xargs, xargs передает его sh, интерпретатору shell который выполняет curl для каждой ссылки отбрасывая все и оставляя только код ответа.
А почему, ну я понимаю что это наверное не быстро происходит, но я удалил через Инструменты -> Удаление страниц из поиска некоторые долго не удалявшиеся 404 страницы, и даже в Статус пишет что Удалена, но если зайти в Страницы в поиске -> Все страницы и скачать таблицу в CSV то там все еще будут те страницы которые я удалил и имеют Статус Удалена, ну то есть я понимаю что это не мгновенно наверное происходит, но какое время это занимает интересно, хотя в Инструменты -> Удаление страниц Статус поменялся на Удалена достаточно быстро, по моему менее суток, а вот из основной базы когда они удалятся непонятно?
alexbez #:

А также для удаления из индекса тех страниц, что были проиндексированы, но потом ты их закрыл от индексации и хочешь чтобы яндекс выкинул из индекса побыстрее. Ну а если отправить нормальную страницу, то яндекс отклонит такую заявку.


Понял, спасибо!
alexbez #:

Невозможно через этот инструмент случайно удалить нормальную страницу.

Так, а что будет если я вставлю URL нормальной страницы и нажму удалить, она не удалится, это только для удаления ещё не удалившихся сами собой 404-ых получается?
estic #:
Dmitriy_2014 #:Вообще странно, что вы про wget сразу не вспомнили. Это основная "рабочая лошадка" при выкачивании сайтов и т.п.


Я вам сразу написал: PHP CLI, читаете файл (целиком или построчно) и передаете каждую строку в PHP cURL, результат сохраняете в нужном виде.

Да через wget нормально, мне просто посмотреть ответы кодов состояния HTTP по списку URL.

Да я думал что-то простое есть типа как вот на этом сайте - https://coolakov.ru/tools/ping/, скопировал пачку и посмотрел, но там ограничение до 500 URL.
Eddgar #:

В linux полно утилит по умолчанию, их просто комбнировать надо)

Вывести в консоль

или в файл

Это я уже тоже понял, я просто что-то вспомнил про - пусть каждая программа делает что-то одно, но хорошо, и совсем забыл, это же Linux - стопятсот команд с миллионом параметров в связке через каналы, короче я уже просканировал все через wget, все ОК, но все равно спасибо. И curl как я понял просто так из файла список URL не возьмет сама по себе.
estic #:
Что значит "проверь ссылки"? Этой неопределенностью сквозило еще из первого сообщения 😊
Да, какая уже разница, от этой неопределенности сквозит еще из первого сообщения!
Всего: 1998