Dmitriy_2014

Dmitriy_2014
Рейтинг
370
Регистрация
01.07.2014
Интересы
Веб-технологии
Vladimir SEO #:

взял название темы вбил в гугл и вуаля


Да, я понимаю что это строка запроса, что это для передачи параметров, данных с запросом в строке, НО там просто знак вопроса ?, и все пустая строка, там нету никаких параметров ничего, там пустата, просто один знак вопроса.
А, да, вот, ещё что хотел спросить – А имеет ли это все хоть какой-то смысл удалять застрявшие и почему-то не удалившиеся страницы ошибок 404, какие-то дубликаты и т.п. страницы которые попали в поисковую базу Яндекса и застряли там, ну то есть это принесет какой-то профит, в виде улучшения позиции, посещаемости или типа того?

Действительно нормальные страницы получают Статус – Отклонено.

И почему-то когда копируешь в форму ссылку с окончанием /kak-varit-borsh/? то он пытается удалить нормальную страницу без окончания /?, естественно знаки вопроса запрещены в robots.txt, но у них в базе почему-то такие страницы есть, хотя их же инструмент проверки Анализ robots.txt говорит что да эти страницы - Ссылка запрещена директивой Disallow: /*/*?.
Ладно, всем спасибо за ответы, я в общем и целом понял, нормальная страница не удалится, а если вдруг удалится, то через три недели восстановится.
Антоний Казанский #:

Смотря что считать лишним.

Формально бесполезные страницы в индексе хранить не нужно.

Ну вот как в Яндексе, который по полгода хранит 404-е страницы в своей базе, например.
А есть ли такой инструмент в Google Webmaser’е и стоит ли там поудалять лишнее?
Антоний Казанский #:

Да, и в целом это логично. 

Извиняюсь что я ничего не читаю никогда, но цитирую из Вебмастера:

Вы можете убрать из поиска отдельные страницы: удаленные с сайта или закрытые от индексирования.

Но есть некоторые нюансы, например, что даже на запрещенных в robots.txt и удаленные страницы могут:

При этом страница может иногда появляться в результатах поиска, например, если на нее ведут ссылки с других ресурсов.

И даже если страница удалится, то её типа можно вернуть в поиск:

Уберите запрет на индексирование: директиву Disallow в файле robots.txt или метатег noindex. Страницы вернутся в результаты поиска, когда робот обойдет сайт и узнает об изменениях. Это может занять до трех недель.

Но в целом вы можете добавить туда любые ссылки и нажать кнопку удалить.
Антоний Казанский #:

Формально, если ваша страница не запрещена к индексации, то заявка на удаление и не будет удовлетворена.

Понятно, но проверять я это не буду.

Так получается, что удалить можно только то что запрещено, удаленно, перенесено и т.п.
nomarketing #:
Можно написать самому
Это я уже понял, я думал есть отдельная утилита для этого.
wraithis #:
#!/usr/bin/perl
use warnings;
use strict;
use File::Slurp;
use WWW::Mechanize;
use Try::Tiny;
use WWW::Mechanize::DecodedContent;
use JSON qw(decode_json);
use utf8;
use Data::Dumper qw(Dumper);
#use Net::SSL;
$|=1;

my $m = WWW::Mechanize->new(agent => 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:56.0) Gecko/20100101 Firefox/56.0',cookie_jar => {}, autocheck => 0, stack_depth => 0, ssl_opts => { verify_hostname => 0 });$m->add_header('Accept' => "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8");$m->add_header('Accept-Language' => "en-US,en;q=0.5");$m->add_header('Accept-Encoding' => 'gzip, deflate');

my @url = read_file("site.txt");

for (@url){
chomp;
$m->get($_);
print $m->status(); exit;
print $m->decoded_content(); exit;
}
#       write_file( "matched.txt", {append => 1},@a ) ;
# write_file( "d.html", {binmode => ':utf8'}, $m->decoded_content());
# write_file( "d.html", {binmode => ':utf8'}, @dump);

Ого на Perl, ну это жестковато для меня, самое простое это wget, или как у Eddgar’а команда.
Всего: 2005