Алеандр

Алеандр
Рейтинг
211
Регистрация
08.12.2010
141c18
webinfo #:

Я дал ответ выше. Повторять не собираюсь. Читайте и осмысливайте, там всё ясно написано. Если ссылка размещена на стороннем ресурсе, то никто ваш роботс с вашими запретами даже читать не будет. Хоть пять раз болдом выделяйте, ничего от этого не изменится.

И да, в том, что я "накопипастил", как Вы изволили выразиться (хотя на самом деле я процитировал, а не "накопипастил"), гугл написал как раз противоположное тому, что написали Вы. Или Вам красным цветом выделить, чтобы понятнее было?

В тексте идет речь о том, что для того, чтобы проиндексировать страницу - ее нужно просканировать. По вашему, гугл через воздух получает текст страницы или, он все же, ее сначала должен отсканировать? Должен придти бот, зайти на сервер, получить страницу? И, даже если делать запрос страницы из сервиса гугла, то он сначала идет получает роботс, а уже потом идет за страницей. Тоже самое он делает и на каждую серию индексации. Это прекрасно видно в логах. В логи давно заглядывали? Гуглу совершенно наплевать откуда он узнал о ссылке: на сайте, на чужом сайте, из сайтмапа, плевать он хотел. Получать страницу без посещения сервера он пока еще не научился.

Делаем элементарно, идем в гугл консоль, вбиваем страницу, которая у вас запрещена на сайте к индексированию в роботс, и предлагаем ему ее добавить в индекс вручную. На что получаем замечательную плашку с ответом:

Запрос на индексирование отклонен
Во время проверки были обнаружены ошибки индексирования URL.


Только что сходил, проверил. Можете тоже пойти проверить, понаблюдать. Потом, можете еще сто раз написать о том, как гугл игнорирует роботс )

webinfo #:

Всё, нафиг. Тот, кто умеет читать - прочитал. Я написал не только для Вас. А с Вами дальше дискутировать не собираюсь, ибо бесполезно, судя по всему.

Ну, то есть ответа на вопрос вы дать не можете, верно?
Вы каким образом предполагаете попадание страницы в индекс, если у нее стоит запрет на сканирование?

webinfo #:

Твою же душу, как всё запущено... Ну почитайте:

А теперь почитайте то, что про это пишет Яндекс:
https://yandex.ru/support/webmaster/controlling-robot/robots-txt.html

Robots.txt — это текстовый файл, который содержит параметры индексирования сайта для роботов поисковых систем.
Как правило, после установки запрета на индексирование каким-либо способом исключение страниц из поиска происходит в течение двух недель.

Для гугла это еще более жесткие условия, по которым он НЕ будет даже сканировать страницу, что не исключает то, что она при этом, само собой, и в индекс не попадет. Ибо без сканирования страница в индекс попасть ну никак не сможет. Вы каким образом предполагаете попадание страницы в индекс, если у нее стоит запрет на сканирование?

В гугле то, что вы скопипастили, касается именно части из Яндекса: "исключение страниц из поиска происходит в течение двух недель". Гугл не будет выкидывать из индекса, если вы прописали роботс после того, как он просканировал. Яндекс же - выкинет, если увидит обновленный роботс, по крайней мере должен. Но первоначально, если у вас стоит запрет на индексирование в роботс - то ни в гугле, ни в яндексе страница не попадет в индекс. В гугле она не будет даже просканирована, а я яндексе будет просканирована, но не проиндексирована.

Так что же, извините, ваши ссылки подтверждают? Именно то, что я и говорю  - все прекрасно блокируется в роботс. Речь о том, как удалить из индекса - даже не заводилась, она вне контекста обсуждения. Прочтите сами то, что накопипастили и попробуйте вникнуть в то, что там написано.

webinfo #:

Когда появляется надпись типа "подождите пять секунд", люди не с рекламой знакомятся, а тупо смотрят на эту надпись.

Что никоим образом не конфликтует с утверждением про доход. Тот же РСЯ засчитывает в показ и платит за него только в том случае, если реклама была на экране пользователя нужное время. Без таймера пользователь уходит быстрее, ведь кроме линка на файл на этой странице делать нечего, следовательно, блоки не отображены положенное время и дохода не будет.

С клиентами проверяли, таймер вполне себе неплохо влияет на доход на странице скачивания. Собственно, на других таймер и не ставят, там другие условия.

Еще раз, роботс не запрещает получение страницы, не запрещает сканирование, не запрещает ее анализ. Он запрещает индексирование страницы - это значит, что эта страница не будет размещена в индексе. Аналогично мета-тег  ноиндекс на самой странице. И правила работают ровно так, как они будут написаны. Если нужно запретить даже посещение, то это не про роботс. Но об этом я и не писал.
webinfo #:

Вы о чём вообще? Если робот перешёл на страницу, то он может её проиндексировать, для Вас это большая новость? И если, перейдя на страницу, он увидит там noindex, то не станет её индексировать - с этим тоже будете спорить? Ну давайте продолжим эту бесполезную дискуссию, в которой Вы опираетесь исключительно на свой личный опыт, а не на документы поисковых систем. Поэтому и возникают такие фразы:

Вы явно говорите о получении страницы, а не ее размещении в выдаче и индексе. И чтобы увидеть ноиндекс ПС, естественно, забирает страницу для анализа. Ну, почитайте документацию и вы увидите, что роботс - тоже самое, что ноиндекс в теле страницы.

А то, по вашему, роботс сейчас вообще бесполезен окажется )) Мда..

Создалось ощущение, что в обсуждении путают работу правил роботс в плане запрета обхода и индексации. Так я этого и не писал, роботс запрещает индексирование, а не посещение страниц. Конечно же запрета посещения это не дает, но я об этом и не писал, а упоминал о том, что это защищает от индекса и этого, вкупе с остальным - более, чем достаточно.
webinfo #:

Нет, не только. Когда висит ссылка на стороннем сайте, то поисковик даже не смотрит в роботс, а сразу переходит по ссылке. Просто конкретно в вашем случае таких ссылок, по-видимому, не было, но это не означает, что такая же ситуация у всех.

Какое отношение имеет переход на страницу к запрету ее индексации? ) Роботс запрещает индексацию, а не переход на эту страницу. Ровно так же, как и тег ноиндекс на самой странице и, вот неожиданность, что бы его ПС увидела - ей надо сначала получить страницу )

Антоний Казанский #:

Воевать конечно нет смысла :) есть смысл прислушиваться к коллегам и учитывать их полезный опыт :)

Как практика показывает Гугл инструкции robots может запросто игнорировать, и Яндекс увы тоже варианты /? и /*?* может игнорировать.

Вы так любезны, но я предпочту опираться на свой многолетний опыт, показывающий, что правила роботса игнорируются только тогда, когда он неверно составлен ) Особенно, когда у вас проблема с игнором правила в обеих ПС. 

Не вижу, что еще тут обсуждать, у вас явно иной опыт в данном вопросе.

Vladimir #:
Совет из числа вредных. Но каждый склонен проверить на практике самостоятельно
Замечу лишь, что роботс вас не спасет от большого количества дублей страниц вида /?****
Как интересно, меня на паре десятков сайтов спасает, а вас не спасает.
Всего: 1478