Алеандр

Алеандр
Рейтинг
207
Регистрация
08.12.2010
141c18
webinfo #:

Всё, нафиг. Тот, кто умеет читать - прочитал. Я написал не только для Вас. А с Вами дальше дискутировать не собираюсь, ибо бесполезно, судя по всему.

Ну, то есть ответа на вопрос вы дать не можете, верно?
Вы каким образом предполагаете попадание страницы в индекс, если у нее стоит запрет на сканирование?

webinfo #:

Твою же душу, как всё запущено... Ну почитайте:

А теперь почитайте то, что про это пишет Яндекс:
https://yandex.ru/support/webmaster/controlling-robot/robots-txt.html

Robots.txt — это текстовый файл, который содержит параметры индексирования сайта для роботов поисковых систем.
Как правило, после установки запрета на индексирование каким-либо способом исключение страниц из поиска происходит в течение двух недель.

Для гугла это еще более жесткие условия, по которым он НЕ будет даже сканировать страницу, что не исключает то, что она при этом, само собой, и в индекс не попадет. Ибо без сканирования страница в индекс попасть ну никак не сможет. Вы каким образом предполагаете попадание страницы в индекс, если у нее стоит запрет на сканирование?

В гугле то, что вы скопипастили, касается именно части из Яндекса: "исключение страниц из поиска происходит в течение двух недель". Гугл не будет выкидывать из индекса, если вы прописали роботс после того, как он просканировал. Яндекс же - выкинет, если увидит обновленный роботс, по крайней мере должен. Но первоначально, если у вас стоит запрет на индексирование в роботс - то ни в гугле, ни в яндексе страница не попадет в индекс. В гугле она не будет даже просканирована, а я яндексе будет просканирована, но не проиндексирована.

Так что же, извините, ваши ссылки подтверждают? Именно то, что я и говорю  - все прекрасно блокируется в роботс. Речь о том, как удалить из индекса - даже не заводилась, она вне контекста обсуждения. Прочтите сами то, что накопипастили и попробуйте вникнуть в то, что там написано.

webinfo #:

Когда появляется надпись типа "подождите пять секунд", люди не с рекламой знакомятся, а тупо смотрят на эту надпись.

Что никоим образом не конфликтует с утверждением про доход. Тот же РСЯ засчитывает в показ и платит за него только в том случае, если реклама была на экране пользователя нужное время. Без таймера пользователь уходит быстрее, ведь кроме линка на файл на этой странице делать нечего, следовательно, блоки не отображены положенное время и дохода не будет.

С клиентами проверяли, таймер вполне себе неплохо влияет на доход на странице скачивания. Собственно, на других таймер и не ставят, там другие условия.

Еще раз, роботс не запрещает получение страницы, не запрещает сканирование, не запрещает ее анализ. Он запрещает индексирование страницы - это значит, что эта страница не будет размещена в индексе. Аналогично мета-тег  ноиндекс на самой странице. И правила работают ровно так, как они будут написаны. Если нужно запретить даже посещение, то это не про роботс. Но об этом я и не писал.
webinfo #:

Вы о чём вообще? Если робот перешёл на страницу, то он может её проиндексировать, для Вас это большая новость? И если, перейдя на страницу, он увидит там noindex, то не станет её индексировать - с этим тоже будете спорить? Ну давайте продолжим эту бесполезную дискуссию, в которой Вы опираетесь исключительно на свой личный опыт, а не на документы поисковых систем. Поэтому и возникают такие фразы:

Вы явно говорите о получении страницы, а не ее размещении в выдаче и индексе. И чтобы увидеть ноиндекс ПС, естественно, забирает страницу для анализа. Ну, почитайте документацию и вы увидите, что роботс - тоже самое, что ноиндекс в теле страницы.

А то, по вашему, роботс сейчас вообще бесполезен окажется )) Мда..

Создалось ощущение, что в обсуждении путают работу правил роботс в плане запрета обхода и индексации. Так я этого и не писал, роботс запрещает индексирование, а не посещение страниц. Конечно же запрета посещения это не дает, но я об этом и не писал, а упоминал о том, что это защищает от индекса и этого, вкупе с остальным - более, чем достаточно.
webinfo #:

Нет, не только. Когда висит ссылка на стороннем сайте, то поисковик даже не смотрит в роботс, а сразу переходит по ссылке. Просто конкретно в вашем случае таких ссылок, по-видимому, не было, но это не означает, что такая же ситуация у всех.

Какое отношение имеет переход на страницу к запрету ее индексации? ) Роботс запрещает индексацию, а не переход на эту страницу. Ровно так же, как и тег ноиндекс на самой странице и, вот неожиданность, что бы его ПС увидела - ей надо сначала получить страницу )

Антоний Казанский #:

Воевать конечно нет смысла :) есть смысл прислушиваться к коллегам и учитывать их полезный опыт :)

Как практика показывает Гугл инструкции robots может запросто игнорировать, и Яндекс увы тоже варианты /? и /*?* может игнорировать.

Вы так любезны, но я предпочту опираться на свой многолетний опыт, показывающий, что правила роботса игнорируются только тогда, когда он неверно составлен ) Особенно, когда у вас проблема с игнором правила в обеих ПС. 

Не вижу, что еще тут обсуждать, у вас явно иной опыт в данном вопросе.

Vladimir #:
Совет из числа вредных. Но каждый склонен проверить на практике самостоятельно
Замечу лишь, что роботс вас не спасет от большого количества дублей страниц вида /?****
Как интересно, меня на паре десятков сайтов спасает, а вас не спасает.
Антоний Казанский #:
придется разбирать строчку запроса целиком
Нет смысла за это воевать, достаточно дополнительно в роботс поставить запрет на /*?* и все вопросы будут решены. Для ПС этот вариант будет запрещен к индексированию и они отлично с этим справляются, а по факту, за счет правила htaccess, при реальных значениях, будет редирект или 404, как настроить. Тогда пустое значение даже не придется вылавливать, оно будет запрещено к индексации, а сам параметр будет не страшен в виде вхождения, поскольку он, опять же, совершенно пустой.
Всего: 1467