Подскажите, Гугл всегда забивает на Disallow в роботс ?

123 4
hasugosu
На сайте с 09.03.2006
Offline
132
2843

Т.к. сайт в разработке, решил закрыть от индексации все кроме главной _sex-porn-xxx.com/robots.txt

Висит уже пару месяцев. Но в индекс все равно залез всякий хлам и не пропадает http://www.google.com/search?&q=site:sex-porn-xxx.com&filter=0

3 вопроса:

1. Гугл всегда так забивает на Disallow в роботс ? Или я где то накосячил ?

2. Насколько плохо для продвижения нового сайта, что он попадает в индекс так криво, т.е без внутренней оптимизации, без нормального контента итп ?

3. Не переживать, вывесить уник контент, сделать внут. оптимизацию, ждать переиндексации и потихоньку крутить, или регнуть новый домен и делать так, чтобы первая индексация была сразу идеальной ?

Заранее благодарен за ответы! Удачи!

XPraptor
На сайте с 15.10.2004
Offline
333
#1

Нет такой директивы Allow. Возможно из за этого и игнорит весь роботс. Третья строка закрывает весь сайт (остальные строки не нужны). Но если из за второй строки гугл решил вообще не рассматривать ваш роботс, тогда будет индексить согласно тегов в страницах.

kimberlit
На сайте с 13.03.2007
Offline
370
#2
XPraptor:
Нет такой директивы Allow.

Смешно было, ага...

http://www.google.com/support/webmasters/bin/answer.py?hl=ru&answer=156449&from=40367&rd=1

XPraptor
На сайте с 15.10.2004
Offline
333
#3

От вас не ожидал:)

Гугл понимает тег allow только для директив регулярных выражений.

Для обычного управления урлами - он не поддерживает эту директиву как и все остальные боты.

XPraptor добавил 02.06.2011 в 02:29

Плюс, даже для регулярок он НЕ гарантирует что правильно станет обрабатывать данную опцию и что ее использование может всетаки допустить попадание или не попадание в индекс желаемых урлов.

kimberlit
На сайте с 13.03.2007
Offline
370
#4
Чтобы предотвратить сканирование страниц вашего сайта, но сохранить отображение объявлений AdSense на этих страницах, запретите доступ всех роботов, кроме Mediapartners-Google. Это предотвращает появление страниц в результатах поиска, позволяя роботу Mediapartners-Google анализировать страницы, чтобы определить, какие объявления нужно показывать. Робот Mediapartners-Google имеет отдельный доступ к страницам, независимый от других агентов Google. Рассмотрим пример.

User-agent: *
Disallow: /

User-agent: MediaPartners-Google
Allow: /


http://www.google.com/support/webmasters/bin/answer.py?hl=ru&answer=156449&from=40367&rd=1

Какой такой регулярный выражений? Моя твоя не понимай.

И да. Во втором посте такой директивы совсем не существовало... Чудо.

XPraptor
На сайте с 15.10.2004
Offline
333
#5

kimberlit, вы хоть не много понимаете для чего нужен allow гуглеботу? (и читайте не урезанные урывки русского перевода, а ответы представителей гугла по вопросам роботса в оригинале).

Это не директива управления урлами в основных правилах. Она допустима только в спец-блоках и только для конкретного значения UserAgent этой ПС. Она никогда не будет обработана в UserAgent: * и и никогда не будет обработана даже в спец блоке в виде Allow: /* она совсем другие цели выполняет для ботов разных ПС. Для других ботов может исполнять также совсем иные задачи - и никогда в общих правилах - только в спец-блоках со своим синтаксисом (выдуманным самими компаниями ПС).

Повторю еще раз для одаренных - в правилах robots.txt (в спецификации) - НЕТ директивы Allow.

XPraptor добавил 02.06.2011 в 04:38

Добавлю - для эксперимента создайте роботс с Allow и протестите - и увидите что он всегда будет вам выдавать один и тот же результат - что разрешено (что бы вы там не написали вместе с allow - ничего не будет принято во внимание ввиду ошибочности записи).

А если не лень то создайте два новых одностраничника и засуньте одному такой роботс с allow и закройте что нибудь еще и создайте нормальный роботс - и посмотрите на каком сайте гугл будет игнорить все ваши записи в файле, а на каком будет следовать инструкциям.

Каждый уважающий себя вм уже должен был это сделать, чтобы знать как работает у конкретной пс роботс.

semenov
На сайте с 28.10.2005
Offline
257
#6
hasugosu:
Т.к. сайт в разработке, решил закрыть от индексации все кроме главной _sex-porn-xxx.com/robots.txt

Этого будет достаточно:


User-agent: *
Allow: /$
Disallow: /
hasugosu:
Висит уже пару месяцев. Но в индекс все равно залез всякий хлам и не пропадает http://www.google.com/search?&q=site:sex-porn-xxx.com&filter=0

Дак они и не проиндексированы, сохраненнок нет, снипетов нет

hasugosu
На сайте с 09.03.2006
Offline
132
#7

kimberlit, XPraptor ваша дискуссия меня еще больше запутала.

Я выложил сайт с вот таким роботсом:

User-agent: *

Allow: /$

Disallow: /*

Не знаю регулярные это выражения, или не регулярные :) но значить они должны следующее - индексировать только главную, не индексировать все остальное

Яндекс прекрасно понимает такой роботс и выдает при проверке индексации страниц http://yandex.ru/yandsearch?serverurl=24film.ru&lr=213 одну, главную.

А вот гугл выдает http://www.google.com/search?&q=site:sex-porn-xxx.com&filter=0

Уважаемый semenov написал, что остальных страниц, как бы и нет в индексе гугла.

А зачем же он тогда выдает ссылки на них ?

Т.е ничего плохого, что в индексе показывается недоработанный и не оптимизированный сайт нет и когда я захочу его раскрыть для нормальной индексации все будет ок ?

Спасибо за ответы.

B
На сайте с 07.02.2005
Offline
161
#8
hasugosu:
Уважаемый semenov написал, что остальных страниц, как бы и нет в индексе гугла.
А зачем же он тогда выдает ссылки на них ?

Есть ссылки на страницы - есть страницы в выдаче. Это не значит, что они проиндексированы Гуглом и ничего плохого для быдущего раскрытия сайта для индексации в этом нет.

XPraptor, специально для Вас:

•To specify matching the end of a URL, use $. For instance, to block any URLs that end with .xls:
User-agent: Googlebot
Disallow: /*.xls$You can use this pattern matching in combination with the Allow directive. For instance, if a ? indicates a session ID, you may want to exclude all URLs that contain them to ensure Googlebot doesn't crawl duplicate pages. But URLs that end with a ? may be the version of the page that you do want included. For this situation, you can set your robots.txt file as follows:

User-agent: *
Allow: /*?$
Disallow: /*?The Disallow: / *? directive will block any URL that includes a ? (more specifically, it will block any URL that begins with your domain name, followed by any string, followed by a question mark, followed by any string).

The Allow: /*?$ directive will allow any URL that ends in a ? (more specifically, it will allow any URL that begins with your domain name, followed by a string, followed by a ?, with no characters after the ?).

XPraptor
На сайте с 15.10.2004
Offline
333
#9

bober, вам трудно что-ли вписать в gwt строки в роботс и протестить урл и убедиться в бредовости allow? (он будет для гугла разрешать все и дальше ничего обрабатываться не будет, а по сущности - бот просто игнорит такой роботс и индексит согласно тегов в страницах).

hasugosu, нет, ваш роботс разрешает все индексить - еще раз повторю - не используется allow в общих правилах роботсов. Вам та же рекомендация - войдите в свой акк в gwt и вбейте проверку любого урла который вы думаете у вас закрыт - гугл скажет вам что он разрешен - строка 2. (но по сути это только стандартная писулька программы-обработчика, реально же, он разрешен потому, что гугл вообще не учитывает роботсы с такими ошибками - не раз отвечалось на форуме гугла людьми отвечающими за алго этого направления).

D
На сайте с 22.10.2007
Offline
90
#10

Интересная тема. Нашел тоже у себя на сайте на вордпрессе в роботс Allow. Всё никак не мог понять почему гугл индексирует страницы на сайте, хотя в роботс конкретно прописано Disallow: /page/

Удалил Allow, теперь буду наблюдать дальнейшие действия гугла. Кстати вспомнил откуда я взял этот Allow в роботс. Если я не ошибаюсь то на сайте самого вордпресса (русскоязычного) висела статья как правильно оптимизировать сайт и что прописывать в роботс. Вот оттуда я и взял этот пример. И думаю что я не один такой. 😡

Гуру, если не сложно посмотрите нет ли у меня ошибок в роботс. Сайт англоязычный. Заранее спасибо.

User-Agent: *

Disallow: /go/
Disallow: /page/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /tag/
Disallow: /category/
Disallow: /2011/
Disallow: /2012/
Disallow: /2013/
Disallow: /2014/
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /wp-login.php
Disallow: /wp-register.php

Sitemap: http://мойсайт.com/sitemap.xml

User-agent: Yandex
Crawl-delay: 5
Disallow: /tag
Host: мойсайт.com

123 4

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий