Подскажите, Гугл всегда забивает на Disallow в роботс ?

132

hasugosu

1 июня 2011, 20:36

2893

Т.к. сайт в разработке, решил закрыть от индексации все кроме главной _sex-porn-xxx.com/robots.txt

Висит уже пару месяцев. Но в индекс все равно залез всякий хлам и не пропадает http://www.google.com/search?&q=site:sex-porn-xxx.com&filter=0

3 вопроса:

1. Гугл всегда так забивает на Disallow в роботс ? Или я где то накосячил ?

2. Насколько плохо для продвижения нового сайта, что он попадает в индекс так криво, т.е без внутренней оптимизации, без нормального контента итп ?

3. Не переживать, вывесить уник контент, сделать внут. оптимизацию, ждать переиндексации и потихоньку крутить, или регнуть новый домен и делать так, чтобы первая индексация была сразу идеальной ?

Заранее благодарен за ответы! Удачи!

333

XPraptor

1 июня 2011, 22:02

#1

Нет такой директивы Allow. Возможно из за этого и игнорит весь роботс. Третья строка закрывает весь сайт (остальные строки не нужны). Но если из за второй строки гугл решил вообще не рассматривать ваш роботс, тогда будет индексить согласно тегов в страницах.

Яндекс внес изменения в Новые стандарты для директивы Google прояснил, как обрабатывается

370

kimberlit

1 июня 2011, 22:23

#2

XPraptor:
Нет такой директивы Allow.

Смешно было, ага...

http://www.google.com/support/webmasters/bin/answer.py?hl=ru&answer=156449&from=40367&rd=1

333

XPraptor

1 июня 2011, 22:27

#3

От вас не ожидал:)

Гугл понимает тег allow только для директив регулярных выражений.

Для обычного управления урлами - он не поддерживает эту директиву как и все остальные боты.

XPraptor добавил 02.06.2011 в 02:29

Плюс, даже для регулярок он НЕ гарантирует что правильно станет обрабатывать данную опцию и что ее использование может всетаки допустить попадание или не попадание в индекс желаемых урлов.

Боты Специалисты, не проверите ли Все вопросы по robots.txt

370

kimberlit

1 июня 2011, 22:54

#4

Чтобы предотвратить сканирование страниц вашего сайта, но сохранить отображение объявлений AdSense на этих страницах, запретите доступ всех роботов, кроме Mediapartners-Google. Это предотвращает появление страниц в результатах поиска, позволяя роботу Mediapartners-Google анализировать страницы, чтобы определить, какие объявления нужно показывать. Робот Mediapartners-Google имеет отдельный доступ к страницам, независимый от других агентов Google. Рассмотрим пример.

User-agent: *
Disallow: /

User-agent: MediaPartners-Google
Allow: /

http://www.google.com/support/webmasters/bin/answer.py?hl=ru&answer=156449&from=40367&rd=1

Какой такой регулярный выражений? Моя твоя не понимай.

И да. Во втором посте такой директивы совсем не существовало... Чудо.

333

XPraptor

2 июня 2011, 00:19

#5

kimberlit, вы хоть не много понимаете для чего нужен allow гуглеботу? (и читайте не урезанные урывки русского перевода, а ответы представителей гугла по вопросам роботса в оригинале).

Это не директива управления урлами в основных правилах. Она допустима только в спец-блоках и только для конкретного значения UserAgent этой ПС. Она никогда не будет обработана в UserAgent: * и и никогда не будет обработана даже в спец блоке в виде Allow: /* она совсем другие цели выполняет для ботов разных ПС. Для других ботов может исполнять также совсем иные задачи - и никогда в общих правилах - только в спец-блоках со своим синтаксисом (выдуманным самими компаниями ПС).

Повторю еще раз для одаренных - в правилах robots.txt (в спецификации) - НЕТ директивы Allow.

XPraptor добавил 02.06.2011 в 04:38

Добавлю - для эксперимента создайте роботс с Allow и протестите - и увидите что он всегда будет вам выдавать один и тот же результат - что разрешено (что бы вы там не написали вместе с allow - ничего не будет принято во внимание ввиду ошибочности записи).

А если не лень то создайте два новых одностраничника и засуньте одному такой роботс с allow и закройте что нибудь еще и создайте нормальный роботс - и посмотрите на каком сайте гугл будет игнорить все ваши записи в файле, а на каком будет следовать инструкциям.

Каждый уважающий себя вм уже должен был это сделать, чтобы знать как работает у конкретной пс роботс.

Основы клоакинга Google AdSense поделился советами Все о тэге Title

S

312

semenov

2 июня 2011, 10:58

#6

hasugosu:
Т.к. сайт в разработке, решил закрыть от индексации все кроме главной _sex-porn-xxx.com/robots.txt

Этого будет достаточно:


User-agent: *

Allow: /$

Disallow: /

hasugosu:
Висит уже пару месяцев. Но в индекс все равно залез всякий хлам и не пропадает http://www.google.com/search?&q=site:sex-porn-xxx.com&filter=0

Дак они и не проиндексированы, сохраненнок нет, снипетов нет

132

hasugosu

2 июня 2011, 12:45

#7

kimberlit, XPraptor ваша дискуссия меня еще больше запутала.

Я выложил сайт с вот таким роботсом:

User-agent: *

Allow: /$

Disallow: /*

Не знаю регулярные это выражения, или не регулярные :) но значить они должны следующее - индексировать только главную, не индексировать все остальное

Яндекс прекрасно понимает такой роботс и выдает при проверке индексации страниц http://yandex.ru/yandsearch?serverurl=24film.ru&lr=213 одну, главную.

А вот гугл выдает http://www.google.com/search?&q=site:sex-porn-xxx.com&filter=0

Уважаемый semenov написал, что остальных страниц, как бы и нет в индексе гугла.

А зачем же он тогда выдает ссылки на них ?

Т.е ничего плохого, что в индексе показывается недоработанный и не оптимизированный сайт нет и когда я захочу его раскрыть для нормальной индексации все будет ок ?

Спасибо за ответы.

Составление файла robots.txt Новые стандарты для директивы XML Sitemap: самый непонимаемый

B

161

bober

2 июня 2011, 19:10

#8

hasugosu:
Уважаемый semenov написал, что остальных страниц, как бы и нет в индексе гугла.
А зачем же он тогда выдает ссылки на них ?

Есть ссылки на страницы - есть страницы в выдаче. Это не значит, что они проиндексированы Гуглом и ничего плохого для быдущего раскрытия сайта для индексации в этом нет.

XPraptor, специально для Вас:

•To specify matching the end of a URL, use $. For instance, to block any URLs that end with .xls:
User-agent: Googlebot
Disallow: /*.xls$You can use this pattern matching in combination with the Allow directive. For instance, if a ? indicates a session ID, you may want to exclude all URLs that contain them to ensure Googlebot doesn't crawl duplicate pages. But URLs that end with a ? may be the version of the page that you do want included. For this situation, you can set your robots.txt file as follows:

User-agent: *
Allow: /*?$
Disallow: /*?The Disallow: / *? directive will block any URL that includes a ? (more specifically, it will block any URL that begins with your domain name, followed by any string, followed by a question mark, followed by any string).

The Allow: /*?$ directive will allow any URL that ends in a ? (more specifically, it will allow any URL that begins with your domain name, followed by a string, followed by a ?, with no characters after the ?).

333

XPraptor

3 июня 2011, 00:48

#9

bober, вам трудно что-ли вписать в gwt строки в роботс и протестить урл и убедиться в бредовости allow? (он будет для гугла разрешать все и дальше ничего обрабатываться не будет, а по сущности - бот просто игнорит такой роботс и индексит согласно тегов в страницах).

hasugosu, нет, ваш роботс разрешает все индексить - еще раз повторю - не используется allow в общих правилах роботсов. Вам та же рекомендация - войдите в свой акк в gwt и вбейте проверку любого урла который вы думаете у вас закрыт - гугл скажет вам что он разрешен - строка 2. (но по сути это только стандартная писулька программы-обработчика, реально же, он разрешен потому, что гугл вообще не учитывает роботсы с такими ошибками - не раз отвечалось на форуме гугла людьми отвечающими за алго этого направления).

Google: мы используем много Google AdSense поделился советами 5 глупых SEO-ошибок, которые

D

90

disker

3 июня 2011, 21:05

#10

Интересная тема. Нашел тоже у себя на сайте на вордпрессе в роботс Allow. Всё никак не мог понять почему гугл индексирует страницы на сайте, хотя в роботс конкретно прописано Disallow: /page/

Удалил Allow, теперь буду наблюдать дальнейшие действия гугла. Кстати вспомнил откуда я взял этот Allow в роботс. Если я не ошибаюсь то на сайте самого вордпресса (русскоязычного) висела статья как правильно оптимизировать сайт и что прописывать в роботс. Вот оттуда я и взял этот пример. И думаю что я не один такой. 😡

Гуру, если не сложно посмотрите нет ли у меня ошибок в роботс. Сайт англоязычный. Заранее спасибо.

User-Agent: *

Disallow: /go/

Disallow: /page/

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: /feed

Disallow: /tag/

Disallow: /category/

Disallow: /2011/

Disallow: /2012/

Disallow: /2013/

Disallow: /2014/

Disallow: /category/*/*

Disallow: */trackback

Disallow: */feed

Disallow: */comments

Disallow: /*?*

Disallow: /*?

Disallow: /wp-login.php

Disallow: /wp-register.php



Sitemap: http://мойсайт.com/sitemap.xml



User-agent: Yandex

Crawl-delay: 5

Disallow: /tag

Host: мойсайт.com

Google: низкий трафик не Google о крупных файлах Page Rank теперь продают

Google: E-E-A-T не является фактором ранжирования

Все что нужно знать о DDоS-атаках грамотному менеджеру