Подскажите, Гугл всегда забивает на Disallow в роботс ?

hasugosu · 2011-06-01T20:36:23.0000000Z

Т.к. сайт в разработке, решил закрыть от индексации все кроме главной _sex-porn-xxx.com/robots.txt Висит уже пару месяцев. Но в индекс все равно залез всякий хлам и не пропадает http://www.google.com/search?&q=site:sex-porn-xxx.com&filter=0 3 вопроса: 1. Гугл всегда так забивает на Disallow в роботс ? Или я где то накосячил ? 2. Насколько плохо для продвижения нового сайта, что он попадает в индекс так криво, т.е без внутренней оптимизации, без нормального контента итп ? 3. Не переживать, вывесить уник контент, сделать внут. оптимизацию, ждать переиндексации и потихоньку крутить, или регнуть новый домен и делать так, чтобы первая индексация была сразу идеальной ? Заранее благодарен за ответы! Удачи!

370

kimberlit

18 июня 2011, 01:30

#31

bober:
Disallow: /categories/*
Disallow: /page/*
ничего не закрывают, чтобы закрыть эти директории, уберите звездочки:

Почему же не закрывают?

B

161

bober

18 июня 2011, 01:51

#32

kimberlit:
Почему же не закрывают?

Флуд ради флуда продолжается, гуру?

Потому что

bober:
Сделайте в соответствии с синтаксисом Гугла

370

kimberlit

18 июня 2011, 02:00

#33

bober:
Потому что

Согласен, что криво, глупо и нелепо.

Но почему же не будет закрывать? Где в твоём любимом мануале это написано?

TM

70

t-m-p

18 июня 2011, 07:23

#34

---- Пока потерто. --- придумал еще один тест. потом отпишусь

t-m-p добавил 18.06.2011 в 11:37

Хотя не, все правильно у меня прописано.

ttp://*******.net/content/******** Веб Запрещено в файле robots.txt Запрещено в файле robots.txt

Сам гугль говорит об этом. но страница в индексе ив выдаче как я и говорил уже 2-ой год

Так что

чтобы закрыть эти директории, уберите звездочки:
Disallow: /categories/
Disallow: /page/
чтобы закрыть поддиректории:
Disallow: /categories*/
Сделайте в соответствии с синтаксисом Гугла, а потом здесь покажите, будут эти директории индексироваться или нет.

Это всего лишь теория. практика показывает другой результат

15.06 - резкое падение Апдейт поисковой базы 24.06.11 Апдейт поисковой базы 31.10.2011

K

737

Kost

18 июня 2011, 08:02

#35

bober:
Строки
Disallow: /categories/*
Disallow: /page/*
ничего не закрывают, чтобы закрыть эти директории, уберите звездочки:
Disallow: /categories/
Disallow: /page/

Если бы это было написано лет 10 назад, это было бы справедливо.

Но уже много лет работает и вариант со звездочкой:

/hjshdkfjshf.html
Заблокировано по строке 3: Disallow: /h*

Впрочем, звездочки здесь не нужны, в этом я согласен.

hasugosu:
Уже пару недель, как убрал allow, закрыл все в dissalow http://sex-porn-xxx.com/robots.txt

Но гугл все равно продолжает жрать недоделанный сайт http://google.com/search?&q=site:sex...x.com&filter=0

Ваша проблема в том, что вы не хотите читать документацию на robots.txt, . Ссылки есть в FAQ раздела для новичков.

В вашем robots.txt работает только первая секция из двух строк:

User-agent: *
Host: sex-porn-xxx.com

И то бессмысленная, т.к. нет ни одной директивы Disallow

Во всех остальных блоках нет ни одной директивы User-agent:

поэтому поисковики их пропускают.

Меня удивляют люди, которые столько строчат на форумах, с пеной у рта что-то доказывают, но не читают совершенно нехитрую документацию и не пользуются простейшей проверкой в GWMT, про которую сами много кричат.

XPraptor:
Гугл понимает тег allow только для директив регулярных выражений.
Для обычного управления урлами - он не поддерживает эту директиву как и все остальные боты.

Такого бреда я от вас не ожидал.

Сейчас специально проверил. Разумеется, все работает, без всяких регулярных выражений. Пример был такой:

User-agent: *

Allow: /a

Disallow: /

Проверил URL /kjshdkfjshf.html - Заблокировано по строке 3: Disallow: /

Проверил URL /akjshdkfjshf.html - Разрешено в строке 2: Allow: /a

Все просто. И все работает.

hasugosu:
Я выложил сайт с вот таким роботсом:
User-agent: *
Allow: /$
Disallow: /*

Не знаю регулярные это выражения, или не регулярные но значить они должны следующее - индексировать только главную, не индексировать все остальное

Все правильно написали. Звездочку в Disallow лучше убрать, она там всегда и так подразумевается.

P.S. Ну и срач с бредом развели на пустом месте, ну вы даете, кошмар. kimberlit один отбивался, уважаю :).

Выделенные полосы в Москве (http://www.probkovorot.info) привели к снижению скорости до 23%.

Составить robots.txt robots.txt Помогите новичку, Я не

B

161

bober

19 июня 2011, 17:14

#36

Все, что нажито непосильным трудом... (с) :)

Вынужден, увы, признать свою неправоту - писал, не удосужившись проверить, на предположении, что бот игнорирует неверно написанные строки.

Теперь проверил - таки закрывается директория и все ее содержимое - хоть со звездочкой, хоть без, и даже без обратного слэша...

LinkedIn решила отказаться от Google дал своим сотрудникам Настройка индексирования нового сайта

24

6ecuk

20 июня 2011, 14:58

#37

Сам гугль говорит об этом. но страница в индексе ив выдаче как я и говорил уже 2-ой год

Все правильно, если мы закрывает в robots.txt страницу - то Googlebot перестает на нее приходить, но в отличии от Яндекса, он автоматически не выкидывает страницу из индекса, как делает это Яндекс. Убрать ненужную страницу из индекса гугла можно двумя способами:

1. Через панель вебмастера подать ссылку на удаление.

2. В странице прописать мета-тег noarchive.

Домен с историей Аналитика на 2-3 сайта Как очистить кэш поисковика

127

Max1muS

21 июня 2011, 18:46

#38

hasugosu:
Гугл всегда так забивает на Disallow в роботс ? Или я где то накосячил ?

Гугл реально забивает на него, это факт

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Что делать, чтобы попасть в ответы Google Bard