помогите разобраться с robots.txt и sitemap

F
На сайте с 03.06.2013
Offline
6
591

1На что влияет если прописывать User-agent: * для всех роботов а не для yandex и google отдельно ?

2Вобщем переписал структуру с фтп всех директорий и файлов, cgi-bin точно запретить, а как с остальными, например в паблик есть img и imga там фото, какие оставить и не запрещать, не знаком со структурой, поэтому и спрашиваю, чтоб нужное не запретить

Disallow: /cgi-bin/

Disallow: /public_html/classic/

Disallow: /public_html/img/

Disallow: /public_html/imga/

Disallow: /public_html/includes/

Disallow: /public_html/js/

Disallow: /public_html/main_photo/

Disallow: /public_html/sys/

Disallow: /public_html/tinymce/

Disallow: /.htaccess

Disallow: /ban.png

Disallow: /calend.js

Disallow: /calendar_blank.css

Disallow: /else.html

Disallow: /favicon.ico

Disallow: /highslide.css

Disallow: /index.php

Disallow: /main.css

Disallow: /test.php

3 По sitemap , почему его архивируют или прячут в другие директории от чужих глаз?

Всем заранее спасибо, за ответы по существу !

masterfunk
На сайте с 05.11.2007
Offline
104
#1

1) правила написанные под ним будут восприниматься всеми роботами

2) если ссылок на эти файлы или фото нет на сайте они не будут индексироваться

3) как вам удобнее

кот Бегемот
На сайте с 07.12.2009
Offline
278
#2

Disallow: /favicon.ico А это зачем?

Яндекс Директ, Гугд адворс, не дорого и ответственно. Телеграмм @H_Ilin
F
На сайте с 03.06.2013
Offline
6
#3
masterfunk:
1) правила написанные под ним будут восприниматься всеми роботами

имелось ввиду какой смысл в отдельных директивах для роботов яндекса или гугла , если можно

сразу User-agent: * для любых или здесь какой то подвох? может влияет на индексацию или что ещё?

---------- Post added 21-11-2013 at 02:55 ----------

garik77:
Disallow: /favicon.ico А это зачем?

зачем favicon или зачем запрещать?

я выписал всё содержимое с фтп для совета, что оставить , так понимаю что favicon.ico вычеркиваем из списка

masterfunk
На сайте с 05.11.2007
Offline
104
#4
Flipbut:
имелось ввиду какой смысл в отдельных директивах для роботов яндекса или гугла , если можно
сразу User-agent: * для любых или здесь какой то подвох? может влияет на индексацию или что ещё?

Host: site.com

отработает только в яндексе, в гугле это может вызвать ошибку и robots.txt не обработается

Flipbut:
я выписал всё содержимое с фтп для совета, что оставить, так понимаю что favicon.ico вычеркиваем из списка

в список запрещения надо включать только то что не нужно, а favicon он для иконки пригодится.

Ripro
На сайте с 04.11.2006
Offline
144
#5
Flipbut:
1На что влияет если прописывать User-agent: * для всех роботов а не для yandex и google отдельно ?

2Вобщем переписал структуру с фтп всех директорий и файлов, cgi-bin точно запретить, а как с остальными, например в паблик есть img и imga там фото, какие оставить и не запрещать, не знаком со структурой, поэтому и спрашиваю, чтоб нужное не запретить



3 По sitemap , почему его архивируют или прячут в другие директории от чужих глаз?

Всем заранее спасибо, за ответы по существу !

1. Для тех случаев, если вам нужно запретить что-то в яндексе, но не запрещать в гугле или наоборот

2. Не нужно закрывать все, что есть на фтп - иконки, скрипты, стили (.ico, .css, .js). Иконка favicon.ico, например, выводится в результатах поиска в Яндексе.

Нужно запрещать страницы, которые генерирует движок и которые не нужно отправлять в индекс, включая страницы регистраций, напоминания пароля и т.п.

Т.е. нужно четко понимать что запрещать, а что нет, как запрещать и для чего.

3. Архивируют часто для того, чтобы карта занимала меньше места, либо такая особенность движка. Место расположения так же не всегда зависит от желаний владельца сайта )) Но некоторые и прячут - чтобы никто, кроме поисковиков не мог ее найти :)

F
На сайте с 03.06.2013
Offline
6
#6
masterfunk:
Host: site.com
отработает только в яндексе, в гугле это может вызвать ошибку и robots.txt не обработается

проверил свою простыню в goggle webmaster tools , пишет-

Разрешено

Распознается в качестве каталога; у некоторых файлов могут быть другие ограничения

вроде обработался

---------- Post added 21-11-2013 at 03:42 ----------

Ripro:

2. Не нужно закрывать все, что есть на фтп - иконки, скрипты, стили (.ico, .css, .js). Иконка favicon.ico, например, выводится в результатах поиска в Яндексе.
Нужно запрещать страницы, которые генерирует движок и которые не нужно отправлять в индекс, включая страницы регистраций, напоминания пароля и т.п.
Т.е. нужно четко понимать что запрещать, а что нет, как запрещать и для чего.

спасибо за детали!

собственно сайтмэп создается для борьбы с дублями, достаточно ли пока закрыть их(свои дубли знаю) например Disallow: /site.com/duble1

и убрать предыдущий список с фтп кроме cgi-bin,чтоб не создать проблем, тк вопрос какие из них не нужны для меня пока открыт

Ripro
На сайте с 04.11.2006
Offline
144
#7
Flipbut:

собственно сайтмэп создается для борьбы с дублями, достаточно ли пока закрыть их(свои дубли знаю) например Disallow: /site.com/duble1
и убрать предыдущий список с фтп кроме cgi-bin,чтоб не создать проблем, тк вопрос какие из них не нужны для меня пока открыт

"сайтмэп создается для борьбы с дублями" - извините, но это ерунда. Для борьбы с дублями чистят движок, чтобы он их не генерил, прописывают канонические ссылки, иногда даже ставят редиректы. Закрыть в роботс мало - нужно и на сайте закрыть, а лучше прописать канонические - если это возможно.

Если у вас стандартный движок - посмотрите, что закрывают владельцы сайтов на том же движке, так проще сориентироваться при отсутствии опыта.

F
На сайте с 03.06.2013
Offline
6
#8
Ripro:
"сайтмэп создается для борьбы с дублями"/QUOTE]

ой! 😮 хотел написать robots.txt

дело в том что и движок не знаю, знаю только что на php вроде, не wp точно, и что редактор tinymce
пытался найти сайты на tinymce , глянуть типовые решения robots.txt и не нашел (
про канонические ссылки и редиректы буду смотреть
Ripro
На сайте с 04.11.2006
Offline
144
#9
Flipbut:


дело в том что и движок не знаю, знаю только что на php вроде, не wp точно, и что редактор tinymce
пытался найти сайты на tinymce , глянуть типовые решения robots.txt и не нашел (
про канонические ссылки и редиректы буду смотреть

хотите - отправьте url в личку, я посмотрю

F
На сайте с 03.06.2013
Offline
6
#10

благодарю! отписался!

и получил практически сразу несколько дельных советов по доработке сайта, громадное спасибо за помощь!

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий