Закрыть от всех ПС папку сайта и все входящие в нее подпапки и файлы

146

Slav Krivonos

1 ноября 2009, 19:22

1685

На постороннем домене (в папке site.com/ua/) иностранными разработчиками выложен новый вариант сайта (который вскоре сменит нынешний вариант).

Подскажите, пожалуйста, как правильно написать в robots.txt блок инструкций для ПС (всех), чтобы запретить ПС индексацию всего содержимого подпапки /ua/ (всех папок и файлов)?

Заранее спасибо за ответы по сути.

Прошу прощения, если ответ на этот вопрос уже был здесь опубликован (средствами поиска найти не могу).

• slav.ua (https://slav.ua) • Форум о бриллиантах (http://brillianty.net) • Бесплатно создай код ссылки за секунду: unlim урлов — unlim анкоров (http://useit.com.ua/mode3.html) • Проверка позиций за XML-лимиты (http://allpositions.ru/redirect/923) • Надёжный дешевый хостинг «Украина» (https://ukraine.com.ua/?page=196971)

236

DiAksID

1 ноября 2009, 19:33

#1


User-Agent: *
Disallow: /ua/

слэш в конце - по желанию, не критично... но это в "своём" домене... Вы именно в "постороннем" хотите? ;)

show must go on !!!...

146

Slav Krivonos

1 ноября 2009, 19:45

#2

DiAksID:


User-Agent: *

Disallow: /ua/

слэш в конце - по желанию, не критично... но это в "своём" домене... Вы именно в "постороннем" хотите? ;)

Мне необходим блок инструкций, который бы иностранные разработчики поместили в созданном под эту задачу файле robots.xtx (сейчас у них на сайте нет такого файла).

Блок должен запрещать доступ для всех ПС не только к папке /ua/, но и к содержащимся в ней файлам и папкам (всем)

Зачем: боюсь, как бы ПС после публикации не посчитали новый сайт, выложенный на место нынешнего, копией лежавшей на сайте разработчиков версии (или неоригинальным контентом)

S

2

snoppy

1 ноября 2009, 19:48

#3

google.com/robots.txt

Статья про заработок на файлообменниках. (http://tinyurl.com/attjoj) Что такое сапа? (http://tinyurl.com/sapehelp) Рефам везде возвращаю $5.

K

737

Kost

1 ноября 2009, 19:49

#4

Slav Krivonos:
средствами поиска найти не могу

В прикрепленных темах - правила раздела.

На сайте Яндекса - Помощь - Владельцу сайта.

Как бы уже пора ознакомиться.

А ответ вам уже дали выше.

Выделенные полосы в Москве (http://www.probkovorot.info) привели к снижению скорости до 23%.

146

Slav Krivonos

1 ноября 2009, 21:18

#5

Kost:
В прикрепленных темах - правила раздела.
На сайте Яндекса - Помощь - Владельцу сайта.
Как бы уже пора ознакомиться.
А ответ вам уже дали выше.

прежде всего, спасибо за ссылки на источники

прошу прощения, данный мне в этой теме ответ оставляет у меня ряд сомнений.

попробую описать суть сомнений, используя цитаты и источников.

1. справка Яндекса о robots.txt:

Следуя описанной выше логике, к моей ситуации якобы подходит

инструкция:

User-agent: *

Disallow: /ua

Но, если на сайте есть другие папки или файлы (не имеющие к моему сайту отношения) имя которых начинается с /UA, будут ли они запрещены к регистрации?

Вероятно, да.

Такой результат не устраивает.

2. http://robotstxt.org.ru/RobotsExclusion/guide

если написать:

User-agent: *

Disallow: /ua/ # с косой чертой в конце

будет ли запрещена индексация не только папки /ua/, но и всех вложенных в нее папок и файлов?

если да, то почему составители этого хелпа (и всех остальных, начиная с http://www.robotstxt.org/) написали о своем примере "трех директорий", а не "трех директорий и всех подвложенных в них папок и файлов"? Вряд ли поленились или экономят буквы (цель хелпа ведь – максимально ясно описать суть вопроса и не допустить двояких толкований...)

или будет запрещена индексация и файла /ua.html?

ведь:

Другие источники данных о файле robots.txt также не проливают свет на интересующий меня вопрос: какой инструкцией можно закрыть от индексации определенную папку и все ее содержимое (1, 2, 3 ...)

Итого:

если я верно понял логику составителей хелпа к файлу robots.txt,

они не делают различий между фразами "доступ к каталогу" и "доступ к каталогу и всем вложенным в него подкаталогам и файлам" или "папка" и "папка и все вложенные в нее папки и файлы".

Соответственно, выходов 2:

а) написать

User-agent: *

Disallow: /ua/

и надеяться (ведь ни в английском описании, ни в русском не сказано это точно), что роботы поймут, что имеются в виду и все вложенные папки и файлы – то есть, надежность этого варианта под вопросом...

б)написать:

User-agent: *

Disallow: /ua/файл1.html

Disallow: /ua/файл2.html

Disallow: /ua/файл3.html

#и так перечислить все-все файлы, индексацию которых надо запретить – что не есть самый удобный вариант

Вот, собственно, чем и был продиктован мой вопрос – допускающим двоякое толкование описанием директивы Disallow как на английских, так и на русских сайтах.

Ответ:

User-agent: *

Disallow: /ua #хоть со слешом, хоть без в конце

мне не кажется на 100% верным (а вам самому – кажется?)

Тем не менее, спасибо автору этого ответа за готовность помочь.

Если я где торможу – не пинайте сильно, плз

заранее спасибо за ответы по сути, не допускающие двоякого толкования :)

K

737

Kost

1 ноября 2009, 21:21

#6

Slav Krivonos:
прошу прощения, данный мне в этой теме ответ оставляет у меня ряд сомнений.

Не сомневайтесь, ответ правильный.

User-agent: Yandex
Disallow: /cgi-bin # блокирует доступ к страницам
#начинающимся с '/cgi-bin'

Хватит тупить, извините.

Почитайте лучше википедию, а не устаревший и неавторитетный русскоязычный сайт с мутными и кривыми объяснениями. Или хотя бы справку Яндекса. Неужели ее не нашли?

146

Slav Krivonos

1 ноября 2009, 21:23

#7

snoppy:
google.com/robots.txt

спасибо за попытку помочь, но я смотрел с помощью Гугла источники по этой теме. Однако они оставили ряд сомнений в толкованиях (описал их выше)

кстати, специально для вас – цитата из Правил:

Slav Krivonos добавил 02.11.2009 в 00:30

Kost:
Не сомневайтесь, ответ правильный.

понял

спасибо за ответ

Kost:
Хватит тупить, извините.

не понял...

и давайте, пожалуйста, без оскорблений

яндекс ясно пишет "начинающимся" – то есть, если на сайте есть в корневике файл, начинающийся с cgi-bin (cgi-bin-chto-ugodno.html) – доступ к нему будет запрещен. Или не так?

подскажите, пожалуйста, где я туплю?

Slav Krivonos добавил 02.11.2009 в 00:39

Kost:
Почитайте лучше википедию, а не устаревший и неавторитетный русскоязычный сайт с мутными и кривыми объяснениями. Или хотя бы справку Яндекса. Неужели ее не нашли?

спаисибо за ссылку

я читал Википедию (правда, русскую версию, но суть в ней та же, что в приведенной вами английской)

и хелп Яндекса (цитату из которого вы могли видеть в моем ответе) – само собой, тоже читал :)

P.S.: я не "туплю", как вы изволили выразиться – я ищу истину, критически оцениваю информацию, размышляю логически и не хочу ошибиться :)

В любом случае – спасибо за ответы.

Вопросов больше нет

S2

611

Str256

1 ноября 2009, 22:18

#8

В общем, лучше не robots.txt, а что-нибудь помощнее. Так как robots.txt не даёт абсолютный запрет роботам на сканирование, только на индексацию. Но _Ad писал, что сайт попал под санкции за то, что было запрещено в роботсе. Поэтому попробуйте сделать, что-то вроде этого: http://alfainternet.ru/13.html#more-13

Не надо приписывать мне свои выводы, я имею ввиду только то, что написал. Лучшая партнёрка по футболкам/толстовкам (http://partnerka.kolorado.ru/?ref=1921540) Опрос: Проверить текст на уник - как? (/ru/forum/495885)

146

Slav Krivonos

1 ноября 2009, 22:55

#9

Str256:
В общем, лучше не robots.txt, а что-нибудь помощнее. Так как robots.txt не даёт абсолютный запрет роботам на сканирование, только на индексацию. Но _Ad писал, что сайт попал под санкции за то, что было запрещено в роботсе. Поэтому попробуйте сделать, что-то вроде этого: http://alfainternet.ru/13.html#more-13

спасибо за помощь

правда, в моем случае выложить на одну вверх папку новый сайт нельзя – там же сайт родительского бренда...

и через .htaccess закрыть не получится – мне же надо оптимизировать новую версию под ПС – значит, новый сайт должен открываться и работать

ваш ответ натолкнул меня на идею, кроме закрытия от индексации через robots.txt, еще и впендюрить на все страницы сайта метатег (или тег – точно не помню, к какой группе он относится), который указывает ПС, какой сайт является первоисточником информации, ее владельцем и правообладателем. И прописать туда адрес основного сайта (где сейчас лежит старая версия сайта. Мне такой финт ушами пригодится и для другого сайта, который сейчас на запасном домене наполняется, а после наполнения будет выложен на основной адрес.

Надо покурить поиск – как найду название этого тега – отпишусь

Блин, чем дальше в лес, тем больше дров: решение пришло совсем из неожиданного места.

Адрес сайта будет меняться.

Сейчас основным доменом является site.com.ua, а в ближайшие недели основным адресом станет site.ua

Значит, сейчас выложим новый сайт на site.ua, закроем его от индексации на время работ по оптимизации сайта, пропишем как первоисточник инфы site.ua (хотя, при таком варианте действий это уже и излишне, наверное).

Когда страницы нового сайта будут оптимизированы, откроем его для индексации (и поможем ПС проиндексировать), а со страниц site.com.ua поставим 301-й редирект.

Даже если при запрете на индексирование новый сайт и проиндексируется на домене site.ua, где он и будет в дальнейшем располагаться, это не страшно (так как цель: избежать санкций за неуникальность, которые могли бы быть применены при публикации на домене site.com.ua страниц, ранее проиндексированных по другому адресу в сети – таким образом достигается совершенно без дополнительных усилий)

Поправьте меня, пожалуйста, если я где ошибаюсь

заранее спасибо

S2

611

Str256

1 ноября 2009, 23:04

#10

Slav Krivonos:
а со страниц site.com.ua поставим 301-й редирект.

Ссылочное потеряете. Или вас только гугл интересует?

Что такое Power BI и зачем это нужно бизнесу

Вышел новый Яндекс Браузер с YandexGPT и YandexART