Все вопросы по robots.txt

KM
На сайте с 18.09.2015
Offline
4
#561

Привет форумчане.

Сформировал файл robots.txt для ИМ, который работает через https. Сайт сделан на WP. Меня терзают сомнения в его корректности, не указал ли чего лишнего там .

Содержимое файла:

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /wp-trackback

Disallow: /wp-feed

Disallow: /wp-comments

Disallow: /wp-content/plugins

Disallow: /wp-content/themes

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /account

Disallow: /author

Disallow: */trackback

Disallow: */feed

Disallow: /cgi-bin

Disallow: *?s=

Disallow: *?

Disallow: /comments

Disallow: /comment

Disallow: /*?

Disallow: /*?*

Host: https://домен (Стоит ли указывать протокол тут?)

Далее пытаюсь сформировать карту сайта на сервисе htmlweb.ru.

Ругается на на файл robots.txt "В вашем robots.txt в директиве host: мой сайт. указан другой протокол! Сервер не возвращает в заголовке время изменения страницы". Для генерации карты указывал домен с https.

Буду рад любому совету.

LF
На сайте с 04.02.2016
Offline
0
#562

Приветствую!

Прошу помощи.

У меня вот такое содержание файла:

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */comment
Disallow: */comments
Disallow: /category/*/*
Disallow: /*?*
Disallow: /?s=


User-agent: Googlebot
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */comment
Disallow: */comments
Disallow: /category/*/*
Disallow: /*?*
Disallow: /?s=

User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */comment
Disallow: */comments
Disallow: /category/*/*
Disallow: /*?*
Disallow: /?s=

В панели гугл вебмастер, в разделе сканирование,

вижу что гуглбот не может получить доступ к некоторым файлам.

Вижу что "ругается" на то, что нет доступа к css, в папках "wp-themes" и "wp-plugins"

Правильно ли я понимаю, что для того чтобы разрешить гуглботу доступ,

нужно дописать 2 эти строчки,

Allow: /wp-content/themes/
Allow: /wp-content/plugins/

в столбик с User-agent: Googlebot?

Или же надо как-то конкретнее например так:

Allow: /wp-content/themes/*.css
Allow: /wp-content/plugins/*.css

или даже так:

Allow: /wp-content/themes/*.css*
Allow: /wp-content/plugins/*.css*

Я совсем запуталась в этих звездочках...

Подскажите пожалуйста, как будет правильно?

M
На сайте с 02.05.2012
Offline
46
#563

Установил плагин для карты сайта на wordpress, он также генерирует robots.txt.

Однако robots.txt какой-то короткий вышел. Такой robots.txt нормальный?

User-agent: *

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

Sitemap: http://site.ru/sitemapindex.xml

anvarikum
На сайте с 18.10.2012
Offline
80
#564
Maxkup:
Установил плагин для карты сайта на wordpress, он также генерирует robots.txt.

Однако robots.txt какой-то короткий вышел. Такой robots.txt нормальный?

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: http://site.ru/sitemapindex.xml

А как же

host для яндекса, вот только строки не пропускайте, ошибка синтаксиса

Maxim-KL
На сайте с 26.01.2011
Offline
350
#565

Maxkup, Нормальный, но не идеальный))

Мои услуги по прогонам: ✅Качественный ручной статейный прогон по базе сайтов с ИКС10+ (maximgroups.net/progon-statejnyj) ✅Прогон Максимум - Все включено, 300+ качественных ссылок (maximgroups.net/progon-maksimum)
M
На сайте с 02.05.2012
Offline
46
#566

просто плагин автоматически его создал

---------- Добавлено 06.02.2016 в 01:29 ----------

А такой вариант?

User-agent: *

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /feed/

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: */comments

Disallow: */trackback

Disallow: */*/trackback

Disallow: */*/feed/*/

Disallow: */feed

Disallow: /*?*

Disallow: /?s=

User-agent: Yandex

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /feed/

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: */comments

Disallow: /category/*/*

Disallow: */trackback

Disallow: */*/trackback

Disallow: */*/feed/*/

Disallow: */feed

Disallow: /*?*

Disallow: /?s=

Host: сайт

Sitemap: http://сайт/sitemap.xml.gz

Sitemap: http://сайт/sitemap.xml

_superman_
На сайте с 15.12.2015
Offline
26
#567

Приветствую!

Собрал такой себе нехилый robots.txt для своего статейника на wordpress, ориентировался на несколько очень сильно оптимизированных сайтов, чуток с пузатовского марафона взял, прошу заценить:

User-agent: Yandex

Disallow: /sample-page/

Disallow: /search/

Disallow: /search/*

Disallow: *?sortby=*

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/themes

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /xmlrpc.php

Disallow: */author/*

Disallow: */feed/

Disallow: *page=*

Disallow: */page/*

Disallow: */feed

Disallow: */feed/atom/

Disallow: /?feed=

Disallow: */trackback/

Disallow: /search

Disallow: /?s=

Disallow: */comments/

Disallow: */comment

Disallow: */tag/*

Disallow: */attachment/*

Disallow: *page__view__getnewpost*

Disallow: /*&s=

Disallow: /*&s=*

Disallow: /*?s=

Disallow: /*?s=*

Disallow: /*&p=

Disallow: /*&pid=

Disallow: /*&hl=

Disallow: /*&start=

Disallow: /*view__getnewpost$

Disallow: /*view__getlastpost$

Disallow: /*view__old$

Disallow: /*view__new$

Disallow: /*view__getfirst$

Disallow: /*view__getprevious$

Disallow: /*view__getnext$

Disallow: /*view__getlast$

Disallow: /*page__view__findpost*

Disallow: /*&view=getnewpost$

Disallow: /*&view=getlastpost$

Disallow: /*&view=old$

Disallow: /*&view=new$

Disallow: /*&view=getfirst$

Disallow: /*&view=getprevious$

Disallow: /*&view=getnext$

Disallow: /*&view=getlast$

Disallow: /*page__p__*

Disallow: *?print=1

Allow: /wp-content/uploads/

Host: site.ru

User-agent: Googlebot

Disallow: /sample-page/

Disallow: /search/

Disallow: /search/*

Disallow: *?sortby=*

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/themes

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /xmlrpc.php

Disallow: */author/*

Disallow: */feed/

Disallow: *page=*

Disallow: */page/*

Disallow: */feed

Disallow: */feed/atom/

Disallow: /?feed=

Disallow: */trackback/

Disallow: /search

Disallow: /?s=

Disallow: */comments/

Disallow: */comment

Disallow: */tag/*

Disallow: */attachment/*

Disallow: *page__view__getnewpost*

Disallow: /*&s=

Disallow: /*&s=*

Disallow: /*?s=

Disallow: /*?s=*

Disallow: /*&p=

Disallow: /*&pid=

Disallow: /*&hl=

Disallow: /*&start=

Disallow: /*view__getnewpost$

Disallow: /*view__getlastpost$

Disallow: /*view__old$

Disallow: /*view__new$

Disallow: /*view__getfirst$

Disallow: /*view__getprevious$

Disallow: /*view__getnext$

Disallow: /*view__getlast$

Disallow: /*page__view__findpost*

Disallow: /*&view=getnewpost$

Disallow: /*&view=getlastpost$

Disallow: /*&view=old$

Disallow: /*&view=new$

Disallow: /*&view=getfirst$

Disallow: /*&view=getprevious$

Disallow: /*&view=getnext$

Disallow: /*&view=getlast$

Disallow: /*page__p__*

Disallow: *?print=1

Allow: /wp-content/uploads/

User-agent: *

Disallow: /sample-page/

Disallow: /search/

Disallow: /search/*

Disallow: *?sortby=*

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/themes

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /xmlrpc.php

Disallow: */author/*

Disallow: */feed/

Disallow: *page=*

Disallow: */page/*

Disallow: */feed

Disallow: */feed/atom/

Disallow: /?feed=

Disallow: */trackback/

Disallow: /search

Disallow: /?s=

Disallow: */comments/

Disallow: */comment

Disallow: */tag/*

Disallow: */attachment/*

Disallow: *page__view__getnewpost*

Disallow: /*&s=

Disallow: /*&s=*

Disallow: /*?s=

Disallow: /*?s=*

Disallow: /*&p=

Disallow: /*&pid=

Disallow: /*&hl=

Disallow: /*&start=

Disallow: /*view__getnewpost$

Disallow: /*view__getlastpost$

Disallow: /*view__old$

Disallow: /*view__new$

Disallow: /*view__getfirst$

Disallow: /*view__getprevious$

Disallow: /*view__getnext$

Disallow: /*view__getlast$

Disallow: /*page__view__findpost*

Disallow: /*&view=getnewpost$

Disallow: /*&view=getlastpost$

Disallow: /*&view=old$

Disallow: /*&view=new$

Disallow: /*&view=getfirst$

Disallow: /*&view=getprevious$

Disallow: /*&view=getnext$

Disallow: /*&view=getlast$

Disallow: /*page__p__*

Disallow: *?print=1

Allow: /wp-content/uploads/

User-agent: Googlebot-Image

Allow: /wp-content/uploads/

User-agent: YandexImages

Allow: /wp-content/uploads/

Crawl-delay: 5

User-agent: grub-client

Disallow: /

User-agent: grub

Disallow: /

User-agent: looksmart

Disallow: /

User-agent: WebZip

Disallow: /

User-agent: larbin

Disallow: /

User-agent: b2w/0.1

Disallow: /

User-agent: psbot

Disallow: /

User-agent: Python-urllib

Disallow: /

User-agent: NetMechanic

Disallow: /

User-agent: URL_Spider_Pro

Disallow: /

User-agent: CherryPicker

Disallow: /

User-agent: EmailCollector

Disallow: /

User-agent: EmailSiphon

Disallow: /

User-agent: WebBandit

Disallow: /

User-agent: EmailWolf

Disallow: /

User-agent: ExtractorPro

Disallow: /

User-agent: CopyRightCheck

Disallow: /

User-agent: Crescent

Disallow: /

User-agent: SiteSnagger

Disallow: /

User-agent: ProWebWalker

Disallow: /

User-agent: CheeseBot

Disallow: /

User-agent: LNSpiderguy

Disallow: /

User-agent: ia_archiver

Disallow: /

User-agent: ia_archiver/1.6

Disallow: /

User-agent: Teleport

Disallow: /

User-agent: TeleportPro

Disallow: /

User-agent: MIIxpc

Disallow: /

User-agent: Telesoft

Disallow: /

User-agent: Website Quester

Disallow: /

User-agent: moget/2.1

Disallow: /

User-agent: WebZip/4.0

Disallow: /

User-agent: WebStripper

Disallow: /

User-agent: WebSauger

Disallow: /

User-agent: WebCopier

Disallow: /

User-agent: NetAnts

Disallow: /

User-agent: Mister PiX

Disallow: /

User-agent: WebAuto

Disallow: /

User-agent: TheNomad

Disallow: /

User-agent: WWW-Collector-E

Disallow: /

User-agent: RMA

Disallow: /

User-agent: libWeb/clsHTTP

Disallow: /

User-agent: asterias

Disallow: /

User-agent: httplib

Disallow: /

User-agent: turingos

Disallow: /

User-agent: spanner

Disallow: /

User-agent: InfoNaviRobot

Disallow: /

User-agent: Harvest/1.5

Disallow: /

User-agent: Bullseye/1.0

Disallow: /

User-agent: Mozilla/4.0 (compatible; BullsEye; Windows 95)

Disallow: /

User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0

Disallow: /

User-agent: CherryPickerSE/1.0

Disallow: /

User-agent: CherryPickerElite/1.0

Disallow: /

User-agent: WebBandit/3.50

Disallow: /

User-agent: NICErsPRO

Disallow: /

User-agent: Microsoft URL Control - 5.01.4511

Disallow: /

User-agent: DittoSpyder

Disallow: /

User-agent: Foobot

Disallow: /

User-agent: WebmasterWorldForumBot

Disallow: /

User-agent: SpankBot

Disallow: /

User-agent: BotALot

Disallow: /

User-agent: lwp-trivial/1.34

Disallow: /

User-agent: lwp-trivial

Disallow: /

User-agent: BunnySlippers

Disallow: /

User-agent: Microsoft URL Control - 6.00.8169

Disallow: /

User-agent: URLy Warning

Disallow: /

User-agent: Wget/1.6

Disallow: /

User-agent: Wget/1.5.3

Disallow: /

User-agent: Wget

Disallow: /

User-agent: LinkWalker

Disallow: /

User-agent: cosmos

Disallow: /

User-agent: moget

Disallow: /

User-agent: hloader

Disallow: /

User-agent: humanlinks

Disallow: /

User-agent: LinkextractorPro

Disallow: /

User-agent: Offline Explorer

Disallow: /

User-agent: Mata Hari

Disallow: /

User-agent: LexiBot

Disallow: /

User-agent: Web Image Collector

Disallow: /

User-agent: The Intraformant

Disallow: /

User-agent: True_Robot/1.0

Disallow: /

User-agent: True_Robot

Disallow: /

User-agent: BlowFish/1.0

Disallow: /

User-agent: JennyBot

Disallow: /

User-agent: MIIxpc/4.2

Disallow: /

User-agent: BuiltBotTough

Disallow: /

User-agent: ProPowerBot/2.14

Disallow: /

User-agent: BackDoorBot/1.0

Disallow: /

User-agent: toCrawl/UrlDispatcher

Disallow: /

User-agent: WebEnhancer

Disallow: /

User-agent: suzuran

Disallow: /

User-agent: VCI WebViewer VCI WebViewer Win32

Disallow: /

User-agent: VCI

Disallow: /

User-agent: Szukacz/1.4

Disallow: /

User-agent: QueryN Metasearch

Disallow: /

User-agent: Openfind data gathere

Disallow: /

User-agent: Openfind

Disallow: /

User-agent: Xenu's Link Sleuth 1.1c

Disallow: /

User-agent: Xenu's

Disallow: /

User-agent: Zeus

Disallow: /

User-agent: RepoMonkey Bait & Tackle/v1.01

Disallow: /

User-agent: RepoMonkey

Disallow: /

User-agent: Microsoft URL Control

Disallow: /

User-agent: Openbot

Disallow: /

User-agent: URL Control

Disallow: /

User-agent: Zeus Link Scout

Disallow: /

User-agent: Zeus 32297 Webster Pro V2.9 Win32

Disallow: /

User-agent: Webster Pro

Disallow: /

User-agent: EroCrawler

Disallow: /

User-agent: LinkScan/8.1a Unix

Disallow: /

User-agent: Keyword Density/0.9

Disallow: /

User-agent: Kenjin Spider

Disallow: /

User-agent: Iron33/1.0.2

Disallow: /

User-agent: Bookmark search tool

Disallow: /

User-agent: GetRight/4.2

Disallow: /

User-agent: FairAd Client

Disallow: /

User-agent: Gaisbot

Disallow: /

User-agent: Aqua_Products

Disallow: /

User-agent: Radiation Retriever 1.1

Disallow: /

User-agent: Flaming AttackBot

Disallow: /

User-agent: Oracle Ultra Search

Disallow: /

User-agent: MSIECrawler

Disallow: /

User-agent: PerMan

Disallow: /

User-agent: searchpreview

Disallow: /

User-Agent: YaDirectBot

Disallow:

User-agent: MediaPartners-Google

Disallow:

Sitemap: http://site/sitemap_index.xml

_
На сайте с 09.06.2008
Offline
158
#568

Правильный robots.txt должен выглядеть так


Allow:*
Настраиваю напильником Joomla 1.5 (http://joomla15.ru) Если постоянно взламывают движок, достаточно сменить хостинг (http://2s4.ru/ytx) всем СРОЧНО (14 дек) обновлять или патчить joomla-сайты (/ru/forum/919351)
alaev
На сайте с 18.11.2010
Offline
846
#569

ТС, ты мегакрут!!! А есть уверенность, что запрещённые боты читают этот файл? :))) и зачем от них закрывать?

Создание и продвижение сайтов - https://alaev.net , аудиты сайтов, контекстная реклама
alaev
На сайте с 18.11.2010
Offline
846
#570

Зачем точно такое же правило для бота Яндекса, как и для всех остальных ботов? :))) в чем прикол?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий