Павел

Рейтинг
160
Регистрация
23.01.2006

Megapashko, спасибо, это естественный и очевидный ход и по статистике переходов он явно не работает...

Мучает вопрос по отсеву нецелевого трафа с нечетко выраженным интентом

Например, есть запрос st petersburg

Интересует траф штатовский

есть st petersburg в России

есть st petersburg во Флориде

оба туристические направления

как отсечь показы тем, что ищет, например, tour st petersburg подразумевая Флориду? Но не вводит в свой запрос уточнений. Не вырубив при этом показы тем, кто оттуда же ищет Россию.

Эмм... Что-то вроде vz.ru хотите сделать? Когда-то давно этот сайтец действительно очень сильно выделялся на фоне остальных новостных порталов. Так что идея здравая.

Интересно будет взглянуть на результат

dibart:
vz.ru живет и все у них ок

Опередили на секунды :)))

Без проблем, успехов Вам

Главное, чтобы ИЗ файла, а не В файл :)

А это что?

User-agent: * - РАЗ

Disallow:

Crawl-delay: 4

Host: wwww.su

Sitemap: http://www.wwww.su/sitemap.xml

User-agent: * - ДВА

Disallow: /administrator/

Disallow: /bin/

Disallow: /cache/

Disallow: /cli/

Disallow: /components/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /layouts/

Disallow: /libraries/

Disallow: /logs/

Disallow: /modules/

Disallow: /plugins/

Disallow: /tmp/

Disallow: /noindex/

Ну в любом случае, совет дан, а нужен он или нет - дело хозяйское :)

Про "...и так через htaccess..." - ну и зачем лишняя нагрузка на Апач?

Что мешает СРАЗУ прописать и в robots корректное зеркало, с которого забирать сайтмэп, и в самом сайтмэпе линки сделать сразу куда надо, на нужное зеркало?

Без переадресаций, меньше нагрузка на сервак + убираем лишние запросы ботов к сайту, они сразу (один запрос), без пересылки (два запроса, смотрим логи Апача), попадают куда Вам надо.

---------- Добавлено 12.06.2016 в 14:11 ----------

И да, простите, накосячил, Crawl-Delay конечно должен быть в обоих блоках, в отличие от Хоста, которая проприетарная Яндексная.

User-agent: *

Disallow: /administrator/

Disallow: /bin/

Disallow: /cache/

Disallow: /cli/

Disallow: /components/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /layouts/

Disallow: /libraries/

Disallow: /logs/

Disallow: /modules/

Disallow: /plugins/

Disallow: /tmp/

Disallow: /noindex/

Crawl-delay: 4

User-agent: Yandex

Disallow: /administrator/

Disallow: /bin/

Disallow: /cache/

Disallow: /cli/

Disallow: /components/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /layouts/

Disallow: /libraries/

Disallow: /logs/

Disallow: /modules/

Disallow: /plugins/

Disallow: /tmp/

Disallow: /noindex/

Crawl-delay: 4

Host: wwww.su

Sitemap: http://wwww.su/sitemap.xml

Но как писал выше, и со мной согласились - два блока в данном случае совершенно не нужны.

Вы видимо не понимаете. В файле на один поисковик лучше всего делать один блок инструкций. Ваш случай - два блока на поисковик * :) всмысле на все. Это избыточно и возможны баги.

А то, что задержку надо ставить после дизаллоу - во-первых она и так у вас после, а во вторых из описаний формата файла естественно.

---------- Добавлено 12.06.2016 в 13:58 ----------

Вот альтернатива с блоками под два поисковика:

User-agent: *

Disallow: /administrator/

Disallow: /bin/

Disallow: /cache/

Disallow: /cli/

Disallow: /components/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /layouts/

Disallow: /libraries/

Disallow: /logs/

Disallow: /modules/

Disallow: /plugins/

Disallow: /tmp/

Disallow: /noindex/

User-agent: Yandex

Disallow: /administrator/

Disallow: /bin/

Disallow: /cache/

Disallow: /cli/

Disallow: /components/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /layouts/

Disallow: /libraries/

Disallow: /logs/

Disallow: /modules/

Disallow: /plugins/

Disallow: /tmp/

Disallow: /noindex/

Crawl-delay: 4

Host: wwww.su

Sitemap: http://www.wwww.su/sitemap.xml

---------- Добавлено 12.06.2016 в 13:58 ----------

Но в данном случае, коль скоро регэкспы в Disallow Вы не используете - это совершенно не нужно.

---------- Добавлено 12.06.2016 в 14:01 ----------

Смотрим хелп https://yandex.ru/support/webmaster/controlling-robot/robots-txt.xml#crawl-delay

Второй их пример - после Disallow, и не важно совершенно, запрещает она что-то или нет.

Аналогично про Host - https://yandex.ru/support/webmaster/controlling-robot/robots-txt.xml#host

По моему все предельно понятно.

Serebro2009:
Нет, я что-то не думаю, что я где-то мог ошибиться.

User-agent: *
Disallow:
Crawl-delay: 4
Host: wwww.su
Sitemap: http://www.wwww.su/sitemap.xml

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/
Disallow: /noindex/

Документы находятся в папке noindex, в вебмастере пишет что данный документ исключен из выдачи, но...

Что мешает сделать этот файл все таки по человечески? Например, так:

User-agent: *

Disallow: /administrator/

Disallow: /bin/

Disallow: /cache/

Disallow: /cli/

Disallow: /components/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /layouts/

Disallow: /libraries/

Disallow: /logs/

Disallow: /modules/

Disallow: /plugins/

Disallow: /tmp/

Disallow: /noindex/

Crawl-delay: 4

Host: wwww.su

Sitemap: http://www.wwww.su/sitemap.xml

И почему в Host и Sitemap директивах разные поддомены указаны? И интересно, что тогда в сайтмапе отдается, с www или без.

pkARP:
Если посмотреть на загруженные страницы в обычном вебмастере и в бете - мы увидим бешеную разницу. Я задавал вопрос по этому поводу на вебмастерской. Сказали, что там учет идет по другому. Возникает закономерный вопрос, а кому верить?

Посмотрите внимательнее, ЧТО именно считается как загруженная страница в БЕТЕ. В отличие от старого Вебмастера, там вповалку как страницы, так и картинки и прочие файлы сайта. То есть любые скачанные с сайта ресурсы. Оттого и такой бешеный перекос цифр.

Всего: 257