При настройке robots.txt возникли ошибки

12
Anderew
На сайте с 06.03.2010
Offline
125
1604

Здравствуйте!

Настроил "robots.txt", закрыл от индексации страницы дубли.

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /2010-09-23-10-37-35/98-3-?tmpl=component&print=1&layout=default&page=
Disallow: /2010-09-04-22-31-06/31-28-?tmpl=component&print=1&layout=default&page=
Disallow: /2010-09-23-10-37-35/96-1-?tmpl=component&print=1&layout=default&page=/
Disallow: /2010-12-03-21-53-28/132-2010-12-03-22-20-04?tmpl=component&print=1&layout=default&page=/
Disallow: /2010-08-25-15-19-57/5-2010-08-27-09-41-30?tmpl=component&print=1&layout=default&page=
Sitemap: http://www.домен.com/sitemap.xml

Таких страниц я закрыл более 300 шт. В "sitemap.xml" по удалял ссылки этих страниц (дубли).

Перезалил через FTP "robots.txt" и "sitemap.xml". Подождал, пока обновятся новые настройки в панели "Я" и "G".

Сегодня захожу и вижу, что в "Google" не сработали настройки "robots.txt" вообще:

В Яндексе выдало вот такие ошибки:

Я так и не понял, что за недопустимые символы там могут быть? Все ссылки копировались, как они есть с "sitemap.xml", только, разве что ссылки:

вписывал без домена,

/2010-09-23-10-37-35/98-3-?tmpl=component&print=1&layout=default&page=

Помогите разобраться!

Спорим, мощней и дешевле VPS не знаешь? http://www.ihc.ru/?ref=2920
kimberlit
На сайте с 13.03.2007
Offline
370
#1
Anderew:
Таких страниц я закрыл более 300 шт

А по маске никак что ли? Что за страницы?

gtauter
На сайте с 08.06.2008
Offline
131
#2
В Яндексе выдало вот такие ошибки:

Это из-за " ; " в урл. И не ошибка это, а предупреждение - то есть, по идее, нормально все должно обрабатываться. Если все правильно составлено.

С уважением, Евгений. Моя визитка (gtauter.ru). Привет из "Теслы" :)
Anderew
На сайте с 06.03.2010
Offline
125
#3
kimberlit:
А по маске никак что ли? Что за страницы?

Сайт на Joomla.

При создании публикаций в виде блога (без разрыва страниц), таким образом, я сделал из одной статьи две страницы 2УВ. Ссылки получились вот такие:

Это если переходить с навигации сайта

Первая часть статьи:

http://www.домен.com/2010-12-01-18-11-16

<< Начало < Предыдущая 1 2 Следующая > Последняя >>

Страница 1 из 2

Вторая часть статьи:

http://www.домен.com/2010-12-01-18-11-16?start=1

Также есть «карта сайта» для людей, где выбираю туже статью, но теперь она открывается по другому адресу:

Первая часть статьи:

http://www. домен.com/2010-12-01-18-11-16/128-2010-12-01-17-28-15

Вторая часть статьи:

http://www. домен.com/2010-12-01-18-11-16/129-2010-12-01-18-20-27

И того получается, что одна публикация доступна по двум адресам,

http://www.домен.com/2010-12-01-18-11-16

и

http://www. домен.com/2010-12-01-18-11-16/128-2010-12-01-17-28-15

т.е. страницы дублируются и так у всех опубликованных статьях на сайте.

Вот их, ссылки 3УВ, я и запретил к индексации в «robots.txt»

Anderew добавил 14.12.2010 в 18:51

gtauter:
Это из-за " ; " в урл. И не ошибка это, а предупреждение - то есть, по идее, нормально все должно обрабатываться. Если все правильно составлено.

Пример я привёл. Вроде, всё правильно.

Если в Яндексе это не ошибки, тогда всё хорошо.

iguania
На сайте с 10.12.2010
Offline
72
#4

У Joomla дубли - это ее страшная болезнь, не советовал бы с ней связываться, а раз уж связались, то настройте ЧПУ. На счет составления роботс могу только помочь, показав свой - тоже для джумлы

User-agent: Yandex

Disallow: /administrator/

Disallow: /cache/

Disallow: /components/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /tmp/

Disallow: /upload/

Disallow: /xmlrpc/

Disallow: /index2.php?option=com_content&task=emailform

Disallow: /*?sl*

Disallow: /index.php?*

Disallow: *.pdf$

Disallow: /name.php?action=print

Disallow: /trackback

Disallow: /*rss.html

Disallow: /*atom.html

Crawl-delay: 2

Host: iguania.ru

Sitemap: http://www.iguania.ru/index.php?option=com_xmap&sitemap=1&view=xml&no_html=1

User-agent: *

Disallow: /administrator/

Disallow: /cache/

Disallow: /components/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /tmp/

Disallow: /upload/

Disallow: /xmlrpc/

Disallow: /index2.php?option=com_content&task=emailform

Disallow: /*?sl*

Disallow: /index.php?*

Disallow: *.pdf$

Disallow: /name.php?action=print

Disallow: /trackback

Disallow: /*rss.html

Disallow: /*atom.html

Crawl-delay: 2

Host: iguania.ru

Sitemap: http://www.iguania.ru/index.php?option=com_xmap&sitemap=1&view=xml&no_html=1

Все всегда заканчивается хорошо. Если все закончилось плохо, значит, это еще не конец…
Anderew
На сайте с 06.03.2010
Offline
125
#5
iguania:
У Joomla дубли - это ее страшная болезнь, не советовал бы с ней связываться, а раз уж связались, то настройте ЧПУ.

Да, везде есть свои сложности, я не только с Joomla работал и работаю. На данный момент ситуация такая в Joomla. Что уж тут поделаешь? От сложностей никогда не стоит убегать, они всё-равно вас настигнут, с чем бы вы не столкнулись, за что бы ни взялись.

На счёт ЧПУ - это идея. Но, пока что меня интересует решение создавшейся задачи.

K
На сайте с 31.01.2001
Offline
737
#6
iguania:
показав свой - тоже для джумлы

А почему между блоками нет пустой строки?

А почему директива Host: во втором блоке?

Не читали Help.yandex.ru ?

Может надо сначала самому разобраться в элементарных вещах?

P.S.

iguania:
На счет составления роботс могу только помочь

Не можете.

Выделенные полосы в Москве (http://www.probkovorot.info) привели к снижению скорости до 23%.
ParserYa
На сайте с 04.10.2010
Offline
29
#7

Kost, потому что если мозгов нет, они думают, что чем больше файл robots.txt, тем круче.

По моему, выложить на серче свой, криво составленный роботс, стало чем-то вроде писькометра, аля, "А смотрите, я вообще ничего не понимаю, но у меня есть свой сайт!11разраз"

Anderew
На сайте с 06.03.2010
Offline
125
#8
ParserYa:
Kost, потому что если мозгов нет, они думают, что чем больше файл robots.txt, тем круче.
По моему, выложить на серче свой, криво составленный роботс, стало чем-то вроде писькометра, аля, "А смотрите, я вообще ничего не понимаю, но у меня есть свой сайт!11разраз"

По-моему вы не в адыквате!

iguania
На сайте с 10.12.2010
Offline
72
#9
ParserYa:
Kost, потому что если мозгов нет, они думают, что чем больше файл robots.txt, тем круче.
По моему, выложить на серче свой, криво составленный роботс, стало чем-то вроде писькометра, аля, "А смотрите, я вообще ничего не понимаю, но у меня есть свой сайт!11разраз"

А вы, между прочим, молодой человек, по-моему, кроме того, чтобы поумничать больше ни на что не способны, а были бы способны, то объяснили бы что не так, ведь ветка то форума эта для новичков, и свой бы правильный robots.txt показали... А так вы просто пустослов. Извините, если чем обидел.

Переделал свой файлик, может задававшему вопрос он чем-то поможет. Если нет, то уж извините: на что способен на данный момент, то и показываю

User-agent: *

Disallow: /administrator/

Disallow: /cache/

Disallow: /components/

Disallow: /component/*

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /logs/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /tmp/

Disallow: /xmlrpc/

Sitemap: http://site.ru/sitemap.xml

Host: site.ru

Если настроили ЧПУ, то поможет избежать дублей еще такая строка

Disallow: /index.php?*

K
На сайте с 31.01.2001
Offline
737
#10

iguania, звездочки в конце строки Disallow: не нужны, они там и так подразумеваются.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий