Спасибо, что отписались! В домен закралась русская "с"
Исправленная почта petrblagov@gmail.com
1. Уберите нулевую категорию, если есть. Page-0 → 301 → category
2. ffreest, говорит дело. Просите разраба добавить разделитель и обозначьте номер страницы, key, desk. "Page title | page 2"
3. Поставьте каноникал на каждую страницу пагинации
4. Используйте атрибуты rel="next" и rel="prev"
Справка google по этому вопросу:
https://support.google.com/webmasters/answer/1663744?hl=ru
Разрабу всегда даю этот мануал - http://seoprofy.ua/blog/optimizaciya-sajtov/pagination-for-seo
На правильную реализацию в живую можно посмотреть тут http://convertmonster.ru/blog/seo-blog/page/2/
Когда делаю технические аудиты поступаю так:
1. Распаршиваю пациента
2. Определяю структуру вложенности URL в эксельке, группирую URL по разделам. Статьи к статьям, карточки товаров разбиваю по категориям. Если их много, то печаль, но ничего не поделаешь.
3. Беру кусок каждого URL от максимальной вложенности к минимальной и составляю запрос типа site:site.ru inurl:shop/category1
4. Выдираю выдачу по этому запросу, в том числе и руками.
5. Что бы понять что лишнего в индексе относительно морды можно составлять сложные запросы, вычитая подразделы.
6. Сравниваю URL на сайте и URL в выдаче
7. Профит в виде нового robots.txt, URL на удаление, добавление.
Те кто давно занимаются SEO отлично знают весь софт, позволяющий отследить все 404 ошибки... это и SeoScreaminFrog и всякие netpeak spider, comparser, xenu, да мало ли. Saas решения не отстают - seoto.me и куча других.
В каждом из этих решений как правило есть отдельный отчет - источники 404 ошибок.
А вообще 404 ошибка никак не влияет на ранжирование, если мы за SEO
https://support.google.com/webmasters/answer/2409439?hl=ru&ref_topic=2446029
Ну делать технический аудит ручками я вас в рамках темы научить не смогу, а ссылочки вот:
https://www.screamingfrog.co.uk/seo-spider/ SSF
http://parser.alaev.info/ Comparser
Если SSF дорогой продукт, то Comparser просто мастхев.
Если говорить за сервисы, то да seoto.me один из самых лучших. Есть хороший функционал по поиску частичных дубликатов на сайте. Плюс не надо платить каждый раз когда исправил очередную 404 или понатыкал кучу 301 новых после перезда.
Только руками... SSF + CoParser Алаича. Не представляю как можно делать техническую оптимизацию как то иначе.
Я вас удивлю. Это работать не будет просто потому что вызовет конфликт правил и реально страницы останутся доступны к индексации.
Из справки яндекс:
---------- Добавлено 27.03.2016 в 13:18 ----------
Я бы сделал так просто в силу того, что не придется возится с шаблоном и ставить <link rel="canonical" href="http://site.com/category/bla-bla/>
1. Скорость работы движка, кешенирование.
2. Наличие автогенерируемой sitemap с объективной датой изменения документа, а не временем сервера.
3. Изначально настроенный last-modified
4. Отсутствие в движке врожденных косяков дублирования контента
Вот и залоги успеха нормальной индексации сайта. Для коммерческого использования я бы советовал Diafan.
Я так понял, что это полные дубликаты товара.
Так делать нельзя (скорее всего это косяк движка)
По нормальному должно быть так:
Две категории
_site.ru/filtry-dlja-vody/nasha-voda/kuvshiny
_site.ru/filtry-dlja-vody-po-tipam-ochistki/filtry-kuvshiny
Но URL товара:
_site.ru/filtry-dlja-vody/nasha-voda/kuvshiny/nasha-voda-luna
Никак иначе. Да, в этом случае будет проблема с хлебными крошками для дополнительной категории, но уж лучше она, чем полные дубликаты товара. Если хотите подробнее, то смотрите такие сайты как lamoda и вайлдберриз.
Первое, что стоит прописать в любой роботс, если двиг не страдает ?page=2, ?PAGEN_1=2 и прочая архаичная ересь.---------- Добавлено 09.03.2016 в 18:25 ----------
Директива Host является межсекционной, поэтому будет использоваться роботом вне зависимости от места в файле robots.txt, где она указана.
https://yandex.ru/support/webmaster/controlling-robot/robots-txt.xml
Можете написать её хоть в самом начале файла роботс, яндекс найдет её. Но да только один раз можно указать.---------- Добавлено 09.03.2016 в 18:30 ----------
Информации о количестве страниц в индексе и количестве исключенных страниц не достаточно что бы понять наличие ошибок в записях роботс.
Не представляю как это можно сделать без знания вашего домена. Надо распарсить сайт + распарсить выдачу "site:". Затем сравнить выдачу с тем, что на сайте и только потом можно сказать, где ошибка в robots.txt.---------- Добавлено 09.03.2016 в 18:36 ----------
Это нормальное поведение поисковика. Яндекс работает так же. Принцип: "Зачем заглядывать в общие правила для всех остальных, если есть секция специально для меня?" А что, если директивы в секциях конфликтуют?---------- Добавлено 09.03.2016 в 18:47 ----------
Запретить
Disallow: /*?
Сделать sitemap.xml
Можно еще послушаться Google: https://support.google.com/webmasters/answer/1663744?hl=ru---------- Добавлено 09.03.2016 в 18:57 ----------
Disallow: http://site.com/*1
Disallow: http://site.com/*2
Disallow: http://site.com/*3
Disallow: http://site.com/*4
Disallow: http://site.com/*5
Disallow: http://site.com/*6
Disallow: http://site.com/*7
Disallow: http://site.com/*8
Disallow: http://site.com/*9
:)))---------- Добавлено 09.03.2016 в 19:21 ----------
Google панель начинает визжать, что не может получить доступ к js и css, если закрыть эти папки. Смотрите по ситуации. Вот статейка ну и поиск.
Секцию Google можно настроить так, я думаю:
Allow: /bitrix/*.css
Allow: /bitrix/*.js
Disallow: /bitrix/