Индексация ИМ на Magento

S
На сайте с 11.08.2006
Offline
97
1679

Здравствуйте!

Имел несчастье согласиться с программистами в вопросе выбора CMS для ИМ. Имею теперь сайт на Magento. (http://zoo-market.com.ua)

Однажды в WMT пришло сообщение, что робот офигел от количества страниц и предложил с этим что-то сделать: "Робот Googlebot обнаружил чрезвычайно большое количество URL-адресов на вашем сайте".

Дело в том, что он индексирует страницы с параметрами фильтров. Получается, что товаров около 3 тысяч, а страниц со всевозможными комбинациями параметров почти 3 миллиона. Поэтому я ломаю голову, как правильно настроить "Параметры URL" в WMT, чтобы сайт был правильно проиндексирован.

Сделал robots.txt, согласно рекомендациям на спецфорумах, где много чего запретил индексировать. Ситуация стала несколько выравниваться, но до правильной ей еще далеко:

Создал сайтмап. Не без бубна, но, вроде получилось. Из 3334 страниц проиндексировано 2745. Не идеально, но не совсем плохо.

А теперь я хочу понять, что делать с "Параметрами URL" В WMT. Вот так выглядит сейчас эта страница. Смотрю на нее и плачу. Я заблокировал сканирование страниц со всеми параметрами в адресе, кроме "р" - номера страницы в каталоге. Насколько это правильно? Или, может быть это совсем не правильно, а нужно сделать как-то по другому? В общем, как заставить робота проиндексировать все товарные страницы?

Через оператор site: в Гугле выяснил, что в индексе 8 тыс. страниц. Но из них только 435 в основном индексе. (не путать с соплями - не в соплях только 260 страниц) Остальные 7,5 тыс. не показывает. Подозреваю, что это страницы с параметрами фильтров.

Вообще, может быть проблема в том, что я одновременно пользуюсь тремя доступными инструментами - роботс, сайтмап и параметры УРЛ и робот не может в них разобраться?

Спасибо.

Grohotun
На сайте с 18.02.2009
Offline
53
#1

У вас чуть более 4200 товаров, по идее в индекс должны спокойно зайти процентов 70-80 товаров.

Вам нужно в robots.txt запретить лишнее, типа

Disallow: /review/

Disallow: /catalog/

Disallow: /customer/

Disallow: /catalogsearch/

Disallow: /*?p*

Disallow: /*php?*

погуглите еще варианты.

а 3 млн у вас было потому, что не везде используются rewrite при выводе урлов

типа

catalog/category/view/s/brendy/id/266/

это уже вопрос к горе-программистам

Waldteufel
На сайте с 22.01.2014
Offline
4
#2
Shrike:
Здравствуйте!

Я заблокировал сканирование страниц со всеми параметрами в адресе, кроме "р" - номера страницы в каталоге. Насколько это правильно? Или, может быть это совсем не правильно, а нужно сделать как-то по другому? В общем, как заставить робота проиндексировать все товарные страницы?

Лично я бы это обязательно тоже заблокировал. А то например

http://zoo-market.com.ua/sobaki/suhie-korma/povsednevnye-korma.html

http://zoo-market.com.ua/sobaki/suhie-korma/povsednevnye-korma.html?p=2

и так далее страницы имеют одинаковый тайл, дескрипшн и все остальное. И становятся неявными дублями друг друга. Согласитесь, это очень-очень для продвижения плохо.

Все карточки товаров гуглобот найдет через сайтмап, а страница каталога должна быть только одна - первая! :)

A
На сайте с 22.10.2013
Offline
38
#3

По теме. Первому вопросу. Там на сколько мне помниться Гугло спрашивает это сортирующие атрибуты или....ставьте сортирующие. Остальные пока не трогайте :)

По поводу дублей. У вас не закрыты страницы в roobots. Возьмите для начала на magentocommers robots турецкого происхождения, потом адаптируете под свой магазин. Если не найдёте могу сборостить в лс. Следующее. У вас очень длинные url. К том уже многие у вас заканчиваются Цифрами. это артикул? Код товара? вы сами добавляли или magento добавила?

alaev
На сайте с 18.11.2010
Offline
821
#4

Заодно рекомендую поработать с CSS и снести вот такие выделения текста:

<p style="text-align: justify;"><span style="color: #0000ff;"> ...... </span></p>
Создание и продвижение сайтов - https://alaev.net , аудиты сайтов, контекстная реклама
S
На сайте с 11.08.2006
Offline
97
#5
archeo:

По поводу дублей. У вас не закрыты страницы в roobots. Возьмите для начала на magentocommers robots турецкого происхождения, потом адаптируете под свой магазин. Если не найдёте могу сборостить в лс.

Роботс оттуда и взял. Вот его содержимое.

Насчет цифр в урлах - да, это артикулы. Так получилось, что они нам нужны в названии для корректной обработки заказов. А урл генерируется из названия.

Какова максимальная длина урла должна быть?

---------- Добавлено 04.06.2014 в 11:54 ----------

Waldteufel:
Лично я бы это обязательно тоже заблокировал. А то например
http://zoo-market.com.ua/sobaki/suhie-korma/povsednevnye-korma.html
http://zoo-market.com.ua/sobaki/suhie-korma/povsednevnye-korma.html?p=2
и так далее страницы имеют одинаковый тайл, дескрипшн и все остальное. И становятся неявными дублями друг друга. Согласитесь, это очень-очень для продвижения плохо.
Все карточки товаров гуглобот найдет через сайтмап, а страница каталога должна быть только одна - первая! :)

Да, о дублях я не подумал. Попробую заблокировать. Просто я никак не мог понять, как робот будет вылавливать страницы с товарами, если не пройдется по страницам с параметром p. Но если через сайтмап, то понятно.

Спасибо!

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий