Форум Практика оптимизации Частные вопросы - ранжирование, индексация, бан

Страницы "Разрешено"(анализатор robots) не попадают в индекс "запрещено в robots txt"

Pashtet1981

27 апреля 2013, 07:39

746

Добрый день.

Вчера обновилась БД яндекса по нашему сайту - вырезало пол сайта(точнее процентов 80).

Страницы не попавшие в индекс имеют статус "Разрешено" при проверке через анализатор robots.txt Яндекса, но в исключенных страницах они в разделе "Документ запрещен в файле robots.txt"

В гугле(через гуглВебМастер) аналогичная картина(тоже всё пообрезало) и то же обрезанные страницы проходят анализатор.

Уже ничего не понимаю, хоть криком ори :confused: файлы разрешены, но они запрещены :eek:

Но похоже всё же на явную ошибку где-то в robots.txt (не могут же оба поисковика выдать похожую индексацию)

Подскажите пожалуйста по роботс.txt

Есть код robots.txt (код полностью, приведён для яндекса, у гугла и "*" аналогично кроме названия робота)

User-agent: Yandex

Allow: /

Disallow: /shop

Allow: /shop/cathouse/fer

Allow: /shop/cathouse/covrolin

Allow: /shop/cathouse/cathouse_special

Allow: /shop/cathouse/nails

Allow: /shop/cathouse/workeskiz

Allow: /shop/cathouse/abouthouse

Allow: /shop/cathouse/zakazidostavka

Allow: /shop/clock

Allow: /shop/mirrors/abstractn

Allow: /shop/mirrors/animals

Allow: /shop/mirrors/peopples

Allow: /shop/mirrors/mirror_special

Allow: /shop/$

Allow: /shop/image/cache/data

Disallow: /main/naruzhka/*$

Disallow: /main/domik

Disallow: /main/clock

Disallow: /ofset.html

Disallow: /sign.xls

Disallow: /links35p.html

Тут даже не то, что мелкие страницы выбросило, но даже те, которые явно должны индексироваться, к примеру

http://www.rus-cards.ru/shop/

http://www.rus-cards.ru/shop/cathouse/fer

http://www.rus-cards.ru/shop/cathouse/covrolin

Вообще в первых рядах и они же разрешены, ёлки-палки, почему они зарезались?

Мелочевка тоже вся обрезалась:

http://www.rus-cards.ru/shop/cathouse/abouthouse/compleks1live

http://www.rus-cards.ru/shop/cathouse/abouthouse/shebekino

http://www.rus-cards.ru/shop/cathouse/covrolin/katapultacolor

Причём все эти страницы имеют статус "Разрешено" при проверке через анализатор!

Для чего всё затевалось - есть поиск(по ряду причин его нельзя убрать из кода) который в индекс двух поисковиков попадает так:

http://www.rus-cards.ru/shop/23g?filter_tag=%D0%B0%D1%80%D1%82%D0%B8%D0%BA%D1%83%D0%BB%2028

Т.е. у нас начало пути

shop/cathouse/fer

shop/cathouse/covrolin и прочие

совпадают, поэтому я в роботе решил запретить всё, кроме страниц начинающихся на то, что в коде allow, но почему-то получилась какая-то фигня.

Подскажите пожалуйста, где в коде ошибка?

Заранее огромное спасибо.

---------- Добавлено 27.04.2013 в 12:59 ----------

Кстати, сейчас ещё раз(в 100500 раз) перечитываю правила написания роботс.тхт - можно ли как-либо указать в файле, что бы обойти страницы вида

http://www.rus-cards.ru/shop/23g?filter_tag=%D0%B0%D1%80%D1%82%D0%B8%D0%BA%D1%83%D0%BB%2028

как-то иначе, чем в топике?

Т.е. нужно обойти страницы, в адресе которых содержится выражение filter_tag=

-Добавлено в 13:16-

Похоже разобрался.

В общем я [САМОЦЕНЗУРА], если не ошибся, то написание должно выглядеть так:


User-agent: Yandex

Allow: /

Disallow: /*filter_tag=*

тем самым мы отсечём "левый" поиск, от которого куча "левых" страниц в индексе

Но вопрос - почему в анализаторе страница попадает в индекс, а после индексации и обновления баз попадает в запрещённые в роботс.тхт остается открыт, как же тогда проверить правильность написания, если по факту получим совсем другое?

Open AI тестирует память для ChatGPT

Все что нужно знать о DDоS-атаках грамотному менеджеру

Страницы "Разрешено"(анализатор robots) не попадают в индекс "запрещено в robots txt"