В голове крутится, что Яндекс не считает, но где причитал - хоть убей не вспомню.
Поскольку Яндекс оценивает страницу, а не заметку, то... сколько угодно.
22 символа - текст заметки с пробелами.
http://vodka.kiev.ua/vodka-and-feast/buxariki/buxarik-107/
гугля: http://www.google.com.ua/search?gcx=c&sourceid=chrome&ie=UTF-8&q=%D0%B1%D1%83%D1%85%D0%B0%D1%80%D0%B8%D0%BA+107
яндекс: http://yandex.ua/yandsearch?clid=46511&text=%D0%B1%D1%83%D1%85%D0%B0%D1%80%D0%B8%D0%BA+107&rdrnd=841812&lr=143
Ерунду пишешь. Нормальный роботс и теги вылетят из индекса аж бегом.
User-agent: *
Disallow: /author/
Disallow: /category/
Disallow: /tag/
вот еще момент, вытянул страницы типа
http://vodka.kiev.ua/vodka-in-news/reference/staropramen/?replytocom=1902
у которой прописано
<meta name='robots' content='noindex,nofollow' />
т.е. прога эту директиву игнорирует (в том числе в архивах вида /2011/02)
Если WP, то есть плагины, всякие «404 мониторы».
Это был сарказм. Почему-то многие считают уник панацеей и думают что рерайт - это и просто, и уник.
p.s. вот легкий пример "украинские традиции". Рерайт: традиции жителей Украины (а как же Канада?); традиции украинцев (национальность? А как же русские в Украине?)... контекст решает, но сколько людей об этом задумываются?
Да потому, что это файлы/каталоги разные. Вы же не удивляетесь, что регистр в пароле важен? Это вам так повезло, что ваш сервер считает их одинаковыми.
Общее замечание - ноиндексом правильно пользоваться так:
<!--noindex-->не индексируемый текст<!--/noindex-->
Что значит странно? Он же дает прямые ссылки на все страницы, где видел куски проверяемого текста. Проверьте, нет ли там страниц того сайта, текст с которого вы проверяете. Если есть - исключите.
Что значит сканируются если в robots.txt в явном виде сказано выбросить из поиска эти адреса?
Флешевая - полная ересь и с точки зрения юзабилити, и с точки зрения внешнего вида.