Возможность поиска по отдельным секциям документа, включая тэги h1-h6 реализована в движках с открытым исходным кодом mnogosearch и dataparksearch уже много лет как, вот только поиск именно по этим тэгам как-то не используют, т.к. в тех же системах, "защищенных от поискового спама", правильно и очень продуктивно используют META.Description и META.Keywords и делают поиск по этим секциям.
Сжатие для text/plain убрано вообще, т.е. robots.txt не сжимается ни для кого, а безобразия продолжают нарушаться:
"A-Encoding:-" и "C-Encoding:-" означают, что сжатие при передаче не запрашивалось и контент уехал несжатым соответсвенно.
Это шалило кэширование в mod_proxy у Апача. Судя по всему оно так шалит в каждом стандартном апаче, - лишний повод прикрутить поддержку сжатого контента к боту, а то он у вас отсталый какой-то, - большинсво ботов уже поддерживают эту фичу.
Добавка: валидатор http://tool.motoricerca.info/robots-checker.phtml проблем со сжатием не находит, ровно как и robots.txt analysis в Google sitemaps (последняя проверка September 25, 2006 11:09:21 AM PDT). Выходит, всё-таки дело именно в вашем боте.
Советую почитать RFC2616 (спецификация HTTP/1.1) про Content Encoding.
При использовании сжатия контента, значение Content-Type, то, что вы назвали text-plain, не изменяется, добавляется только заголовок Content-Encoding с указанием метода сжатия, и, самое главное, сжатие при передаче включается только, если клиент сообщит серверу о поддержке этой фичи, т.е. если ваш бот не поддерживает сжатие контента, не посылайте в вашем запросе заголовок Accept-Encoding !
Для вас есть скриншот того, что вам поисковик показывал вчера:
Вы думаете таких страниц одна штука ?
Эти страницы в принципе не должны были индексироваться, никак.
Всё-таки не всё ладно с интерпретацией robots.txt:
Запись
Disallow: /cgi-bin/search
присутствует в robots.txt уже не один год, однако такой запрос:
http://www.yandex.ru/yandsearch?text=43n39e
в данный момент на четвёрной позиции показывает ссылку:
http://sochi.org.ru/cgi-bin/search.cgi?c=01&m=near&np=7&ps=10&q=%D7%C1%D4%C5%D2%CC%CF%CF&s=IRPD&sp=1&sy=0&tmplt=search.htm.ru&wf=33F37F73
А она прямо запрещена к индексированию согласно стандарту robots.txt
😕
Т.е. попросту говоря принцип "у тебя рожа кривая"... Такой себе обыкновенный поисковый фашизм 😂
Непонятно только, на кой Яндекс лимон на гранты выплатил исследователям поисковых технологий, если теперь такие проблемы с индексацией, что нужно пол-рунета вручную банить....
Риторический вопрос: а Яндекс уже забанил yandex.ru за каталог сайтов на этом домене ?