Maxime

Рейтинг
65
Регистрация
29.03.2003

Возможность поиска по отдельным секциям документа, включая тэги h1-h6 реализована в движках с открытым исходным кодом mnogosearch и dataparksearch уже много лет как, вот только поиск именно по этим тэгам как-то не используют, т.к. в тех же системах, "защищенных от поискового спама", правильно и очень продуктивно используют META.Description и META.Keywords и делают поиск по этим секциям.

Сжатие для text/plain убрано вообще, т.е. robots.txt не сжимается ни для кого, а безобразия продолжают нарушаться:


213.180.217.218 - - [29/Sep/2006:17:21:56 +0400] "GET /robots.txt HTTP/1.1" 200 3377 "Yandex/1.01.001 (compatible; Win16; H)" "A-Encoding:-" "C-Encoding:-"

213.180.206.248 - - [29/Sep/2006:18:07:10 +0400] "GET /robots.txt HTTP/1.1" 200 3377 "Yandex/1.01.001 (compatible; Win16; I)" "A-Encoding:-" "C-Encoding:-"

213.180.214.133 - - [29/Sep/2006:19:05:25 +0400] "GET /cgi-bin/search.cgi.ru?q=%D0%A1%D0%BE%D1%87%D0%B8&m=near&sp=1&sy=0&s=DRP&tmplt=rss.htm.ru HTTP/1.1" 200 27164 "YandexBlog/0.99.101 (compatible; DOS3.30; Mozilla/5.0; B; robot) 0 readers" "A-Encoding:-" "C-Encoding:-"

"A-Encoding:-" и "C-Encoding:-" означают, что сжатие при передаче не запрашивалось и контент уехал несжатым соответсвенно.

Это шалило кэширование в mod_proxy у Апача. Судя по всему оно так шалит в каждом стандартном апаче, - лишний повод прикрутить поддержку сжатого контента к боту, а то он у вас отсталый какой-то, - большинсво ботов уже поддерживают эту фичу.

Добавка: валидатор http://tool.motoricerca.info/robots-checker.phtml проблем со сжатием не находит, ровно как и robots.txt analysis в Google sitemaps (последняя проверка September 25, 2006 11:09:21 AM PDT). Выходит, всё-таки дело именно в вашем боте.

BigBrother:
Разобрался.

Максим, советую почитать про настройки сервера - у вас robots.txt отдается как text-plain, и при этом спокойно так пакуется gzip. То, что получается мы интерпретируем как пустой файл.

Отключайте паковку....

Советую почитать RFC2616 (спецификация HTTP/1.1) про Content Encoding.

При использовании сжатия контента, значение Content-Type, то, что вы назвали text-plain, не изменяется, добавляется только заголовок Content-Encoding с указанием метода сжатия, и, самое главное, сжатие при передаче включается только, если клиент сообщит серверу о поддержке этой фичи, т.е. если ваш бот не поддерживает сжатие контента, не посылайте в вашем запросе заголовок Accept-Encoding !

Gray:
Указанной странице в выдаче не наблюдается, зато есть http://sochi.net.ru/cgi-bin/ht2/ht2-cgi.cgi?=se$TRIPP_LITE_BUG с указанием "Найден по ссылке". Вполне понятная ситуация - никто ее не индексировал, что не мешает ее находить.

Для вас есть скриншот того, что вам поисковик показывал вчера:

Megavolt:
попробуйте удалить эту страницу
удаляет только если роботсом запрещена, ведь так?

Вы думаете таких страниц одна штука ?

Эти страницы в принципе не должны были индексироваться, никак.

Всё-таки не всё ладно с интерпретацией robots.txt:

Запись

Disallow: /cgi-bin/search

присутствует в robots.txt уже не один год, однако такой запрос:

http://www.yandex.ru/yandsearch?text=43n39e

в данный момент на четвёрной позиции показывает ссылку:

http://sochi.org.ru/cgi-bin/search.cgi?c=01&m=near&np=7&ps=10&q=%D7%C1%D4%C5%D2%CC%CF%CF&s=IRPD&sp=1&sy=0&tmplt=search.htm.ru&wf=33F37F73

А она прямо запрещена к индексированию согласно стандарту robots.txt

😕

The WishMaster:
А зачем хрень спрашивать? Ведь банят каталоги не за то, что они каталоги (почему-то большинство так и думает), а за то, что они в большинстве своем являются ПОМОЙКАМИ (то есть, не соблюдается тематика разделов, описания состоят из ключевиков, для каждого сайта своя страница, на которой тоже ключевики и т. п.)

Т.е. попросту говоря принцип "у тебя рожа кривая"... Такой себе обыкновенный поисковый фашизм 😂

Непонятно только, на кой Яндекс лимон на гранты выплатил исследователям поисковых технологий, если теперь такие проблемы с индексацией, что нужно пол-рунета вручную банить....

Exotic Fruit:
Дело не в каких-то методах по раскрутке каталогов из-за которых они банятся, а во всей концепции существования каталогов.

Риторический вопрос: а Яндекс уже забанил yandex.ru за каталог сайтов на этом домене ?

Всего: 237