От Я ответов больше не получал. Но проблему они мою решили. Несколько часов назад сайт был-таки проиндексирован и попал даже по некоторым важным для меня запросам в Top-10. Возможно, я был не прав. Возможно, DTD никак не связан с парсингом сайтов Яndex-ом.
Для тех, кто сталкивается с проблемами индексации: Добавил сайт в AddURL в начале декабря. Отписал в суппорт о проблеме по истечении 5 недель. Получил ответ через день, а решение проблемы - через две недели. Сомневаюсь, что можно получить результат по проблемам быстрее. Короче - терпение, и еще раз - терпение!
lika, не зарегестрирован в Y - AddURL
Да, строкой /? я запретил все динамические страницы. Имхо, но это очень верный способ! Если вас заботит как вы будет искаться, сделайте редиректы на кривые (динамические) URL'ы через mod_rewrite.
Можно бороться с этим так - добавьте строчку
Disallow: /?
в ваш /robots.txt - теперь даже если новый неизвестный бот схватит не ту ссылку и опубликует ее где-то, ничего страшного не случится. Когда Я и Р не глючат, они подчищают индекс согласно robots.txt - мной проверено :)
lika, А какя у ваз зона? У меня вот возникла проблема с зоной .com : Content-Language=ru, Content-Type=text/html; chrase=windows-1251, есть даты, сделал редирект с www.sd.site.com на sd.site.com. Но вот может в чем проблема - www.site.com не зарегистрирован еще пока, равно как и site.com - может все дело в этом... Хотя site.com и www.site.com существуют!
Согласно RFC 1738 [2.2 и 3.3] (http://www.zvon.org/tmRFC/RFC1738/Output/index.html) Вы правы - символ '$' хоть и специальный, но допустим в части PATH наряду с обычными! Но я бы поостерегся использовать его по двум причинам: во-первых, есть зависимость от того, как соблюдается стандарт, как SE интерпритируют эти специальные символы, а во-вторых, URL содержащий стоку 'index.php$' - не очень информативен и является словесным мусором с точки зрения SE, ведь URL - это самое лучшее место, куда следует пихать ключевики.
Это понятно, но ведь текст они получают с сервера обратившись по определенному URL. Я же написал о том, попадет этот URL в базу или нет - вопрос спорный.
А вместо mod_rewrite можно использовать и обычный redirect, если первый по каким-то соображениям включать напряг.
espada, совершенно точно известно, что глобальные поисковики (не те, что сидят на локальной машине провайдера) - индексируют не ФАЙЛЫ, а URL'ы! Т.е. анализируется правильность URL'а согласно RFC и содержимое HTTP-заголовка 'Content-Type'. Если возвращаемый тип документа поддерживается поисковиком - может проиндексироваться.
Но если робот написан так, что отбрасывает URL'ы, ошибочные с точки зрения RFC, может и не проиндексировать. ИМХО, ребята из Я стараются следовать стандартам, значит есть большая вероятность, что именно этот URL - не проиндексирует. На такой случай советую воспользоваться 301 редиректом на правильный URL через mod_rewrite.
Yaroslav_Adv, тогда тем более - DTD как раз частотой и рулит :)
Document Type Definision (DTD) - имхо - условно говоря язык, на котором написан документ. Или я не прав?
См. http://yandex.ru/info/webmaster2.html - Внимание! Тег NOINDEX не должен нарушать вложенность других тегов. Если указать следующую ошибочную конструкцию:
<NOINDEX>
…код1…
<TABLE><TR><TD>
…код2…
</NOINDEX>
…код3…
</TD></TR></TABLE>
запрет на индексирование будет включать не только «код1» и «код2», но и «код3».
Согласно стандартам SGML, правильнось вложенности определяется DTD!