A.Perez,
Для проверки качества контента -
http://validator.w3.org/check?uri=http%3A%2F%2Ffanunics.ru%2F
Для проверки работоспособности ссылок -
http://validator.w3.org/checklink?uri=http%3A%2F%2Ffanunics.ru%2F&hide_type=all&recursive=on&depth=&check=Check
Удачи!
#> telnet fanunics.ru 80
Trying 212.176.41.2...
Connected to fanunics.ru.
Escape character is '^]'.
HEAD / HTTP/1.1
Host: fanunics.ru
Connection: close
Accept: */*
Accept-Language: ru
Accept-Encoding: deflate, gzip
User-Agent: Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0)
HTTP/1.1 200 OK
Date: Wed, 18 Jan 2006 15:03:27 GMT
Server: Apache/1.3.27 (Unix) PHP/4.3.3 mod_perl/1.27 rus/PL30.16
X-Powered-By: PHP/4.3.3
Content-Type: text/html
Нет кодировки! Нет даты последней модификации документа! Контент делайте ручками или оптимизируйте хотя бы - FrontPage не рулит :) На добавление в индексную базу это все не влияет - только на релевантность!
К сожалению, как раз сейчас у меня под рукой нет последней версии исходника парсера Яндекса :) Посему, немогу точно сказать, как он анализирует контент, какой диалект языка HTML устанавливает by default!
Я просто предположил (возможно - ошибочно!), что если роботу сообщается язык и, может быть даже, местоположение DTD, что анализ контента и мета-тегов осуществляется с использованием четко регламентированного стандарта.
Признаю, очень большая вероятность того, что все вы правы - имеется! Посмотрим, что ответит Я, ведь наличие проблемы они уже признали и пообещали разобраться.
Если сходите по этой ссылке, увидите, какой DTD правильный для XHTML 1.0 Tr... Зеленым цветом выделена как раз ссылка на DTD, что говорит о том, что это стало предметом изменения второй редакции стандарта XHTML 1.0 - в первой редакции ссылка на DTD была другой! Как раз имелось ввиду, что эта неверная ссылка на DTD ("http://www.w3.org/1999/xhtml/DTD/xhtml1-transitional.dtd" или "http://www.w3.org/TR/xhtml1/DTD/xhtml-transitional.dtd") до конца 2005 поддерживалась, но в январе 2006 - перестала существовать. Второй вариант у меня выдавал 404 ошибку несколько дней назад, а в начале декабря - все было нормально. Первый вариант сейчас выдает HTTP 300 Multiple Choices после долгого ожидания, что наводит на мысль!
Примерно с начала-середины декабря 2005 новые сайты действительно не индексируюятся. Исправил со своей стороны все, что только можно! Связался с сапортами, сказали, что работают над этим. Со старыми проектами подобных проблем не наблюдаю. Ошибку выдает ту же, что уже обсуждалась на этом форуме в апреле 2004 (тема была закрыта).
Проблема не только с Я - Р индексирует почему-то только первую страницу, но дальше не идет. С ними пока не связывался...
Это банально, но: напишите без ошибок, будте предельно вежливы и как можно короче, в первом абзаце сообщите главную суть. Затем, подчеркните, почему важен Ваш сайт для Рунета и, наконец, укажите, какие меры уже предприняли, скажите, что выполнили все рекомендации, указанные на их сайте. Если Вы их выполнили, разумеется :)
имхо, достаточно в /robots.txt добавить строчку:
Disallow: /?
- все динамичиские ("кривые") адреса будут автоматически удалены при очередной переиндексации. Уверяю, когда я так сделал на своем сайте, решилась и проблема большого числа страниц, и страниц-дубликатов, и даже случайно (ошибочно) проиндексированных страниц. Вопрос времени - ждите!..
Это поможет ? :)
<?php
// Параметры поисковой системы Яndex
private static function &get_yandex_params()
{
return array (
'title' => 'Поисковая система Яndex',
'networks' => array (
// [?] 213.180.192.0 - 213.180.223.255 -- Сеть RU-YANDEX-20000413
// состоящая, в свою очередь, из следующих небольших под-сетей:
// ------------------------------------------------------------
// [+] 213.180.192.0 - 213.180.193.255 -- COMPTEK-NET1
// [+] 213.180.194.0 - 213.180.195.255 -- COMPTEK-NET2
// [-] 213.180.196.0 - 213.180.197.255 -- COMPTEK-NET3
// [+] 213.180.198.0 - 213.180.198.255 -- YANDEX-198
// [-] 213.180.199.0 - 213.180.199.255 -- YANDEX-199
// [-] 213.180.200.0 - 213.180.200.255 -- YANDEX-200
// [-] 213.180.201.0 - 213.180.201.15 -- YANDEX-200-1
// [-] 213.180.201.20 - 213.180.201.23 -- YANDEX-201-20 (downlink to Comptek)
// [-] 213.180.201.32 - 213.180.201.63 -- YANDEX-201-32
// [-] 213.180.201.112 - 213.180.201.127 -- YANDEX-SLB-BBONE
// [-] 213.180.201.128 - 213.180.201.255 -- YANDEX-SALES-2 (офис продаж)
// [-] 213.180.202.0 - 213.180.202.63 -- YANDEX-NOC-0
// [-] 213.180.202.64 - 213.180.202.127 -- YANDEX-CORP
// [-] 213.180.202.128 - 213.180.202.159 -- YANDEX-MTECH
// [-] 213.180.202.160 - 213.180.202.175 -- YANDEX-202-160
// [-] 213.180.202.176 - 213.180.202.191 -- YANDEX-IT-LAB
// [-] 213.180.203.0 - 213.180.203.15 -- YANDEX-GRANTS
// [-] 213.180.203.64 - 213.180.203.227 -- YANDEX-203-64
// [-] 213.180.204.0 - 213.180.204.31 -- YANDEX-204-0
// [-] 213.180.204.32 - 213.180.204.255 -- YANDEX-204-32
// [-] 213.180.204.32 - 213.180.204.63 -- YANDEX-FRONTS-S-32
// [-] 213.180.205.0 - 213.180.205.15 -- YANDEX-205-S
// [-] 213.180.205.16 - 213.180.205.31 -- YANDEX-205-1-S
// [-] 213.180.205.32 - 213.180.205.255 -- YANDEX-205-32
// [+] 213.180.206.0 - 213.180.207.255 -- YANDEX-BIGSEARCH2
// [-] 213.180.208.0 - 213.180.208.255 -- YANDEX-PUB-VS (public virtual servers)
// [+] 213.180.209.0 - 213.180.209.255 -- YANDEX-209
// [+] 213.180.210.0 - 213.180.210.15 -- YANDEX-210-0
// [-] 213.180.210.16 - 213.180.210.23 -- YANDEX-210-16
// [-] 213.180.210.24 - 213.180.210.31 -- YANDEX-ZOO
// [-] 213.180.210.32 - 213.180.210.63 -- YANDEX-210-32
// [-] 213.180.210.64 - 213.180.210.95 -- YANDEX-210-64
// [-] 213.180.210.96 - 213.180.210.111 -- YANDEX-210-96
// [-] 213.180.210.112 - 213.180.210.127 -- YANDEX-210-112
// [-] 213.180.210.128 - 213.180.210.255 -- YANDEX-CORE-210
// [-] 213.180.211.0 - 213.180.211.127 -- YANDEX-SUPPORT-V
// [-] 213.180.211.128 - 213.180.211.255 -- YANDEX-SUPPORT-PV
// [-] 213.180.212.0 - 213.180.212.127 -- CTI-IPSOFT
// [-] 213.180.213.0 - 213.180.213.31 -- COMPTEK-GUESTS
// [-] 213.180.213.32 - 213.180.213.39 -- CTI-LAB-V
// [-] 213.180.213.40 - 213.180.213.47 -- CTI-LAB-V
// [-] 213.180.213.48 - 213.180.213.63 -- CTI-LAB-V
// [-] 213.180.213.64 - 213.180.213.127 -- COMPTEK-R
// [-] 213.180.213.128 - 213.180.213.159 -- COMPTEK-VPN2
// [-] 213.180.214.0 - 213.180.214.63 -- YANDEX-BS
// [-] 213.180.214.64 - 213.180.214.95 -- YANDEX-214-64
// [-] 213.180.214.128 - 213.180.214.255 -- YANDEX-214-128
// [-] 213.180.215.0 - 213.180.215.255 -- YANDEX-LX
// [+] 213.180.216.0 - 213.180.217.255 -- YANDEX-216 (Yandex search engine)
// [-] 213.180.218.0 - 213.180.218.255 -- YANDEX-218
// [-] 213.180.219.0 - 213.180.219.127 -- YANDEX-219-0
// [-] 213.180.221.0 - 213.180.221.255 -- YANDEX-221
// [-] 213.180.222.0 - 213.180.222.31 -- YANDEX-222-0
// [-] 213.180.222.32 - 213.180.222.63 -- YANDEX-222-32
// [-] 213.180.222.64 - 213.180.222.127 -- YANDEX-222-64
// [-] 213.180.222.128 - 213.180.222.143 -- YANDEX-222-128
// [-] 213.180.222.144 - 213.180.222.159 -- YANDEX-222-144
// [-] 213.180.222.160 - 213.180.222.191 -- YANDEX-222-160
// [-] 213.180.222.192 - 213.180.222.255 -- YANDEX-222-192
// [-] 213.180.223.0 - 213.180.223.255 -- YANDEX-223
//
3585392640, 3585393663, // 213.180.192.0-213.180.193.255 -- COMPTEK-NET1, COMPTEK-NET2
3585394176, 3585394431, // 213.180.198.0-213.180.198.255 -- YANDEX-198
3585396224, 3585396735, // 213.180.206.0-213.180.207.255 -- YANDEX-BIGSEARCH2
3585396992, 3585397263, // 213.180.209.0-213.180.209.255 -- YANDEX-209, YANDEX-210-0
3585398784, 3585399295 // 213.180.216.0-213.180.217.255 -- YANDEX-216 (Yandex search engine)
),
'agents' => array (
// Основной индексирующий робот. Посещает сайт примерно один раз в месяц, забирая не более 500
// страниц с кодом ответа '200 OK' за одно посещение. Для остальных кодов ответа ограничений нет.
// По моим данным эта информация пока еще не проверена, следует быть с ней внимательнее и проверить ее!
'Yandex/1.01.001 (compatible; Win16; I)' => 'text',
// Индексатор картинок. Запрашивает только файлы картинок.
// Для своей работы использует результаты работы предыдущего робота.
'Yandex/1.01.001 (compatible; Win16; P)' => 'image',
// Робот, определяющий зеркала сайтов. Не регулярно посещает страницы сайта, которые подозревает
// на предмет дублирования информации. Изредка посещает уже 'склеенные' страницы для проверки на
// предмет убирания дублирования. Если главные страницы двух сайтов признаются дублями, с большой
// долей вероятности робот считает все страницы сайта дублями, что не всегда верно.
'Yandex/1.01.001 (compatible; Win16; H)' => 'host',
// Робот, обращающийся к страничке при добавлении ее через форму «Добавить URL». Ходит только по
// команде человека (при сабмите формы «Добавить URL»). Каждый вносимый адрес почему-то посещает дважды.
// Иногда представляется как AddUrl или Addurl/2.0.
'Yandex/1.03.003 (compatible; Win16; D)' => 'check',
'Addurl/2.0' => 'check',
'Addurl' => 'check',
// Робот, обращающийся при открытии страницы по ссылке «Найденные слова». Заходит на страницы сайта
// асинхронно каждый раз, как человек в результатах поиска нажмет ссылку 'показать найденные слова'
// напротив адреса этой страницы.
'Yandex/1.03.000 (compatible; Win16; M)' => 'check',
// Агент-«простукивалка» Яндекс.Каталога. Если сайт недоступен в течение нескольких дней, он
// снимается с публикации. Как только сайт начинает отвечать, он автоматически появляется в Каталоге.
'Yandex/2.01.000 (compatible; Win16; Dyatel; C)' => 'check',
// Агент-«простукивалка» Яндекс.Закладок. Ссылки на недоступные сайты помечаются серым цветом.
'Yandex/2.01.000 (compatible; Win 16; Dyatel; Z)' => 'check',
// Агент-«простукивалка» Яндекс.Директа. Он проверяет корректность ссылок из объявлений
// перед модерацией. Никаких автоматических действий не предпринимается.
'Yandex/2.01.000 (compatible; Win 16; Dyatel; D)' => 'check',
// Агент-«простукивалка» Яндекс.Новостей. Он формирует отчет для контент-менеджера,
// который оценивает масштаб проблем и, при необходимости, связывается с партнером.
'Yandex/2.01.000 (compatible; Win16; Dyatel; N)' =>'check',
// Пока - не ясно, что это за робот. В моих логах еще не встречался, я его не проверял.
'YandexBlog/0.99.101 (compatible; DOS3.30,B)' => 'news',
// Возможно - робот, прверяющий нарушения, но, скорее всего - предшественник одного из агентов-«простукивалок»
'Bond, James Bond (version 0.07)' => 'check'
'dothost' => true,
'hosts' => '/^[a-z0-9]+\\.yandex\\.ru$/',
'alert_agents' => '/(yandex|addurl)/i',
'alert_hosts' => '/yandex/i'
);
}
?>