На яндексе много машин и какие-то адреса могут быть случайно снаружи видны. Кто-то (наверное из Яндекса) зашел на эту машину и поискал. Например, проверял как работает. Вот, собственно и все. hq.cti.ru это наш старый корневой домен.
Илья
Яндекс
Производится морфологический разбор, небольшой по-документный статистический аннлиз.
Вообще, анализ корпуса текстов и построение индекса производится у нас со скоростью 10-25 мегабайт в минуту. Делать медленней - означает тормозить робота.
Транслитерированных текстов в рунете - колоссальное количество. Практически каждый Апач им. Тутубалина по порту 808x швырят какой-нибудь доморощенный транслит.
"Разтранслитерация" у нас есть, и даже довольно быстрая, но делать ее "риал-тайм" при индексировании - это бредовая идея. Тем более, что многие люди ищут слова именно набранные латиницей.
Орфографические ошибки не исправляются. Гипотезы о новом словообразвании не строятся. А зачем?
Илья Сегалович,
Я всего лишь не хотел заниматься саморекламой.
Думаю, что в России не меньше сотни работающих и живых колективовов лингвистов. Из них, как минимум, половина со словарями русского языка.
В каталоге Веры Семеновой (Флер) (последняя версия здесь: http://schools.keldysh.ru/uvk1838/Sciper/catalog.htm ) почти все перечислены.
Там информация примерно годовой-полуторагодовой давности.
Однако, загляните в свои логи. И найдите роботов, которые читают Ваши css-файлы. Если найдете, дайте знать
Спасибо за вопрос. Я могу только процитировать свой же ответ на нашем форуме буквально пару дней назад, на ту же самую тему.
http://forum.yandex.ru/index.xhtml?pr=&id_note_forum=16996&by_count_days=10&cur_page=1&by_count_page=10#forum
Спасибо большое за интерес к работе Яндекса. Вы абсолютно правы, _НЕ_ _ВСЕ_
спамовые приемы из тех, что там применяются, мы отлавливаем и подавляем.
Самое главное - механизм подавления спама в яндексе до сих пор не был
абсолютным, то есть Яндекс не удаляет страницы за спам напрочь - просто
понижает им релевантность. Очевидно, это не всегда срабатывает хорошо.
Мы планируем серьезено этим заняться в ближайшее время
Яндекс не индексирует stylesheets. Он их старательно игнорирует.
Рекомендации не набирать текст вразрядку или большими буквами, а использовать вместо этого stylesheets, станут понятны, если вы задумаетесь над тем, что такое компьютерный текст, вообще, и формат HTML, в частности.
Если вы напишете (фигурные скобки я использую вместо круглых, потому что не знаю как работает этот форум )
{span style="font-spacing:3pt"}Green Kakadu
{/span}
То яндекс увидит два слова: Green и Kakadu.
Если вы напишете
{span}G r e e n K a k a d u{/span}
То яндекс увидит 11 слов. Исключительно бессмысленных и вовсе не тех, что вы ожидали.
При этом внешне тексты на экране отличаться не будут.
То же самое относится к словам, набранным "для выразительности" большими буквами - в интонации "печатного крика".
Эта рекомендация родилась после наблюдения за работами Тёмы Лебедева. Во всех созданных им сайтах заголовки набирались в разрядку. И набираются так, по-моему, до сих пор. Это говорит о том, что люди которые сами пишут ру/ководства, чужие обычно не читают.
Индекс упал у всех с 30 сентября. Мы подробно это объясняем здесь:
http://www.yandex.ru/info/ci.html
По поводу индексации - напишите письмо на addurl@yandex.ru - там будут разбираться.
Из индекса цитирования он исключен, так же как и многие другие накрутчики индекса.
Яндекс.
Не стоило поьзоваться услугами 1PS.RU
Яндекс против искусственных накруток любых индексов во всех их проявлениях. Поправьте меня, если я ошибаюсь