iseg

Рейтинг
80
Регистрация
15.12.2000
Должность
Search Engine Department Manager, Yandex
Интересы
Search Engine Development

<font face="Verdana" size="2">Originally posted by Gray:
Наткнулся в статистике на приход на сайт со странного адреса - http://yweb.hq.cti.ru/
Решил посмотреть, что это за сайт и увидел копию Яндекса. Кто знает, что это такое? Еще один адрес?
</font>

На яндексе много машин и какие-то адреса могут быть случайно снаружи видны. Кто-то (наверное из Яндекса) зашел на эту машину и поискал. Например, проверял как работает. Вот, собственно и все. hq.cti.ru это наш старый корневой домен.

Илья

Яндекс

<font face="Verdana" size="2">Originally posted by Dim:
4)Какие методы задействованы в Яndex при анализе корпуса текста? Производится ли анализ на предмет орфографических ошибок, ошибок транслитерации... Обрабатываются гипотезы о новом словообразовании?</font>

Производится морфологический разбор, небольшой по-документный статистический аннлиз.

Вообще, анализ корпуса текстов и построение индекса производится у нас со скоростью 10-25 мегабайт в минуту. Делать медленней - означает тормозить робота.

Транслитерированных текстов в рунете - колоссальное количество. Практически каждый Апач им. Тутубалина по порту 808x швырят какой-нибудь доморощенный транслит.

"Разтранслитерация" у нас есть, и даже довольно быстрая, но делать ее "риал-тайм" при индексировании - это бредовая идея. Тем более, что многие люди ищут слова именно набранные латиницей.

Орфографические ошибки не исправляются. Гипотезы о новом словообразвании не строятся. А зачем?

Илья Сегалович,

Яндекс

<font face="Verdana" size="2">Originally posted by Dim:
4)Какие методы задействованы в Яndex при анализе корпуса текста? Производится ли анализ на предмет орфографических ошибок, ошибок транслитерации... Обрабатываются гипотезы о новом словообразовании?</font>

Производится морфологический разбор, небольшой по-документный статистический аннлиз.

Вообще, анализ корпуса текстов и построение индекса производится у нас со скоростью 10-25 мегабайт в минуту. Делать медленней - означает тормозить робота.

Транслитерированных текстов в рунете - колоссальное количество. Практически каждый Апач им. Тутубалина по порту 808x швырят какой-нибудь доморощенный транслит.

"Разтранслитерация" у нас есть, и даже довольно быстрая, но делать ее "риал-тайм" при индексировании - это бредовая идея. Тем более, что многие люди ищут слова именно набранные латиницей.

Орфографические ошибки не исправляются. Гипотезы о новом словообразвании не строятся. А зачем?

Илья Сегалович,

Яндекс

<font face="Verdana" size="2">Originally posted by Gray:
Илья, на форуме не приветствуется реклама, не относящаяся к вопросу. Точнее, от чего я хочу обезопасить форум - от заявлений "посмотри все на моем на сайте". Поэтому вы можете помещать здесь ссылки, я уверен, что они никому не помешают.</font>

Я всего лишь не хотел заниматься саморекламой.

Думаю, что в России не меньше сотни работающих и живых колективовов лингвистов. Из них, как минимум, половина со словарями русского языка.

В каталоге Веры Семеновой (Флер) (последняя версия здесь: http://schools.keldysh.ru/uvk1838/Sciper/catalog.htm ) почти все перечислены.

Там информация примерно годовой-полуторагодовой давности.

Илья Сегалович,

Яндекс

<font face="Verdana" size="2">Originally posted by Gray:
Илья, на форуме не приветствуется реклама, не относящаяся к вопросу. Точнее, от чего я хочу обезопасить форум - от заявлений "посмотри все на моем на сайте". Поэтому вы можете помещать здесь ссылки, я уверен, что они никому не помешают.</font>

Я всего лишь не хотел заниматься саморекламой.

Думаю, что в России не меньше сотни работающих и живых колективовов лингвистов. Из них, как минимум, половина со словарями русского языка.

В каталоге Веры Семеновой (Флер) (последняя версия здесь: http://schools.keldysh.ru/uvk1838/Sciper/catalog.htm ) почти все перечислены.

Там информация примерно годовой-полуторагодовой давности.

Илья Сегалович,

Яндекс

Однако, загляните в свои логи. И найдите роботов, которые читают Ваши css-файлы. Если найдете, дайте знать

Илья

<font face="Verdana" size="2">Originally posted by AiK:
Илья и Игорь, вопрос собственно к вам.

Планируют ли ваши поисковики бороться со спамом?

С уважением,
Артём.
[This message has been edited by AiK (edited 06-02-2001).]
</font>

Спасибо за вопрос. Я могу только процитировать свой же ответ на нашем форуме буквально пару дней назад, на ту же самую тему.

http://forum.yandex.ru/index.xhtml?pr=&id_note_forum=16996&by_count_days=10&cur_page=1&by_count_page=10#forum

Спасибо большое за интерес к работе Яндекса. Вы абсолютно правы, _НЕ_ _ВСЕ_

спамовые приемы из тех, что там применяются, мы отлавливаем и подавляем.

Самое главное - механизм подавления спама в яндексе до сих пор не был

абсолютным, то есть Яндекс не удаляет страницы за спам напрочь - просто

понижает им релевантность. Очевидно, это не всегда срабатывает хорошо.

Мы планируем серьезено этим заняться в ближайшее время

Илья Сегалович,

Яндекс

Яндекс не индексирует stylesheets. Он их старательно игнорирует.

Рекомендации не набирать текст вразрядку или большими буквами, а использовать вместо этого stylesheets, станут понятны, если вы задумаетесь над тем, что такое компьютерный текст, вообще, и формат HTML, в частности.

Если вы напишете (фигурные скобки я использую вместо круглых, потому что не знаю как работает этот форум )

{span style="font-spacing:3pt"}Green Kakadu

{/span}

То яндекс увидит два слова: Green и Kakadu.

Если вы напишете

{span}G r e e n K a k a d u{/span}

То яндекс увидит 11 слов. Исключительно бессмысленных и вовсе не тех, что вы ожидали.

При этом внешне тексты на экране отличаться не будут.

То же самое относится к словам, набранным "для выразительности" большими буквами - в интонации "печатного крика".

Эта рекомендация родилась после наблюдения за работами Тёмы Лебедева. Во всех созданных им сайтах заголовки набирались в разрядку. И набираются так, по-моему, до сих пор. Это говорит о том, что люди которые сами пишут ру/ководства, чужие обычно не читают.

Илья Сегалович,

Яндекс

Индекс упал у всех с 30 сентября. Мы подробно это объясняем здесь:

http://www.yandex.ru/info/ci.html

По поводу индексации - напишите письмо на addurl@yandex.ru - там будут разбираться.

Из индекса цитирования он исключен, так же как и многие другие накрутчики индекса.

Илья Сегалович,

Яндекс.

Не стоило поьзоваться услугами 1PS.RU

Яндекс против искусственных накруток любых индексов во всех их проявлениях. Поправьте меня, если я ошибаюсь

Илья Сегалович,

Яндекс

Всего: 442