iseg

Рейтинг
80
Регистрация
15.12.2000
Должность
Search Engine Department Manager, Yandex
Интересы
Search Engine Development

Добрый день всем.

1. Над чем мы "работаем".

Игорь совершенно прав, говоря о трудностях и фактической невозможности снятия омонимии в самой общей постановке.

Проиллюстрировать можно нашей любимой фразой, допускающей 4 абсолютно корректных и совершенно разных толкования - ЭТИ ТИПЫ СТАЛИ ЕСТЬ В ЛИТЕЙНОМ ЦЕХЕ (автор фразы - Леонид Иомдин)

Не говоря уже о том, что в промышленных поисковых системах, обрабатывающих текст со скоростью десятков и сотен мегабайт в минуту, синтаксический и тем более семантический разбор (на любом уровне - от поверхностного до глубинного) вещь малореальная.

То, что мы уже сделали в индексаторе - это lightweight "статистический" дизамбгиуатор, оперирующий фактом вложенности парадигм (в тексте про писателя Сорокина нет форм "Сорокиной", а в тексте про Светлану Сорокину не бывает форм "Сорокиным" и т.п.). Ошибку он дает крайне редко.

То, что мы не сделали, но делаем в поиске - ранжирование с учетом совпадения форм и лемм (т.е. по запросу "дело" ранжировать выше словоформу "дело", затем словоформы, лемматизируемые к "дело", и лишь затем уникальные формы глагола "девать".

2. Транзитивности у нас нет и никогда не было - все леммы кладутся в индекс честно.

3. Ошибка с "дени" - это результат работы черезчур агрессивного леммера. Он уже давно поправлен (например в текущем Яндекс-Сайте этой ошибки нет), но мы хотим еще кое-что подчистить и в словаре и в алгоритмах перед патчеванием базы (каковое уже несколько раз переносили).

С уважением,

Илья

Они заметили, прислали вопросы, пришлось отвечать :)

На самом деле идет процесс чистки и он еще не закончен.

FAQ: вопрос номер 17. :) А серьезно, посмотрите в этом форуме, данная тема неоднократно подробнейшим образом обсуждалась.

Спасибо всем откликнувшимся! Как голосовавшим, так и просто вступившим в дискуссию!

В момент, когда я инициировал опрос, процесс очистки был лишь запущен, дубликаты (в нашем смысле) были вычищены примерно на четверть.

Надеюсь сейчас уже получше.

Также хочу всех заверить, что процесс на этом не завершится. Детали выбора "лучшего дубликата" позвольте пока не описывать.

С уважением,

Илья

Александр, а про 100 килобайт информация это из статьи 1998 года, или откуда-то еще?

A plain hit consists of a capitalization bit, font size, and 12 bits of word position in a document (all positions higher than 4095 are labeled 4096).

В ней говорилось, что Гугль игнорирует все, что после 40 килобайт. (4096* примерно 10)

Это было по дням. А по месяцам - здесь:

http://stat.yandex.ru/index.xhtml?Prj=12&Age=m

Примерно 180 тысяч человек в месяц.

По нашей внутренней классификации ошибки бывают четырех видов.

- фича

- баг

- глюк

- иллюзия

В данном случае, это скорее "фича", но никак не "глюк".

А серьезно - ошибку признаём. Над устранением работаем.

Илья

Originally posted by mager:

Здесь перемешались две дискуссии на разные темы. Прошу прощения, я вас не понял.

1. Мы сами не даем исчерпывающий список спамовых техник. Почему вы решили, что первый попавшийся приведенный вами в этом форуме критерий является единственным и безусловным признаком спама?

2. Мотивация создания страниц была очевидна - искусственное повышение их рейтинга в Яндексе. То есть попытка вмешательства в наши "editorial results". Извините, но мы сами не подмешиваем и не портим нашу выдачу, тем более странной кажется идея давать это делать другим.

3. Релевантность старнци запросам была нулевой. Ни для одного пользователя страницы Иванова не соответствовали теме спрошенного. Даже вам и еще немногим посетителям данного сайта, которым эти страницы были интересны с профессиональной точки зрения, странной идеей представляется набирать для нахождения сайта Иванова запрос "рыболовные снасти" или ему подобный, вместо того, чтобы пойти в любой каталог в секцию "оптимизация в поисковых машинах".

Объективно, это был спам. Для меня нет никаких сомнений.

С уважением,

Илья

Всего: 442