Вы почитайте вышепроцитированный текст http://company.yandex.ru/articles/smi-mirror.html Там процесс довольно подробно описан.
С уважением
Михаил Маслов
Вячеслав, в TDT, как известно, есть четыре задачи:
New event detection
Story link detection
Topic detection
Topic Tracking
(раньше у них еще было Story segmentation, но они его убрали)
(см. TDT 2003 )
и способом "составления запроса" можно пытаться решать разве что одну из них - Topic Tracking (есть 3-5 документов-образцов по теме; из новостного потока требуется выловить все документы по этой теме). Однако TDT-шники, видимо, не склонны решать эту задачу столь "лобовым" методом.
Задача Яндекс-Новостей ближе всего к Topic detection (структурировать _весь_ новостной поток, сгруппировав сообщения в кластеры, соответствующие событиям).
Из недавнего: 700 сообщений было в сюжете об отставке Шеварднадзе и сопутствующим событиям (митинги оппозиции, захват парламента, посредничество Игоря Иванова ...)
В настоящий момент самый большой - Березовский в Грузии ~ 170 сообщений. Т.е. кластер в сотни сообщений при дневном потоке в 5-10 тыс. - норма жизни.
Кроме того, первое вовсе не исключает второго.
Это не официальная точка зрения, а мое частное мнение. Как и все остальные мои высказывания на этом форуме (ни в одном не сказано явно об официальном характере заявления). Цитирую дисклеймер Александра Садовского:
Видите ли, AAZ, нам мало, чтобы сайт был "по теме". Нередко бывает так, что сайт с хорошим контентом, и лучше всего соответствующий запросу, который должен быть наверху, вытесняется оптимизированными сайтами, которые "в общем по теме". Для нас это означает, что выдачу испортили
... а когда спрашивают "громада мебель", кому-то выгодно забить всю выдачу сайтами про "диваны тут". Тоже, вроде, "по теме"?
И ведь закономерность, сформулированная в интерьвю с черным оптимизатором "чем выше конкуренция, тем чернее методы" справедлива не только для черных, но и для белых оптимизаторов.
Нет, это не разговоры для прессы. Это простое следствие конкурентной борьбы между поисковиками. Если поисковик ищет плохо, то пользователи уйдут на другие поисковики, которые ищут лучше.
Да, очень беспокоится. Ведь не просто "могут выдвинуть", но и выдвигают!
Андрей, вот Вы же сами и пояснили. Я только сформулирую более определённо: мы делим рекламный бюджет владельцев сайтов.
Что касается симбиоза. По-моему, на симбиоз здесь больше всего похожи отношения владельцев сайтов и поисковиков:
одни _бесплатно_ дали контент для индексирования и поиска в размере 120 млн. веб-страниц (к примеру), другие - взамен _бесплатно_ приводят 1-го млн. пользователей в день (тоже к примеру);
занимаются совершенно разными и вещами: одни - производством контента либо спонсированием производства оного, другие - поиском по этому контенту.
... и ни один поисковик не производит ничего, кроме вороха ссылок. Как Вы могди заметить, поисковики я тоже назвал посредниками. Так что я оптимизаторов ставлю в один ряд с поисковиками. О каком презрении речь? :)
Михаил, пафос начался, когда поисковики обвинили в паразитизме на вебмастерах. То, что что не вебмастера создали весь контент и они не владеют им, очевидно не всем, имхо. Предлагаю считать, что я Ваши слова
(болд мой) понял неправильно. ОК?
И что, оптимизаторы сами пишут этот контент? Даже если это пара прайс-листов, откуда этот контент берется, неужели из головы оптимизатора?
А кому контент _принадлежит_? Веб-мастеру или оптимизатору? Или всё-таки тому, кто им заплатил, т.е. владельцу сайта?
Михаил, Вы тоже думаете, что контент принадлежит вебмастерам и они его создают? И платят оптимизаторам за работу вебмастеры? И потом, Вы в данном случае возводите на оптимизаторов напраслину: работодатель даёт работу оптимизатору и платит за ее выполнение деньги. В этих отношениях нет ни паразитизма, ни симбиоза.
Андрей, Вы лукавите: оптимизаторы и поисковики не очень-то похожи на симбионтов - им есть что делить. И работают они в одной области.
Именно. Не делать что-то а работать под что-то. Это типичное _посредничество_.
Чего не дождемся? :)
Светлана, я верю, что хороший посредник всегда найдет, где посредничать :)
Кстати, я считаю посредниками не только оптимизаторов, но и поисковики. У поисковиков же по сути нет собственного контента, и они не производят контент. В этом смысле поисковики и оптимизаторы равны. И никто никому не судья, никто никому не может и не должен устанавливать правил.
Так. Про паразитов сами оптимизаторы заговорили.
Если б сайтов не было, то не было бы интернета вообще, а не только поисковых систем. И никто бы никуда не ходил по ссылкам - некуда ссылаться.
Извините. Оптимизаторы не производят сайтов (я имею в виду содержание). Да и вебмастера, в основном. Вебмастера управляют сайтами, оптимизаторы - продвигают их, причем в основном в поисковых системах. Эти функции совпадают - _иногда_, поскольку оптимизаторов в рунете - 100 человек (спамеров ведь не считаем?), веб-мастеров - 10000, а сайтов - 1 млн. Я не сильно ошибся в оценках?
Если умрут оптимизаторы, поисковые системы не умрут (как минимум). И даже напротив, поисковые системы породили оптимизаторов. Теперь подумайте, что будет с оптимизаторами, если умрут поисковые системы?
Ну хорошо, пусть ресторан.
Однако некоторые владельцы ресурсов, а также их оптимизаторы, склонны путать входы в это заведение. Эти самые 50%, которые заходят через парадный вход - те кто ищут, а не те, кто хочет найтись. А последние, то бишь поставщики информации, заходят туда через кухню.
Соответственно, для тех, кто заходит через парадный вход, нет никакого фейс-контрола, требования заходить в смокинге, vip-залов и т.п.
А аналогия, где веб-мастера уподобляются едокам, поисковик - официанту, а пользователи поисковика - еде, мне кажется, мягко говоря, не совсем адекватно моделирующей ситуацию.