maslov

Рейтинг
28
Регистрация
16.07.2003
Vyacheslav Tikhonov: И, если не секрет, каким же образом задача кластеризации решена в Яндекс-Новости?

Вы почитайте вышепроцитированный текст http://company.yandex.ru/articles/smi-mirror.html Там процесс довольно подробно описан.

С уважением

Михаил Маслов

Спорить не буду, но описанный мной алгоритм является стандартным для TDT - Topic Detection and Tracking и вряд ли яндекс пошел по пути наибольшего сопротивления.

Вячеслав, в TDT, как известно, есть четыре задачи:

New event detection

Story link detection

Topic detection

Topic Tracking

(раньше у них еще было Story segmentation, но они его убрали)

(см. TDT 2003 )

и способом "составления запроса" можно пытаться решать разве что одну из них - Topic Tracking (есть 3-5 документов-образцов по теме; из новостного потока требуется выловить все документы по этой теме). Однако TDT-шники, видимо, не склонны решать эту задачу столь "лобовым" методом.

Задача Яндекс-Новостей ближе всего к Topic detection (структурировать _весь_ новостной поток, сгруппировав сообщения в кластеры, соответствующие событиям).

trink: Но попробуйте применить его для одной из больших тем с несколькими десятками новостей и вы получите плохой результат.

Из недавнего: 700 сообщений было в сюжете об отставке Шеварднадзе и сопутствующим событиям (митинги оппозиции, захват парламента, посредничество Игоря Иванова ...)

В настоящий момент самый большой - Березовский в Грузии ~ 170 сообщений. Т.е. кластер в сотни сообщений при дневном потоке в 5-10 тыс. - норма жизни.

trink: Но на самом деле ответ содержится в способе построения матрицы близости, ведь она может быть построена и с помощью лексических цепочек и с помощью частотных методов

Кроме того, первое вовсе не исключает второго.

С уважением

Михаил Маслов

andre
Недавно Михаил Маслов, один из идеологов Яндекса высказался точно: «мы делим рекламные бюджеты рекламодателей». Эту точку зрения вполне можно считать официальной, подтверждений тому много.

Это не официальная точка зрения, а мое частное мнение. Как и все остальные мои высказывания на этом форуме (ни в одном не сказано явно об официальном характере заявления). Цитирую дисклеймер Александра Садовского:

funsad
Есть разница между понятиями "представлять компанию" и высказывать частное мнение в нерабочее время. Яндекс делает заявления через пресс-релизы и официальные ответы, а не устами программистов и менеджеров. Все мои ответы на форуме не являются официальными заявлениями, если в них не сказано обратное.

С уважением

Михаил Маслов

AAZ
А что, все оптимизированные сайты выдаются не по теме? Или от того, что кто-то смог сделать свой сайт так, что он наверху в выдаче, страдает пользователь?

Видите ли, AAZ, нам мало, чтобы сайт был "по теме". Нередко бывает так, что сайт с хорошим контентом, и лучше всего соответствующий запросу, который должен быть наверху, вытесняется оптимизированными сайтами, которые "в общем по теме". Для нас это означает, что выдачу испортили

AAZ
Кстати, торговым сайтам выгодно искаться именно по своей продукции, а не по "порно, реферат, Москва" и интересует их именно целевой посетитель. Это так, на всякий случай...

... а когда спрашивают "громада мебель", кому-то выгодно забить всю выдачу сайтами про "диваны тут". Тоже, вроде, "по теме"?

И ведь закономерность, сформулированная в интерьвю с черным оптимизатором "чем выше конкуренция, тем чернее методы" справедлива не только для черных, но и для белых оптимизаторов.

С уважением

Михаил Маслов

Aaz
А забота о пользователях - это разговоры для прессы

Нет, это не разговоры для прессы. Это простое следствие конкурентной борьбы между поисковиками. Если поисковик ищет плохо, то пользователи уйдут на другие поисковики, которые ищут лучше.

wolf
Садовский на конференции в подобном духе высказывался. Дескать, Яндекс очень беспокоится, что оптимизаторы могут неподобающий ресурс на высокое место выдвинуть.

Да, очень беспокоится. Ведь не просто "могут выдвинуть", но и выдвигают!

С уважением

Михаил Маслов

andre
Михаил, пожалуйста, поясните, что может делить оптимизатор с поисковиком?
...
Что мы действительно «делим», так это места в выдаче. Вы их не продаете, а нам за них платят

Андрей, вот Вы же сами и пояснили. Я только сформулирую более определённо: мы делим рекламный бюджет владельцев сайтов.

Что касается симбиоза. По-моему, на симбиоз здесь больше всего похожи отношения владельцев сайтов и поисковиков:

симбиотические отношения между бизнесами гораздо эффективнее обычного партнерства, так как приносят ощутимую выгоду обеим сторонам, практически не требуя затрат

одни _бесплатно_ дали контент для индексирования и поиска в размере 120 млн. веб-страниц (к примеру), другие - взамен _бесплатно_ приводят 1-го млн. пользователей в день (тоже к примеру);


Принцип остается тем же, что и в биологии: два бизнеса, не конкурирующие друг с другом (т. е. в принципе не способные отобрать друг у друга клиентов или ресурсы, так как работают в совершенно различных областях),

занимаются совершенно разными и вещами: одни - производством контента либо спонсированием производства оного, другие - поиском по этому контенту.

С уважением

Михаил Маслов

mkozloff
В конце концов, ни одна консультационная компания ничего не создаёт кроме вороха бумаги. К ним Вы тоже относитесь с плохо скрываемым презрением? :)

... и ни один поисковик не производит ничего, кроме вороха ссылок. Как Вы могди заметить, поисковики я тоже назвал посредниками. Так что я оптимизаторов ставлю в один ряд с поисковиками. О каком презрении речь? :)

mkozloff
maslov, я как-то не понимаю Вашего пафоса. К чему рассуждения о том, кому принадлежит контент? Контент, как правило, принадлежит владельцу сайта (хотя с точки зрения авторского права это не всегда так) - это же очевидно.

Михаил, пафос начался, когда поисковики обвинили в паразитизме на вебмастерах. То, что что не вебмастера создали весь контент и они не владеют им, очевидно не всем, имхо. Предлагаю считать, что я Ваши слова

"Вот отимизаторы в виде таких птичек для вебмастеров и выступают. Да, паразиты, но полезные"

(болд мой) понял неправильно. ОК?

С уважением

Михаил Маслов

EvGen
Вот тут вы круто ошибаетесь. Большинству владельцев от их собственного сайта ничего более не нужно, кроме как одной первой страницы, с адресом и телефоном. И именно оптимизаторы зачастую их убеждают в наполнении ресурсов качественным контентом.

И что, оптимизаторы сами пишут этот контент? Даже если это пара прайс-листов, откуда этот контент берется, неужели из головы оптимизатора?

euhenio
можно сказать, что оптимизаторы паразитируют на поисковике. (частично, т.е., в симбиозе поисковики оптимизаторам нужнее). Но ведь и сам поисковик паразитирует на вебмастерах (тоже частично). Т.е., он предоставляет доступ к чужому контенту

А кому контент _принадлежит_? Веб-мастеру или оптимизатору? Или всё-таки тому, кто им заплатил, т.е. владельцу сайта?

mkozloff
Михаил, Вы, наверное, смотрели в детстве мультфильм про птичку, которая почистила крокодилу зубы. Вот оптимизаторы в виде таких птичек для вебмастеров и выступают. Да, паразиты, но полезные.

Михаил, Вы тоже думаете, что контент принадлежит вебмастерам и они его создают? И платят оптимизаторам за работу вебмастеры? И потом, Вы в данном случае возводите на оптимизаторов напраслину: работодатель даёт работу оптимизатору и платит за ее выполнение деньги. В этих отношениях нет ни паразитизма, ни симбиоза.

andre
цитирую: "...симбиотические отношения между бизнесами гораздо эффективнее обычного партнерства, так как приносят ощутимую выгоду обеим сторонам, практически не требуя затрат. Принцип остается тем же, что и в биологии: два бизнеса, не конкурирующие друг с другом (т. е. в принципе не способные отобрать друг у друга клиентов или ресурсы, так как работают в совершенно различных областях),

Андрей, Вы лукавите: оптимизаторы и поисковики не очень-то похожи на симбионтов - им есть что делить. И работают они в одной области.

ostmaster
Если умрут поисковые системы (тьфу-тьфу), будет что-то иное - свято место...
А оптимизаторы - народ гибкий и динамичный. Будут работать под что-то другое.

Именно. Не делать что-то а работать под что-то. Это типичное _посредничество_.

ostmaster
В общем не дождетесь 😎

Чего не дождемся? :)

ostmaster
За всех не скажу, но я к примеру пришла в инет еще в 90-х.
Хронология примерно такая:
Этап первый: каталоги, рассылки, партнерские программы.
Второй: ...
Ну а четвертый вот он сейчас ... Поисковики вырвались вперед

Светлана, я верю, что хороший посредник всегда найдет, где посредничать :)

Кстати, я считаю посредниками не только оптимизаторов, но и поисковики. У поисковиков же по сути нет собственного контента, и они не производят контент. В этом смысле поисковики и оптимизаторы равны. И никто никому не судья, никто никому не может и не должен устанавливать правил.

С уважением

Михаил Маслов

Попытаюсь объяснить. Есть в биологии отношения симбиоза, когда участники нужны друг другу. И есть паразитизм, когда один нужен другому, но не наоборот.

Так. Про паразитов сами оптимизаторы заговорили.


Таки если бы поисковых систем не было, то интернет бы жил себе, - по ссылкам бы ходил, каталогами бы пользовался, рассылками. А вот если бы не было сайтов (=вебмастеров), поисковики бы сдохли.

Если б сайтов не было, то не было бы интернета вообще, а не только поисковых систем. И никто бы никуда не ходил по ссылкам - некуда ссылаться.


Поэтому в системе отношений позиция поисковиков ближе к "паразиту", а позиция вебмастеров - к "хозяину". А вебмастер - он и есть оптимизатор

Извините. Оптимизаторы не производят сайтов (я имею в виду содержание). Да и вебмастера, в основном. Вебмастера управляют сайтами, оптимизаторы - продвигают их, причем в основном в поисковых системах. Эти функции совпадают - _иногда_, поскольку оптимизаторов в рунете - 100 человек (спамеров ведь не считаем?), веб-мастеров - 10000, а сайтов - 1 млн. Я не сильно ошибся в оценках?

Если умрут оптимизаторы, поисковые системы не умрут (как минимум). И даже напротив, поисковые системы породили оптимизаторов. Теперь подумайте, что будет с оптимизаторами, если умрут поисковые системы?

С уважением

Михаил Маслов

Ну хорошо, пусть ресторан.

Не то чтобы других ресторанов в городе не было, но этот посещало почти 50% населения города и, по общему мнению, он был лучший

Однако некоторые владельцы ресурсов, а также их оптимизаторы, склонны путать входы в это заведение. Эти самые 50%, которые заходят через парадный вход - те кто ищут, а не те, кто хочет найтись. А последние, то бишь поставщики информации, заходят туда через кухню.

Соответственно, для тех, кто заходит через парадный вход, нет никакого фейс-контрола, требования заходить в смокинге, vip-залов и т.п.

А аналогия, где веб-мастера уподобляются едокам, поисковик - официанту, а пользователи поисковика - еде, мне кажется, мягко говоря, не совсем адекватно моделирующей ситуацию.

С уважением

Михаил Маслов

12
Всего: 20