maslov

Рейтинг
28
Регистрация
16.07.2003

Дмитрий, спасибо за рекомендацию :-)

Gray:
Очень интересно прослеживать основные мысли в дискуссии. В соседнем разделе недели не проходит без возмущения на тему "Зачем Бегун берет дорвейщиков?". А здесь разгорается дискуссия на тему "Почему Яндекс не берет дорвейщиков?"

Возможно, в соседнем разделе обсуждение идет с точки зрения рекламодателей, а в этом -- владельцев площадок.

Интересно, есть ли пересечение аудиторий? ;)

1. Может ли Директ отличить реальный запрос от проверки места? Может. Если за запросом в сессии не последовал клик по сайту - запрос "левый"

Можем. И будем.

(из всех артефактов проверка позиций не была самой большой проблемой, imho)

Однако сейчас появились субъекты, высказавшие намерение специально портить статистику Директа.

Правда, для анализа переходов на страницы поиска и на сайты придется обрабатывать раза в три больше данных. А их и так пара сотен гигабайт за раз ...

2. А нужно ли это Директу? Не нужно. Ибо статистика уменьшится и деньги.

Давайте не будем снова устраивать диспут на тему "выгодно ли обманывать клиента".

А тех, кто намеревается воевать с конкурентами, портя Директ, хочу призвать не плевать в колодец. Сами же пользуетесь...

В каком именно разделе связи? Их там по крайней мере три И в каждой из них каталоги есть (от 2 до 5)

Блок "Справки и ссылки" находится не в основном блоке рубрик (ссылки синего цвета), а под блоком регионов слева

В каталоге Яндекса в каждом разделе есть фасет Справки и ссылки/Интернет-каталоги. Например, интернет-каталоги в рубрике Производство и поставки здесь: http://yaca.yandex.ru/yca/synt2/Web-directories/cat/Business/Production/

Tanechka
Неужели кто-то специально создает запросы, чтобы конкуренты ориентировались и отошли от действительно интересных?
Rev
Спасибо за идею. Надо попробовать.

Еще один метод поисковой оптимизации?

И какого же он цвета?

Также приветствуются ссылки на публичные базы.

Есть публичные русскоязычные коллекции: http://romip.narod.ru

С уважением

Михаил Маслов

Vyacheslav Tikhonov: Но вот если массивы заранее рубрицированы, то задача существенно упрощается тем, что в кластер не будут включены "левые" документы из других тем ...

Новости от некоторых источников рубрицированы, но кластеризации это не помогает.

Во-первых, рубрикация дается на уровне 'политика-экономика-культура-спорт-наука', что слишком общо.

Во-вторых, даже при _такой_ рубрикации есть много неоднозначностей. Например, новость про продажу Русскими фондами акций Рамблера сообщили 17 источников, из них 9 ее отнесли к экономике, 3 - к интернету (Gray в их числе), 1 - к науке и т.д. Более того, есть регулярные неоднозначности: взрывы - происшествия или политика, ДТП - происшествия или авто, крупный бизнес типа ЮКОСа - политика или экономика (а в случае Челси-Абрамовича еще и спорт) и т.п.

В-третьих, рубрикации разных источников не совпадают друг с другом, и не совпадают с рубрикацией Яндекса (рубрики источников поэтому маппируются в яндексовские), что усугубляет бардак.

В общем, улучшать кластеры с помощью рубрик мы не стали даже пробовать. Пока те стали, во всяком случае.

С уважением

Михаил Маслов

trink: ... описаны общие идеи а о том как расчитывается матрица похожести и какие именно алгоритмы кластеризации применяются -- ничего не написано. Если это не является комерческой тайной можно ли подробнее рассказать о вышеописанных моментах?

Хорошо, чуть подробнее.

Каждому документу сопоставляется "поисковый образ" - запрос из характерных терминов; запрос строится на основе поиска по кворуму (это стандартный оператор Яндекса, хотя и плохо задокументированный). Из списков найденных документов строится матрица близости; при вычислении меры близости документов используется стандартная же мера релевантности Яндекса.

Метод кластеризации - агломеративный.

У меня сложилось впечатление, что на качество результата большее влияние оказывает адекватность меры близости документов, чем выбор метода первичной кластеризации и подбор его параметров.

С уважением

Михаил Маслов

12
Всего: 20