Ассоциации запросов

12 3
Ashmanov
На сайте с 21.11.2000
Offline
66
2287

Рамблер ввёл новую возможность - показывает при запросе, что ещё искали пользовали, вводившие данный запрос.

Например, "накрутка" входит в такой кластер:

Те, кто ищут 'накрутка', ищут также:

spedia

накрутка счетчиков

накрутка баннеров

раскрутка

спонсор

счетчик

caca

программа+html

"бесплатный интернет"

раскрутка сайта

clickagents

режераты

rol

"база данных"

clicking agent

кликеры

счетчики

кликер

fiesta

...

http://search.rambler.ru/cgi-bin/rambler_search?words=%ED%E0%EA%F0%F3%F2%EA%E0&start=1&sa=1

Вообще мне кажется, что эта штука может сильно повлиять на ландшафт. Если уметь воспользоваться, это страшная сила.

Не об этом ли мечтал на заре Интернета классик спамдексинга и поисковых бизнес-моделей Андрей Иванов, упрекая поисковики в закрытости?

Какие будут мнения у почтенной публики?

С уважением, Игорь Ашманов Все для оптимизации (рассылка, сервисы): www.optimization.ru (www.optimization.ru) Сервис по созданию собственных поисковиков: www.flexum.ru (www.flexum.ru)
AiK
На сайте с 27.10.2000
Offline
257
AiK
#1

Это сильно!

Правда мне кажется что эта фича проживёт не дольше, чем прямой эфир Яндекса - уж больно сильный шаг, а спамерам-то раздолье какое!

AiK
На сайте с 27.10.2000
Offline
257
AiK
#2

Ну ассоциациями я бы не стал это называть.

Вот что сассоциировалось у Рамблера (а точнее у его посетителей) со словом

релевантность

Те, кто ищут 'релевантность', ищут также:

психология и коррекция

психологическая коррекция

администрация пермской области

объявления продажа

информационная культура личности

недостаточность

ребалансировка

кактус-клуб

издательство дрофа

словарь терминов

дезадаптация

контент-анализ

коррекция

www.nimfa.ru

athlon

факторы

шмаль

гарант

альфред кох

информация

информационные ресурсы

определение

промоушн

gq

кох

консультантплюс

толковый словарь русского языка

память

цеолит

объявления

молодая гвардия

троян

толковый словарь

образование

маркетинг

ftp

колготки

словарь

оружие

игры

платные дороги

дин кунц

вячеслав тихонов

поисков

Эдакий Алфред Кох, он же Вячеслав Тихонов,(кличка троян) в колготках и с оружием в руках, требующий немедленной психологической коррекции и ребалансировки

VT
На сайте с 27.01.2001
Offline
130
#3

<font face="Verdana" size="2">Originally posted by AiK:
Эдакий Алфред Кох, он же Вячеслав Тихонов,(кличка троян) в колготках и с оружием в руках, требующий немедленной психологической коррекции и ребалансировки </font>

... в администрации пермской области

Подобные запросы собираются за сеанс или за какой-то промежуток времени?

Кстати, по запросу "индексация" первым дает

"решение задач иродова"

B
На сайте с 23.05.2001
Offline
195
#4

ндаа.. хотя и мусора там хватает, но очень полезная штука...

только как бы спаммеров отфильтровывать...

Ashmanov
На сайте с 21.11.2000
Offline
66
#5

Ну что ассоциировалось, то и есть. Там ведь никакого отбора не делается.

Чо народ спрашивает, то и показывается.

Если смысловой кластер реально есть, он будет виден, а если запрос "неустойчивый", на грани тематик, то есть кто угодно мог дать, а потом побежали в разных направлениях, то и кластера нет - список слов дурацкий. Попали на перегиб "семантической поверхности", а не в лобжинку.

А принцип (очень примерно) такой - по некоторому множеству запросов, скажем за неделю, собираются те запросы, которые давались теми же пользователями в течение, скажем, получаса до и после введения заданного запроса.

Упорядочиваются по частоте, мат фильтруется.

Пользователь определяется по куке.

Чтобы найти и использовать смысловые кластеры, давайте запросы из узких предметных областей.

Ashmanov
На сайте с 21.11.2000
Offline
66
#6

Если выбросить половину, остаются как бы тематически близкие слова, то есть кластер есть, но размазанный, слабый:

Те, кто ищут 'релевантность', ищут также:

ребалансировка

словарь терминов

дезадаптация

контент-анализ

коррекция

факторы

информация

информационные ресурсы

определение

промоушн

толковый словарь русского языка

память

толковый словарь

образование

словарь

поисков

маркетинг,

...

ну и так далее

Тут ведь заранее не знаешь, добавление какого из этих слов даст прирост позиции в поисковиках и приток посетителей.

Это, конечно, мусор, но очень полезный. Логи сайта выглядят ещё более странно, а тут логи, которые никогда не были видны пользователю.

[This message has been edited by Ashmanov (edited 14-07-2001).]

VT
На сайте с 27.01.2001
Offline
130
#7

<font face="Verdana" size="2">Originally posted by Ashmanov:
Если выбросить половину, остаются как бы тематически близкие слова, то есть кластер есть, но размазанный, слабый:

Те, кто ищут 'релевантность', ищут также:
ребалансировка
словарь терминов
дезадаптация
контент-анализ
коррекция
факторы
информация
информационные ресурсы
определение
промоушн
толковый словарь русского языка
память
толковый словарь
образование
словарь
поисков
маркетинг,
...

ну и так далее

Тут ведь заранее не знаешь, добавление какого из этих слов даст прирост позиции в поисковиках и приток посетителей.

Это, конечно, мусор, но очень полезный. Логи сайта выглядят ещё более странно, а тут логи, которые никогда не были видны пользователю.

[This message has been edited by Ashmanov (edited 14-07-2001).]
</font>

А не преследуется ли задача создания тезауруса русского языка подобным образом? Ведь через некоторое время при большом количестве запросов мусор можно будет отфильтровать и получить почти чистые кластера.

Ashmanov
На сайте с 21.11.2000
Offline
66
#8

<font face="Verdana" size="2">
А не преследуется ли задача создания тезауруса русского языка подобным образом? Ведь через некоторое время при большом количестве запросов мусор можно будет отфильтровать и получить почти чистые кластера.
</font>

Преследуется, конечно.

Но это не будет тезаурус русского языка, поскольку тезаурус зависит от смысловой сетки - в разных пространствах разные слова могут быть синонимами или антонимами, а могут и не быть. Например, вытереть и уничтожить, кликнуть и щёлкнуть, загрузить и скачать, форум и текстовое общение - близкие слова только в компьютерной области.

Это получится тезаурус потребностей сетевого пользователя, то есть структура сетевой жизни.

А словарь синонимов русского языка делает великий (кроме шуток) академик Апресян. Слава Богу, наконец-то сделает.

В принципе, сетевой тезаурус может сделать всякий, у кого есть логи поисковика. Только нужны стада лингвистов и куча работы.

Игорь.

V
На сайте с 20.06.2001
Offline
24
vs
#9

Да, ассоциации к запросу "релевантность"

действительно не совсем удачные (кроме,

пожалуй, первых двух, у психологов этот

термин иногда используется).

Проблема вовсе не в неустойчивости темы, а

только в объеме входной информации для

статистической обработки - ну мало людей в

сети интересуются таким словом. Если точнее,

то такой запрос подают всего 15-20 раз в

месяц.

Нам бы такие редкие запросы выбрасывать,

но пока рука не поднимается - иногда там

такие перлы попадаются!

О том, как формируются ассоциации, Игорь

написал все совершенно верно, мне бы только

хотелось внести одно уточнение:

Оказалось, что по простому (взять логи,

выделить оттуда идентификаторы пользователей

и запросы, отсортировать по времени, а

потом по частоте и т. д.) сделать не

получается - шума многовато. Уж очень много

людей одновременно со cловом "поисковая

машина" ищут "порно", "рефераты",

"знакомства" и т. д.

Пришлось строить кластеры, вычислять между

ними меры сходства, ранжировать, по хитрому

перемешивать. В результате ассоциации

"москва" и "реферат" тонут вниз, а

действительно близкие - поднимаются.

Качество работы напрямую зависит от объема

входной информации (логов) - чем

больше "вкачаешь", тем меньше мусора.

Сейчас эта штука использует логи за четыре

последних месяца. Как только в нее будут

влиты данные хотя бы за год, можно ожидать,

что ассоциации к редким запросам станут

более вразумительными.

С уважением,

Влад Шабанов

[This message has been edited by vs (edited 18-07-2001).]

[This message has been edited by vs (edited 18-07-2001).]

[This message has been edited by vs (edited 18-07-2001).]

С уважением, Влад Шабанов vs@rambler-co.ru
AiK
На сайте с 27.10.2000
Offline
257
AiK
#10

<font face="Verdana" size="2">Originally posted by vs:

-=SKIP=-
Проблема вовсе не в неустойчивости темы, а
только в объеме входной информации
-=SKIP=-

Пришлось строить кластеры, вычислять между
ними меры сходства, ранжировать, по хитрому
перемешивать.
С уважением,
Влад Шабанов
</font>

Запрос "программирование", среди ассоциаций есть и такие:

знакомства

ария

кулинария

Запрос assembler:

мелодии для мобильных телефонов

кабинет министров украины

одесса

таможенный кодекс украины

л?на костенко

радио

каратэ

картинки

агенство

x-files

король и шут

гости из будущего

audi

rammstein

Могу поверить, что запрос редкий, но кластер явно разъехался. Могу хоть как-то объяснить возникновение групп:

assembler-computer-mp3-группы, но как сюда затесалась Украина?

Не иначе как кабинет министров принял какое-то постановление относительно хакеров?

Но ведь и другие страны с хакерами борятся...

А "каратэ", а радио?

12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий