Новый алгоритм Яндекса "Палех"

S
На сайте с 24.03.2010
Offline
57
#111

В теории классный алгоритм. Посмотрим, как будет на практике.

В этой теме кем-то был задан самый главный вопрос: как Яндекс поймёт, что фильм "марсианин" соответствует запросу "фильм, в котором человек выращивал картошу на другой планете".

По схемкам видно, что входной слой строится на триграммах, мешках слов и бинарных словосочетаниях. Причём только по заголовкам, как заметил сам Яндекс. Что это значит? Что если бы мы формировали вектора только на основе входного слоя, то могли бы получить распределение "макимально близких" векторов (правда в 3×10^4 мерном простанстве) по группам, в каждой из которых были бы очень похожие Тайтлы.

Семантическому поиску из поставленной задачи это очень мало помогло бы.

Поэтому, самое важное происходит дальше.

Пропустим линейные преобразования, т.к. они нужны только для "упрощения" пространства для вычислений.

А вот следующие нелинейные преобразования - это и есть учёт всех остальных факторов: текстовые (наверняка где-нибудь в текстах уже упоминались слова картошка и фильм вместе с марсианином), поведенческие, комерческие и прочие... с помощью этих магических нелинейных преобразований и выстраивается новый 300мерный вектор, который максимально близко располагает наш документ с "картошкой в фильме" к группе векторов (уже достаточно близкой друг к другу за счет одинаковых вхождений триграмм и мешков в заголовок) с заголовками "марсианин". Остаётся только исходный запрос "фильм, в котором человек выращивает картошку на другой планете" разложить на триграммы и мешки и сопоставить нашему единственному документу, в котором упоминалась картошка и фильм, который подтягивает максимально близкие вектора, с усиленными в сторону коммерции или поведенческих отклонений группами и выложить в выдачу. Готово.

Имхо, на практике в коммерции мало что поменяется, т.к. там были довольно сильные "координаты" векторов коммерции, траста, геопривязки. Да и люди в коммерции, как правило, знают, что хотят купить и все многословники достаточно сильно будут раскладываться близко к заголовкам изначально по триграмам и мешкам (представьте себе нераскрывшиеся бутоны и шипы в 300-мерном пространстве)

А вот для продвижения инфо запросов с большими хвостами жизнь может усложниться. В раскладке документов о пространству там уже вектора будут напоминать более равномерный "веер" в 300-мерном пространстве. И кто знает, какой косинус угла мкжду многословником и вектором окажется больше?

Green_go
На сайте с 01.07.2016
Offline
34
#112
das_pupkin:
Есть следующая информация:
1. по старой доброй традиции Яндекса - сначала анонс, потом внедрение (не наоборот!). По словам Михаила Сливинского Палех только начинает внедряться, не повсеместно и не сразу
2. Все будет происходить плавно - по тематикам и видам запросов, старт с информационных, затем когда-нибудь доползет до коммерции
3. Аналогично с регионами, так как большинство инфозапросов не связаны с ними в отличии от коммерческих
4. переход от анализа заголовков title документа к анализу контента будет, когда - нет точной инфы

Зачем тогда было делать этот релиз сегодня? Только для изображения кипучей деятельности, если по сути алго еще сырой на уровне бета, а то и альфа теста. Да и самое главное - анализ контента вообще окутан мраком.

NL
На сайте с 29.01.2003
Offline
212
#113
burunduk:
P.S. а вот это интересно с практической точки зрения ...
>Мы научили нейронную сеть переводить миллиарды известных Яндексу заголовков веб-страниц в числа — а точнее, в группы из трёхсот чисел каждая.
>В результате все документы из базы данных Яндекса получили координаты в трёхсотмерном пространстве.

Складывается впечатление, что они попытались сделать некую функцию семантической свёртки, у которой на входе нормальное предложение, а на выходе - его толкование на расширенном языке Эллочки-людоедки (30 слов у Эллочки и 300 у Яндекса и людоедов племени Мумбо-Юмбо).

Такое впечатление складывается после рассмотрения двумерной упрощённой диаграммы с выращиванием картошки. Что отложено по осям в этом примере? По ординате - картошестость, по абсциссе - марсианистость и космичность?

Если да, то с практической точки зрения первым профит срубит тот, кто заполучит этот словарь из 300 слов (понятий, терминов?) в чистом виде (другими словами это у них что-то вроде ортонормированного базиса) и будет не портянки фигачить (ковровое бомбометание), а дозированно использовать слова из базиса ("точное" оружие).

Жаль, что с 5й страницы по 12ю эту на эту реплику Бурундука не обратили внимания.

S
На сайте с 24.03.2010
Offline
57
#114
NULL:
Складывается впечатление, что они попытались сделать некую функцию семантической свёртки, у которой на входе нормальное предложение, а на выходе - его толкование на расширенном языке Эллочки-людоедки (30 слов у Эллочки и 300 у Яндекса и людоедов племени Мумбо-Юмбо).
Такое впечатление складывается после рассмотрения двумерной упрощённой диаграммы с выращиванием картошки. Что отложено по осям в этом примере? По ординате - картошестость, по абсциссе - марсианистость и космичность?
Если да, то с практической точки зрения первым профит срубит тот, кто заполучит этот словарь из 300 слов (понятий, терминов?) в чистом виде (другими словами это у них что-то вроде ортонормированного базиса) и будет не портянки фигачить (ковровое бомбометание), а дозированно использовать слова из базиса ("точное" оружие).
Жаль, что с 5й страницы по 12ю эту на эту реплику Бурундука не обратили внимания.

Не все так просто. Размерность вектора уменьшают для "упрощения" машинного обучения. Грубо говоря, вы увидите не чёткий "Тайтл" 3×10^ размерности, а его расплывчатое "изображение" 150-размерности после некоторых методов линейного преобразования, если сравнивать с машинным обучением распознования изображений. Но машине достаточно для сравнения.

На этом этапе вы получите, например такой вектор (1, 1, 0...146 числел, 1). Или вот такой: (1000, 23432, 34, 146 чисел, 1). Зависит от линейных операций. Вы понимамаете, что получите не словарь со 150 "терминами", а например, словарь из 150 тыс варианитами терминов (при макс значении любой координаты 1000 при некоторых линейных операциях).

Я уже не говорю о следующих нелинейных операциях с этими векторами. Там точно магия используется.

sapsan72
На сайте с 06.12.2015
Offline
268
#115

http://prntscr.com/d2e4qz

1 и 2 москва

4 туры =)

вот такая она курага в Питере. Путешествия вообще ни когда не ищу хз как так.

Продаю аккаунты Google Adsense Старые и новые! ( https://t.me/adsensetop ) Чат адсенс - не для нубов! ( https://t.me/adsense_pub ) Куплю твой Adsense! Телега ( https://ttttt.me/tut_ya )
Алексей
На сайте с 23.02.2009
Offline
586
#116
Пелагия:
Как ни крути, Яндекс меня кормит!)

Сергей? 🤣🤣🤣

RokkoJ
На сайте с 15.12.2011
Offline
127
#117
sapsan72:
http://prntscr.com/d2e4qz
1 и 2 москва
4 туры =)
вот такая она курага в Питере. Путешествия вообще ни когда не ищу хз как так.

А то, что это реклама, ни разу не смущает? :)

Алексей
На сайте с 23.02.2009
Offline
586
#118
kysok sabaki:

шикарный пример))))

---------- Добавлено 03.11.2016 в 08:36 ----------

dlyanachalas:
Пришла в голову такая мысль:

Ведь это первый в истории* алгоритм Яндекса, который не направлен против кого-то (оптимизаторов, ссылкоторговцев, тизерок и т.п.), а наоборот, призван помочь посетителю Яндекса что-то лучше найти.

Пусть даже (предсказуемо) ничего из этой идеи не получится, всё-равно как-то приятно увидеть Яндекса лицом, а не другими частями.


_________________
* Да, были ещё Острова, но с ними не получилось.

разрабатывать и отжимать - разное =)

S
На сайте с 04.02.2007
Offline
347
svv
#119

Да, уж, новый алгоритм во всей красе. Регулярно просматриваю популярные отзывики на тему отзывов своего магазина, а для упрощения жизни смотрю только те, кто в ТОПе. Так вот, если раньше по запросу "отзывы www.#######.ru" я получал список сайтов с отзывами или просто информацией о моем сайте, то теперь на вопрос отвечают только две строчки, остальные показывают информацию о отзывах о более крупном магазине со сходным названием (сходство из серии "отзыв о магазине Ай да круассан" => "отзыв о магазине Ашан").

NL
На сайте с 29.01.2003
Offline
212
#120
sheba:
... Там точно магия используется.

Третий закон Кларка во всей красе :)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий