Источник: Business Journal
Не только обычные пользователи, но и отраслевые профессионалы не перестают удивляться последним достижениям Google в области поисковых технологий. Так, например, сегодня поисковик уже «умеет» прогнозировать примерное содержание запроса пользователя, как только человек начинает вводить первые буквы в поисковую строку, и мгновенно предлагает пользователю автоматические подсказки. Еще одним примером успешно реализованного функционала стало появление голосового поиска как на десктопах, так и на мобильных устройствах. При этом, пользователи мобильных устройств на ОС Android отмечают, что Google умеет точно распознавать голосовой запрос и переводить его в письменный шрифт, даже если человеку понадобиться воспользовался функцией голосового поиска, к примеру, в шумном транспорте.
Во многом, столь успешная реализация целого ряда технически трудных решений стала возможна благодаря таланту Джеффа Дина (Jeff Dean) - главного специалиста отдела научных разработок Google. В настоящее время г-н Дин работает в двух основных направлениях: активно изучает и использует в практической деятельности технологии машинного обучения, совершенствуя продукты Google; а также активно совершенствует поиск Google, используя разработки, созданные на базе искусственных нейронных сетей. Так, например, сегодня именно благодаря усилиям Джеффа Дина и его команды стала возможной реализация технологий поддержки поисковой системой естественного языка запросов, распознавания устной речи, компьютерного зрения и т.п.
В своём интервью изданию Business Journal сотрудник отдела научных разработок Google ответил на вопросы, касающиеся будущего поиска с точки зрения пользовательских технологий, а также наметил основные пути развития и совершенствования крупнейшей в мире поисковой системы.
Вопрос: Чем конкретно занимается ваша команда в Google?
Джефф Дин: Наша команда пытается претворить в жизнь сразу несколько разработок. Прежде всего, мы пытаемся создать очень мощную масштабируемую систему, которая могла бы оперировать огромными массивами данных. Мы также стремимся «запареллелить» множественные повторяющиеся процессы с тем, чтобы наша модель была более гибкой и могла работать быстрее и эффективнее. Анализируя множество системных сценариев, мы пытаемся разработать самую лучшую и эффективную модель.
Однако всегда одни вещи гораздо легче анализировать, чем другие. Так, например, если вы хотите найти наиболее рациональную модель из 100 представленных – вам просто следует протестировать их все и выбрать наиболее эффективно работающую. Если же вы хотите найти лучшую в мире модель – тогда уже вам необходимо протестировать сотни моделей на сотнях машин. Эта работа будет гораздо сложнее. Таким образом, мы создаём своего рода фундамент, на котором строится вся последующая деятельность Google. Наши разработки применяются для решения самого разнообразного спектра проблем.
Мы также сотрудничаем с множеством других инженерных групп в Google. Вместе мы работаем над решением разного рода проблем – причём, как краткосрочных, так и среднесрочных. Помимо этого все вместе мы думаем над долгосрочной стратегией развития наших продуктов: как правило, на 5-10 лет вперёд.
Что же касается моделей искусственных нейронных сетей – мы опираемся на них для решения целого комплекса различных проблем. Одна из наших первых разработок, осуществлённых на базе данной модели – это функционал распознавания человеческой речи. Данный функционал стал следствием развития двух наших приложений. Разработка функции распознавания речи велась последовательно: сначала мы научили систему составлять из отдельных звуков, произнесённых в определённой последовательности слова. Затем мы научили систему анализировать отдельные слова и определять их значения. Позднее мы научили систему строить синонимические ряды и таким, образом, понимать взаимосвязь между отдельными словами и запросами в определенный момент времени и, таким образом, Google стал предугадывать содержание поискового запроса еще на стадии его голосового ввода.
Такой подход называется языковой моделью: сначала вы «склеиваете» между собой слоги и получаются слова, затем вы складываете слова во словосочетания и фразы, фразы – в предложения и так далее. Данная модель оказалась очень эффективной для тех случаев, когда одинаково произносящиеся слова имеют различные значения. Однако нейронные модели позволяют проводить намного более глубокий анализ речи, и то, что мы научились делать сейчас, является лишь малой частью того, что мы сможем сделать в дальнейшем.
Вопрос: В чём заключается преимущество использования модели искусственных нейронных сетей перед с целью распознавания речи перед более старыми методиками?
Джефф Дин: Итак, отмечу, что модели искусственных нейронных сетей, построенные по принципу организации и функционирования биологических нейронных сетей, то есть – нервных клеток живого организма (мозг человека функционирует подобным образом), окружали нас все эти годы, начиная с 60 гг. XX в. Однако они «вошли в моду» относительно недавно. Раньше они не были столь популярны, поскольку требуют от разработчиков применения большого количества описательных моделей, создание которых невозможно без разработки огромного количества различных сценариев. Однако большинство моделей, находящихся на ранней стадии разработки, не имеют чётких сценариев, поэтому инженерам очень сложно предсказать сценарий их дальнейшего развития для последующего анализа с использованием упомянутого метода. Таким образом, главная трудность использования модели искусственных нейронных сетей заключается в самом её предназначении: инженер вынужден разработать такие инструменты, которые могли бы автоматически воспроизводить деятельность клеток живого организма, при этом полностью исключается вовлечение человека в управление данной системой.
Другая проблема заключается в том, что сегодня компьютерные технологии становятся невероятно мощными, настолько, что способны обрабатывать огромные массивы данных. Таким образом, данные легко маркировать, а люди всё глубже вовлекаются в процесс взаимодействия с компьютерными сетями и системами. Так, 3 или 5 лет назад было практически невозможно отыскать систему, имеющую более трёх «слоёв». Сегодня же они становятся весьма разветвлёнными. Кроме того, модели искусственных нейронных сетей являются нелинейными, таким образом, они требуют гораздо более глубокого и тщательного изучения. Вы должны прорабатывать систему слой за слоем, прежде, чем доведёте её до совершенства. Только после этого вы можете приступать к разработке различных сценариев для последующего анализа.
Вопрос: В чём же тогда заключаются основные ограничения, связанные с использованием этих моделей?
Джефф Дин: Для обработки столь огромного массива данных требуются большие инженерные и технологические мощности. Если вы обладаете достаточным количество обработанных данных, создали масштабную и мощную модель, способную прорабатывать множество сценариев, то, думаю, вы можете приступать к решению вашей первоначальной проблемы.
Вопрос: На какие дополнительные вопросы вы пытаетесь найти ответы еще? На какие разработки делаются основные ставки?
Джефф Дин: В настоящее время мы пытаемся создать систему, которая бы стала результатом синтеза системы «контролируемого обучения» и системы, обучающейся спонтанно («неконтролируемого обучения»). Это позволило бы нам эффективно использовать модели, применяющие, как обработанные данные, так и не обработанные. Такой подход был бы наиболее приближенным к реальной жизни и позволил бы нам существенно улучшить представление данных в метриках.
Еще одна задача – научить систему решать глобальные проблемы, распределяя их по категориям. Так, например, если я говорю вам: «Пожалуйста, организуйте мне поездку в Вашингтон», - как видно, это слишком общая постановка вопроса. И вы наверняка зададите мне целый ряд дополнительных вопросов, как то: «В каком отеле вы бы хотели остановиться?», «Рассматриваете ли вы как вариант - стыковочный рейс?» и т.п. Аналогичным образом в идеале должен быть организован и веб-поиск. Пока мы не нашли окончательного решения данного вопроса. Однако команда поиска постоянно изучает новые и новые подходы к созданию, так называемого, «диалогового поиска».
Более того, мы уже сделали первые шаги в этом направлении. Так, вы прямо сейчас можете ввести в Google поисковый запрос: «Кто является президентом США?» Ответом будет «Барак Обама». Далее вы можете ввести запрос: «На ком он женат?» и обязательно увидите в выдаче имя супруги действующего президента Мишель Обамы. Реализации функции диалогового поиска стала возможна благодаря использованию технологии «живого» поиска и «графа знаний». «Помня» значение предыдущего поискового запроса, поисковые алгоритмы подтягивают в выдачу релевантные ответы.
Еще одна существенная вещь – совершенствование пользовательского интерфейса. В настоящее время мы пытаемся разработать специальную модель, которая позволяла бы нам понять, какие наши улучшения будут одобрены пользователями, а какие - нет. Появление данной модели позволило бы нам избежать запусков многочисленных тестирований пользовательского интерфейса на небольших группа людей.
Очень важно научить Google понимать смысл многозначных поисковых запросов. В идеале в веб-поиске должно всегда присутствовать что-то типа Google Now. Так, функционал Google Now использует данные, посылаемые мобильным устройством пользователя, и на их основании составляет удобные поисковые рекомендации для людей. Ассистент учитывает время, местоположение, недавние запросы пользователя и т.п. И всё же пока мы не знаем детально, какую поисковую подсказку можно предложить пользователю, если мы знаем, что сейчас 4:30 вечера, а владелец мобильного устройства находится в городе Маунтин-Вью. Всегда очень сложно понять, что же может интересовать человека в этот момент и первыми предложить ему правильный ответ. Так, например, он может интересоваться погодой, или искать кафе неподалёку. Научившись грамотно анализировать сценарии поведения пользователя мобильного устройства в аналогичной ситуации (время, место и т.п.) в предыдущие разы, можно предоставлять человеку невероятно полезные и функциональные поисковые подсказки.
Вопрос: Каковы ваши планы на ближайшие 5 лет? Какие конкретно вещи «научится» делать Google из тех, что пока не умеет?
Джефф Дин: Прежде всего, усовершенствуется функционал голосового поиска и поиска по картинкам. В частности, Google научится практически идеально распознавать человеческую речь, а голосовой ввод станет возможен в любом месте и с любого устройства. В настоящее время мы приближаемся к решению данного вопроса, но всё же пока не можем утверждать, что реализовали все наши планы и использовали для этого все имеющиеся возможности.
Далее мы делаем серьёзную ставку на развитие технологий компьютерного зрения. Так например, в Google Glass уже используется специальная функция, позволяющая пользователю получать важную информацию об объектах, оказывающихся в поле его зрения.
Также я думаю, что мы научимся гораздо более точно распознавать контексты. Это особенно актуально для многозначных слов или же наоборот, когда два различных и непохожих предложения подразумевают под собой один и тот же ответ. Иными словами, мы должны научить поисковую систему Google понимать столько различных формулировок запросов, сколько может сформулировать человек. В настоящее время мы делаем попытки в этом направлении, но все же пока не достигли идеального результата.
Однако правила игры поменяются, когда мы научимся понимать связные тексты. В настоящее время алгоритмы Google анализируют тексты, опубликованные на страницах различных сайтов, не так, как, к примеру, это делает человек. При поиске ответа на запрос, заданный пользователем, алгоритмы Google анализируют ключевые слова, содержащиеся на странице, сопоставляя их со словами, использующимися в запросе. Однако это далеко не идеальный способ анализа страниц.
Такое понимание текстов позволило бы нам создать принципиально иные пользовательские интерфейсы. Так, например, вы можете формулировать весьма сложные запросы, типа: «Что послужило поводом к началу Гражданской войны, по мнению историков?». Еще один тип сложного запроса, когда необходимо проанализировать и сопоставить большое количество информации, содержащейся на различных ресурсах. К примеру: «Какой из офисов Google находится в зоне с наиболее тёплой среднегодовой температурой воздуха?» - как видно, не существует определённого сайта или страницы в интернете, которая бы содержала точный ответ на заданный вопрос. Однако, если вы знаете, на какой веб-странице перечислены все офисы Google, а также, если вы сможете проанализировать исторические колебания температуры в местностях, где расположены эти офисы – вы сможете ответить даже на столь затруднительный вопрос.
Однако поистине мощный прорыв в развитии технологий анализа и управления подобными данными удаcтся сделать только тогда, когда мы научимся распознавать эти данные подобно человеческому сознанию и точно соотносить их содержание со смыслом и намерениями поискового запроса.
Перевод Анастасии Матвеевой