25 мая 2017 на платформе Толока появилось задание по транскрибированию коротких аудиофайлов, из содержания которых становится ясно, что это записи голосовых запросов пользователей Яндекса. Интерфейс позволяет не только прослушивать записи, но и загружать их на компьютеры исполнителей, что фактически, является «сливом» пользовательской информации.

Как сообщает издание RobotReview, в распоряжении которого оказался целый архив запросов к Яндексу, последний сформирован из навигационных и информационных запросов. Имена владельцев отсутствуют, однако встречаются повторяющиеся голоса, из чего можно предположить, что выборка составлена не по принципу 1 человек — 1 запрос, а по принципу 1 человек — несколько запросов.
Неизвестно количество пользователей, чьи голосовые запросы стали доступны на платформе. Учитывая тот факт, что получить доступ к заданиям на сервисе Толока может любой человек буквально в несколько кликов, возникает вопрос о правомерности предоставления возможности загрузки запросов на сторонние компьютеры.
Обновлено: Пресс-служба Яндекса на запрос редакции Searchengines.ru ответила следующее:
«Прежде всего - пользователям не о чем волноваться, их личные данные защищены. Распределение заданий в Толоке гарантирует полную анонимность запросов. В этом смысле нет особенной разницы, работает ли толокер с текстовым запросом или голосовым - у него все равно нет возможности идентифицировать пользователя, который этот запрос задал. Кажется, как будто голосовые запросы содержат больше информации, и как будто бы по ним можно как-то опознать пользователя, - но по факту из десятков миллионов запросов, случайным образом распределяемым по толокерам, нет никакого способа извлечь информацию о конкретном пользователе. То, что называют "сливом", не угрожает безопасности, потому что использовать эту информацию против пользователей все равно нет никакой технической возможности.
Мы, как и все поисковые сервисы, постоянно работаем над улучшением качества поиска, в том числе для нас важно, чтобы наши сервисы умели хорошо понимать человеческую речь. На современном этапе развития технологий все еще требуется участие человека для контроля и улучшения качества голосовых интерфейсов, поэтому и мы, и любая другая компания, развивающая такие интерфейсы, привлекает людей для развития технологий распознавания речи. И мы гарантируем анонимность пользовательских данных в процессе такой работы.
Тем не менее, мы благодарны за обнаружение этой ситуации и сейчас проводим дополнительный аудит всех наших процессов в Толоке на предмет общей безопасности персональных данных - в частности на предмет соблюдения толокерами пользовательского соглашения, в котором запрещено распространение данных, полученных ими в процессе работы в Толоке, и предусмотрена ответственность за такое распространение».
Напомним, платформа Яндекс.Толока была открыта в ноябре 2014 года, и используется Яндексом для совершенствования поисковых алгоритмов и технологий машинного обучения на основе пользовательских оценок. Задания предоставляются командами различных сервисов Яндекса и партнерами компании.
22 мая 2017 года Яндекс в своем приложении для Android начал тестирование голосового помощника «Алиса», возможно появление задания по расшифровке голосовых запросов связанно именно с доработкой этого алгоритма.