"Распознавание без речи и настолки с "Алисой": о чем говорили на конференции разговорного AI в Петербурге

Автор фото: Деловой Петербург

19:1428 июня 201919:14

8270просмотров

19:1428 июня 2019

Виталий Алексеев

Слишком человечные ассистенты, кейсы для VUI, понимание без слов и голосовые игры с "Алисой" во второй день конференции Conversation в Петербурге

В Петербурге второй день конференции разговорного AI Conversation-2019 был посвящен разработчикам. Свои доклады и аналитику представили больше десятка компаний (Just AI, "Яндекс", Сбербанк, МТС, EIL, iPavlov), а Google провел хакатон по созданию экшенов для "Google Ассистента". Открывали Developers Day доклады об основах диалоговых систем, обсудили на встрече технологии и платформы, а завершился день кейсами в разработке разговорного AI.

Пока "интеллектуальный выбиратор"

Почему людям некомфортно использовать голосовой интерфейс? Проблема кроется не в технологиях, а в том, что мы не до конца понимаем, как устроена наша речь, уверен Дмитрий Чечеткин, сооснователь Just AI. Открывая конференцию, он подчеркнул, что сейчас в разработке и внедрении голосовых помощников ключевым является свойство кооперации — именно ее пользователи ждут от ассистентов, именно она позволила австралопитекам 7 млн лет назад выжить в саваннах. Чечеткин призывает разработчиков AI рассматривать человеческий язык как коммуникативную систему-комментарий. В этом случае коммуникацию с ассистентом создает диалог, построенный на принципах честного, кооперативного и адаптивного общения. В свою очередь, формализованные AI, алгоритмы, далекие от естественной речи на фоне растущей популярности голосового ввода, могут стать серьезной проблемой для человечества, предупреждают в Just AI. Прежде всего потому, что дети быстро адаптируются к плохому VUI (voice user interface, голосовым интерфейсам). "Это важная проблема. Речь — это отражение эволюции нашего вида", — подчеркивает Чечеткин.

Еще одной проблемой, стоящей перед создателями систем разговорного AI становится эффект "зловещей долины" в работе речевых ассистентов, уверен Дэвид Этвотер, представитель Enterprise Integration Limited (EIL, оптимизация Alexa от Amazon). Эффект выражается в том, что чем больше робот похож на человека, тем больше он вызывает неприятия и отторжения. При этом пользователь понимает, что адресует запросы роботу, пытается построить модель взаимодействия, исходя из возможностей ассистента. Однако если голосовой помощник реализует сценарий без ограничений, максимально приближенный к естественной речи, то возникает проблема взаимопонимания: робот и человек не могут понять запросов друг друга. "Мы попытались сделать такого помощника на базе Alexa, максимально естественного, но внезапно он перестал стабильно работать. Для решения этой проблемы нам потребовалось интегрировать в диалог подсказки для пользователя, и только тогда удалось восстановить коммуникацию”, — поделился представитель EIL.

В таком случае можно ли сразу создать ассистента, говорящего естественно, разговорной речью, с обсценной лексикой, с ярким, пусть и не всегда дружелюбным характером? Как пояснил "ДП" Чечеткин, есть два пути, по которым идут голосовые ассистенты сегодня. Это формализация для выполнения определенных функций и разговорные ассистенты для развлечения пользователей. Правильный путь лежит, как всегда, посередине, но эту грань довольно сложно найти: разработчики отклоняются полностью в одну из сторон. "Помощники могут сейчас шутить, они могут создать фразу, исходя из предзаписанных данных. Но если говорить о генерации шутки в диалоге, то это пока невозможно. Нужно понимать, что помощник — это умный генератор, "интеллектуальный выбиратор" ответов для диалога. В "Алисе", например, это сделано очень красиво, очень хорошо. Но этот диалог — это плод нашей фантазии по большому счету. Сегодня спонтанная шутка робота остается всего лишь бредом", — констатировал сооснователь Just AI.

Он подчеркнул, что дальнейшее развитие разговорного AI зависит не столько от технологий, сколько от нашего понимания нашей речи. Улучшение интерфейсов VUI принципиально ситуацию не изменит, люди по-прежнему будут относиться к помощниками с недоверием. "В перспективе, в ближайшие 5 лет, кардинальный сдвиг может произойти, когда решится проблема публичного общения пользователя с ассистентом, когда их диалог не будет слышать никто. Над этим сейчас работают в MIT, это гарнитуры, которые могут считывать биотоки, невербальную информацию. Это и будет по-настоящему функциональное и повсеместное использование ассистентов", — прогнозирует Чечеткин.

Machine Learning всем

Презентовали на втором дне конференции свои кейсы ведущие разработчики. Так, ведущий лингвист Google Татьяна Ландо рассказала о том, что нужно для создания своего чат-бота или диалогового ассистента. Сейчас, по ее словам, разработка ведется в двух направлениях: специализированные решения под конкретные задачи и общие поисковые помощники, но без естественной речи. Пользователь же видит помощника совсем иначе. "Идеальный ассистент — разговорный, понимающий с полуслова, немного подобострастный, который умеет все на свете, разве что мусор вынести не может", — иронизирует Ландо. Ключевым компонентом для создания таких систем она считает дата-сеты, массив данных. "Если у вас уже есть много данных, используйте машинное обучение. Если мало — собирайте и отправляйте в машинное обучение. Все современные системы идут в эту сторону", — подчеркнула представитель Google.

Дарья Сердюк из Just AI, в свою очередь, рассказала, как сделать бота и не разозлить пользователя. "Держите в голове цель бота и то, где и когда он будет использоваться. Старайтесь людям сделать хорошо, но помните, что сами люди в ответ хорошо делать не обязаны", — рекомендует разработчик. "Проектируйте бота исходя из устройства, на котором он будет работать. Будьте честны и этичны. Читайте вслух то, что пишете в бота", — советует Сердюк. Чат-бот – небольшой программный продукт, поэтому его лучше писать на языке Python, предлагает свой кейс Сергей Веренцов из EORA. Чат-бот, подчеркивает он, можно сделать удобным сервисом и в Python уже есть все необходимые для этого библиотеки. Но самое главное – машинное обучение, для которого этот язык оптимален. Павел Гвай из Tortu уверен: в проектировании VUI использование классической блок-схемы фатально для пользователей и трудоемко для разработчиков. Решением может стать использование инструментов Canvas и Storyboards.

Игры с "Алисой"

"Яндекс" рассказал на конференции о развитии игрового направления в сегменте голосовых помощников. По словам Елены Першиной, сейчас в топ-100 популярных игр для ассистентов особенно привлекательны массовые сценарии на новой платформе ("Правда или действие", игра на спички, замены настольным играм, сценарии из популярных компьютерных игр или телевидения), симуляторы и квесты (флагманом этого направления и в целом игр для ассистентов Першина назвала игру "Да, милорд"), а также интеллектуальные игры (шахматы, карты, но не викторины).

Надеются в "Яндексе" и на растущую популярность голосовых игр для детей — это могут быть как образовательные квесты (учить таблицу умножения с "Алисой"), так и развлекательные (веселые истории — предложения от разных участников, которые "Алиса" складывает в отдельную историю). На вопрос о монетизации игр Першина не ответила, пообещав скорую презентацию. "Представителю "Алисы" стоило бы меньше всех говорить об экономике игры. Но мы готовим монетизацию, она в стадии бета. Мы уже набрали пользователей для тестирования, чуть позже начнем открывать для всех. Будет хорошо. Буквально вчера наша команда запустила добавление собственных звуков в навыки. Это очень важное добавление", — сказала она.

Игры для "Алисы" можно при желании адаптировать и для других голосовых помощников, в этом большой магии нет и технически это несложный процесс, пояснила "ДП" Першина. В ответ на вопрос, когда стоит ждать игры с несколькими ассистентами, представитель "Яндекса" не исключила их появления в будущем. "Как правило, задача поиграть при участии ассистента решается с помощью конкретного навыка, а если нам хочется по фану поиграть с "Марусей" и "Алисой" одновременно, то пока разработчикам это неинтересно, непонятна стоимость разработки и ее перспективы. В эту историю я сейчас не верю, но это не значит, что в ближайшее время такой проект не выстрелит", — сказала она. Когда развивались поисковые системы, было все то же самое, отметила Першина.

"Одна, две системы, потом бум, но в итоге все схлопнулись, остались крупные игроки, которые концентрировались на развитии своих экосистем. Здесь, с голосовыми помощниками, скорее всего, произойдет то же самое. Проблема в том, что стоимость входа на этот рынок очень высока, особенно на русском языке. Позволить себе это могут только компании с технологическими мощностями и бюджетом. Конечно, назвать чат-бота голосовым ассистентом очень просто, их будет появляться очень много, но это просто сценарий для конкретной задачи", — подчеркнула представитель "Яндекса".