слов.арь · bisovka

объясни voice-agents --простыми-словами

Иллюстрация к термину «Голосовые агенты»

Голосовые агенты

КороткоАгент, с которым ты просто говоришь вслух.

Ты уже знаешь худшую версию этого. Звонишь в компанию, отвечает робот, и ты попадаешь в ад. "Нажмите 1 для оплаты. Нажмите 2 для..." Ты сто раз жмешь ноль, пытаясь добраться до человека, а он продолжает читать то же меню тем же плоским бодрым голосом. Вот это телефонное дерево — штука, которую убивает голосовой агент.

Разница вот в чем. Телефонное дерево — это вендинговый автомат с голосом. У него девять кнопок, и это вся вселенная. Выйди за пределы меню — и оно не понимает, что ты говоришь.

Голосовой агент не читает меню. Это настоящий агент (AI, который может делать вещи, а не только болтать), которому дали две новые части:

Между этими двумя частями работает тот же мозг, которому ты бы печатал. Ты говоришь, он понимает, действует, отвечает голосом. Без набора текста. Без экрана. Без меню. Просто разговор вслух, в реальном времени.

Представь динамик drive-thru, только голос реально умеет делать работу.

Обычно парень у динамика просто принимает заказ, а отдельная кухня делает все остальное. Голосовой агент — как будто динамик, и кухня, и кассир в одном. Ты говоришь, что хочешь, а он может:

И все это во время нормального разговора, а не заставляя тебя нажимать цифру на каждом шаге.

Магия не в том, что он умеет говорить. Говорящих роботов полно. Чтобы он ощущался человеком, а не чем-то странным, одновременно должны сработать три более сложные вещи:

  1. Скорость. Когда ты заканчиваешь фразу, а перед ответом висит длинная мертвая пауза, магия мгновенно ломается. Он должен возвращаться достаточно быстро, чтобы это ощущалось как разговор, а не как ожидание факса.
  2. Перебивания. Настоящие разговоры неровные. Ты перебиваешь, меняешь решение на полуслове, говоришь "нет, стой, другой". Хороший голосовой агент замолкает в момент, когда ты начинаешь говорить, как сделал бы вежливый человек. Плохой продолжает читать скрипт поверх тебя.
  3. Реально делать дело. Это весь смысл, и именно эту часть легко подделать. Приятно звучать дешево. Делать что-то (найти твой заказ, перебронировать рейс, оформить возврат) значит тянуться через окно drive-thru к реальному софту за кулисами. Приятный голос, который ни к чему не может прикоснуться, — просто более нарядное сообщение на удержании.

Из-за третьего пункта это именно агент, а не чатбот с красивым голосом. Он не рассказывает, что ты мог бы сделать. Он идет и делает это, пока ты говоришь.

Где ты скоро с ними столкнешься, если еще не столкнулся:

И честная оговорка: голосовой агент может быть уверенно неправ вслух, как любая модель, только быстрее и сложнее для проверки, потому что на экране нечего прокрутить назад. Хороший агент знает свои границы и передает тебя человеку в ту секунду, когда запрос выходит за то, что ему разрешено делать. Такой handoff — не провал. Это функция, которая не дает ему уверенно забронировать тебе рейс не в тот город.

Хватит нажимать 1. Просто скажи, что тебе нужно.

← все термины