SoundHound AI, уже являющийся одним из ведущих игроков на рынке голосовых помощников, теперь наделяет свою технологию видением.
Представьте, что вы проезжаете мимо достопримечательности и, не доставая телефон, спрашиваете машину: «Что это за здание там?» — и получаете мгновенный ответ. Именно это и разрабатывает SoundHound AI.
С запуском Vision AI новая система SoundHound объединяет зрение и слух, создавая гораздо более интеллектуальный и естественный способ взаимодействия с технологиями. Идея заключается в том, чтобы имитировать то, как мы, люди, действуем: мы не просто слушаем собеседника, мы также видим его жесты и видим то, на что он смотрит.
Применяя такое же понимание контекста к ИИ, SoundHound надеется сгладить неуклюжий и зачастую раздражающий опыт, который мы испытываем со многими современными умными устройствами. Компания нацелена на реальные приложения, где это сочетание чувств может иметь огромное значение, будь то в вашей следующей машине, в ресторане с обслуживанием на вынос или в заводском цехе.
Кейван Мохаджер, генеральный директор SoundHound AI, сказал, что они верят в SoundHound, и что будущее ИИ не только в мультимодальном подходе, но и в глубокой интеграции, адаптивности и создании реального воздействия.
С Vision AI компания укрепляет свое лидерство в области голосового и разговорного ИИ, чтобы переосмыслить взаимодействие людей с продуктами и услугами, предлагаемыми и используемыми компаниями.
Итак, как это работает? Vision AI получает прямую трансляцию с камеры и совмещает её с голосовой технологией компании, которая и без того превосходно распознаёт естественную речь. Обрабатывая то, что видит и слышит, одновременно, система может понять истинные намерения пользователя так, как это никогда не смог бы сделать простой голосовой помощник.
Представьте себе механика в умных очках, который может просто посмотреть на деталь двигателя и запросить инструкции, получая мгновенные визуальные и звуковые подсказки, не откладывая в сторону инструменты. В магазине сотрудник может сканировать полки, просто взглянув на них, чтобы получить информацию о наличии товара в режиме реального времени. Для большинства из нас это может означать киоск со сквозным проездом, который визуально подтверждает наш заказ на экране в тот момент, когда мы его произносим.
Одна из самых больших технических проблем при создании такой системы — обеспечить идеальную синхронизацию аудио и видео элементов. Любая задержка разрушит иллюзию естественного разговора.
Пранав Сингх, вице-президент по инжинирингу SoundHound AI, прокомментировал, что с Vision AI они объединяют визуальное распознавание и разговорное… Интеллектуальные технологии объединяются в единый синхронизированный поток. Каждый кадр, каждое высказывание, каждое намерение интерпретируются в рамках единой экосистемы, обеспечивая более быстрый и естественный пользовательский опыт, масштабируемый на всех устройствах — от киосков до встраиваемых.
Это инновация на стыке интеллектуальных технологий и реализации, предоставляющая ИИ, который видит то, что видите вы, слышит то, что говорите, и реагирует мгновенно.
Компании, внедряющие эту технологию, обещают более быстрое обслуживание, меньше ошибок и более довольных клиентов. Речь идёт об устранении помех и превращении технологий из инструмента, которым нужно управлять, в партнёра, который помогает вам добиваться результатов.
Эта новая визуальная функция — не единственное обновление, которое внедряет SoundHound. Компания также недавно улучшила «мозг» своей системы, выпустив новое обновление Amelia 7.1. Это улучшение делает её ИИ-агентов быстрее, точнее и даёт компаниям больше контроля и прозрачности в их работе. Объединяя зрение и звук, SoundHound стремится приблизить нас к миру, в котором взаимодействие с ИИ будет таким же простым и интуитивно понятным, как общение с другим человеком.