SoundHound наделяет свой ИИ способностью видеть

SoundHound AI, уже являющийся одним из ведущих игроков на рынке голосовых помощников, теперь наделяет свою технологию видением.

Представьте, что вы проезжаете мимо достопримечательности и, не доставая телефон, спрашиваете машину: «Что это за здание там?» — и получаете мгновенный ответ. Именно это и разрабатывает SoundHound AI.

С запуском Vision AI новая система SoundHound объединяет зрение и слух, создавая гораздо более интеллектуальный и естественный способ взаимодействия с технологиями. Идея заключается в том, чтобы имитировать то, как мы, люди, действуем: мы не просто слушаем собеседника, мы также видим его жесты и видим то, на что он смотрит.

Применяя такое же понимание контекста к ИИ, SoundHound надеется сгладить неуклюжий и зачастую раздражающий опыт, который мы испытываем со многими современными умными устройствами. Компания нацелена на реальные приложения, где это сочетание чувств может иметь огромное значение, будь то в вашей следующей машине, в ресторане с обслуживанием на вынос или в заводском цехе.

Кейван Мохаджер, генеральный директор SoundHound AI, сказал, что они верят в SoundHound, и что будущее ИИ не только в мультимодальном подходе, но и в глубокой интеграции, адаптивности и создании реального воздействия.

С Vision AI компания укрепляет свое лидерство в области голосового и разговорного ИИ, чтобы переосмыслить взаимодействие людей с продуктами и услугами, предлагаемыми и используемыми компаниями.

Итак, как это работает? Vision AI получает прямую трансляцию с камеры и совмещает её с голосовой технологией компании, которая и без того превосходно распознаёт естественную речь. Обрабатывая то, что видит и слышит, одновременно, система может понять истинные намерения пользователя так, как это никогда не смог бы сделать простой голосовой помощник.

Представьте себе механика в умных очках, который может просто посмотреть на деталь двигателя и запросить инструкции, получая мгновенные визуальные и звуковые подсказки, не откладывая в сторону инструменты. В магазине сотрудник может сканировать полки, просто взглянув на них, чтобы получить информацию о наличии товара в режиме реального времени. Для большинства из нас это может означать киоск со сквозным проездом, который визуально подтверждает наш заказ на экране в тот момент, когда мы его произносим.

Одна из самых больших технических проблем при создании такой системы — обеспечить идеальную синхронизацию аудио и видео элементов. Любая задержка разрушит иллюзию естественного разговора.

Пранав Сингх, вице-президент по инжинирингу SoundHound AI, прокомментировал, что с Vision AI они объединяют визуальное распознавание и разговорное… Интеллектуальные технологии объединяются в единый синхронизированный поток. Каждый кадр, каждое высказывание, каждое намерение интерпретируются в рамках единой экосистемы, обеспечивая более быстрый и естественный пользовательский опыт, масштабируемый на всех устройствах — от киосков до встраиваемых.

Это инновация на стыке интеллектуальных технологий и реализации, предоставляющая ИИ, который видит то, что видите вы, слышит то, что говорите, и реагирует мгновенно.

Компании, внедряющие эту технологию, обещают более быстрое обслуживание, меньше ошибок и более довольных клиентов. Речь идёт об устранении помех и превращении технологий из инструмента, которым нужно управлять, в партнёра, который помогает вам добиваться результатов.

Эта новая визуальная функция — не единственное обновление, которое внедряет SoundHound. Компания также недавно улучшила «мозг» своей системы, выпустив новое обновление Amelia 7.1. Это улучшение делает её ИИ-агентов быстрее, точнее и даёт компаниям больше контроля и прозрачности в их работе. Объединяя зрение и звук, SoundHound стремится приблизить нас к миру, в котором взаимодействие с ИИ будет таким же простым и интуитивно понятным, как общение с другим человеком.

Источник

Добавить комментарий Отменить ответ