Перейти к содержимому

За VR

Меню
  • Главная
  • AR
  • VR
  • Новости
Меню

Компания Samsung оценивает реальную производительность корпоративных моделей ИИ

Опубликовано в 02.10.2025
AliExpress WW


                Компания Samsung оценивает реальную производительность корпоративных моделей ИИ

Компания Samsung оценивает реальную производительность корпоративных моделей ИИ

Samsung преодолевает ограничения существующих бенчмарков, чтобы лучше оценить реальную производительность моделей ИИ в корпоративных условиях. Новая система, разработанная Samsung Research и получившая название TRUEBench, призвана устранить растущее несоответствие между теоретической производительностью ИИ и его фактической практической пользой.

По мере того, как компании по всему миру ускоряют внедрение крупных языковых моделей (LLM) для повышения эффективности своей деятельности, возникла проблема точной оценки их эффективности. Многие существующие бенчмарки ориентированы на академическое или общее тестирование знаний, часто ограниченное знанием английского языка и простыми вопросами и ответами. Это создало пробел, из-за которого предприятия остались без надежного метода оценки того, как модель ИИ будет работать со сложными, многоязычными и контекстно-зависимыми бизнес-задачами.

TRUEBench от Samsung (сокращение от Trustworthy Real-world Usage Evaluation Benchmark) был разработан для восполнения этого пробела. Он предоставляет комплексный набор метрик для оценки LLM на основе сценариев и задач, непосредственно связанных с реальной корпоративной средой. Бенчмарк основан на обширном опыте Samsung в использовании моделей искусственного интеллекта внутри компании, что гарантирует соответствие критериев оценки реальным требованиям рабочего места.

Фреймворк оценивает такие общие корпоративные функции, как создание контента, анализ данных, обобщение объёмных документов и перевод материалов. Они разбиты на 10 отдельных категорий и 46 подкатегорий, что обеспечивает детальное представление о возможностях ИИ в плане производительности.

Исследовательский центр Samsung обладает глубокими знаниями и конкурентным преимуществом благодаря своему реальному опыту в области ИИ. Компания ожидает, что TRUEBench установит стандарты оценки производительности.

Чтобы преодолеть ограничения старых бенчмарков, TRUEBench построен на основе 2485 разнообразных наборов тестов, охватывающих 12 различных языков и поддерживающих кросс-лингвистические сценарии. Такой многоязычный подход критически важен для глобальных корпораций, где информация циркулирует между различными регионами. Тестовые материалы отражают разнообразие рабочих запросов: от кратких инструкций из восьми символов до сложного анализа документов, превышающих 20 000 символов.

Компания Samsung осознаёт, что в реальном бизнес-контексте намерение пользователя не всегда чётко выражено в его первоначальном запросе. Поэтому бенчмарк предназначен для оценки способности модели ИИ понимать и удовлетворять эти неявные корпоративные потребности, выходя за рамки простой точности и предлагая более тонкие критерии полезности и релевантности.

Для достижения этой цели исследовательская компания Samsung разработала уникальный процесс совместной работы экспертов и ИИ для разработки критериев оценки производительности. Изначально аннотаторы устанавливают стандарты оценки для данной задачи. Затем ИИ анализирует эти стандарты, проверяя их на наличие потенциальных ошибок, внутренних противоречий или ненужных ограничений, которые могут не отражать реалистичные ожидания пользователя. Получив обратную связь от ИИ, аннотаторы уточняют критерии. Этот итеративный цикл гарантирует точность окончательных стандартов оценки и их соответствие высокому качеству результата.

Этот процесс перекрестной проверки обеспечивает автоматизированную систему оценки, которая оценивает эффективность LLM. Используя ИИ для применения этих уточненных критериев, система минимизирует субъективную предвзятость, которая может возникнуть при оценке, проводимой исключительно человеком, обеспечивая единообразие и надежность всех тестов. TRUEBench также использует строгую модель оценки, согласно которой модель ИИ должна соответствовать всем условиям теста для получения проходного балла. Такой подход «все или ничего» к отдельным условиям позволяет более детально и точно оценивать эффективность моделей ИИ при выполнении различных корпоративных задач.


                Компания Samsung оценивает реальную производительность корпоративных моделей ИИ

Для повышения прозрачности и стимулирования более широкого внедрения Samsung опубликовала образцы данных и таблицы лидеров TRUEBench на глобальной платформе с открытым исходным кодом Hugging Face. Это позволяет разработчикам, исследователям и компаниям напрямую сравнивать производительность до пяти различных моделей ИИ одновременно. Платформа предоставляет наглядное представление о том, как различные модели ИИ справляются с практическими задачами.

Полные опубликованные данные включают среднюю длину ответов, сгенерированных ИИ. Это позволяет одновременно сравнивать не только производительность, но и эффективность, что является ключевым фактором для компаний, учитывающих эксплуатационные расходы и скорость.

С запуском TRUEBench компания Samsung не просто выпускает очередной инструмент, но и стремится изменить представление отрасли об эффективности ИИ. Перемещая центр тяжести с абстрактных знаний на ощутимую производительность, бенчмарк Samsung может сыграть важную роль в принятии организациями более обоснованных решений о том, какие модели корпоративного ИИ интегрировать в свои рабочие процессы, и сократить разрыв между потенциалом ИИ и его доказанной ценностью.

Источник

AliExpress WW

Добавить комментарий Отменить ответ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

AliExpress RU&CIS NEW

ВсеИнструменты

Свежие записи

  • Миниатюрная модель ИИ от Samsung превосходит гигантские модели LLM
  • Wildlife Doctor превращает Safari Healthcare в травматологический центр в виртуальной реальности
  • ​Дополненная реальность для одежды
  • ​Заказать маску для инстаграм — Купить маску для instagram — история одной покупки
  • Как сделать свой собственный аватар для Vtuber
ТУТ МОЖЕТ БЫТЬ ВАША РЕКЛАМА
©2025 За VR | Дизайн: Газетная тема WordPress