京东即将开源视觉语言实时交互模型_coonline新闻

文章目录 [+]

6月17日，《科创板日报》记者独家获悉，京东团队即将开源视觉语言实时交互模型JoyAI-VL-Interaction。

记者从一份在开源社区和海外AI技术圈受到关注的技术报告获悉，JoyAI-VL-Interaction把多模态大模型从"一问一答"，推进到"实时流式交互"，适合需要AI持续在场的场景。报告将JoyAI-VL-Interaction与豆包、Gemini 的App内视频通话助手进行了人工评测，覆盖监控预警、实时计数、实时翻译、时间感知、直播解说和引导、长程记忆六类场景。

在58个案例中，JoyAI-VL-Interaction对豆包的总体胜率为77.6%，对Gemini的总体胜率为87.9%。其中，在监控预警场景中，对两个基线均取得100%胜率。 (科创板日报）

你可能想看：

不用傻等AI回复了！OpenAI前CTO发布「实时交互模型」，未来新方向？

千问「AI办事」首次对外开放，千问吴嘉：自然语言交互将激发新需求

千问AI眼镜S1今日开售，支持语音与视觉融合的多模态交互

蔚来开启五一服务保障，将开设道路服务补给站

OpenAI披露“哥布林现象”成因：个性训练奖励意外放大模型语言偏差

大语言模型会在蒸馏中「夹带」自己的偏好

京东开源图像模型JoyAI-Image-Edit，空间编辑与理解能力达到世界一流水平

对话橡木果姜峣：「语言没有本能，操作有」，一群清华博士用8年时间押注具身新路线