网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

科大讯飞数字人新突破:多模态交互技术领先,两项国际标准结项待发

2025-11-26来源:快讯编辑:瑞雪

在2025年科大讯飞全球1024开发者节上,一位名为“小飞”的数字人成为全场焦点。这位具备多模态超拟人交互能力的数字人,不仅能听会看、精准识别对话者身份,还能根据历史对话提供个性化提醒,甚至支持一键订票、外语交流等复杂功能。更令人惊叹的是,当它化身数字人林黛玉时,清丽的形象与惟妙惟肖的语气,让在场观众仿佛穿越时空。

在多人对话场景中,“小飞”展现出强大的环境适应能力。通过融合语音、人脸、姿态等多维度信息,系统能精准锁定说话人位置,即使身处5米外的嘈杂环境,也能实现0dB远场语音识别。其独创的说话人引导注意力增强方案,可对交互区域进行细粒度视觉分析,配合局部检索增强技术,即便在远场条件下也能精准识别物体细节。这种技术突破,让数字人真正具备了“耳聪目明”的感知能力。

认知层面的革新同样显著。基于对话历史与语音活动状态分析,系统能准确判断交互时机与用户意图,在多人对话中既不会“抢答”也不会“冷场”。更值得关注的是其情感解析能力,通过分钟级情绪识别技术,数字人能深度共情对话者的真实心绪,在某次演示中,当用户提及工作压力时,“小飞”不仅调整了回复语气,还主动推荐了附近的减压场所。

表达层面的温度感源于技术创新。多情感语音合成技术通过上下文信息建模,能感知对话中的情感变化,并自适应调整合成声音的情绪语气。在演示中,当用户连续询问天气与交通状况时,数字人的回复从平和逐渐转为关切,语音节奏与停顿也相应变化。这种自然流畅的交互体验,得益于分层式动态记忆体架构,该架构可实现长短期记忆协同,使数字人既能记住用户偏好,又能进行逻辑推理。

技术突破的背后,是扎实的产业积累。科大讯飞自主研发的星火大模型为数字人提供了认知理解基础,而其在语音、自然语言处理领域的全栈技术积累,则构建了交互系统的基石。此前,讯飞AI虚拟人交互平台已通过中国信通院最高等级L5认证,这为其参与国际标准制定提供了关键依据。在瑞士日内瓦召开的ITU-T SG21全体会议上,由科大讯飞与中国信通院共同编辑的两项数字人国际标准顺利结项,标志着中国技术实践正式成为全球产业规范。

技术价值最终要体现在应用场景中。讯飞智作平台已构建超10万数字分身与500万声音复刻库,覆盖教培、金融、文旅等领域。某银行客户通过该平台生成的数字员工,不仅能准确解答业务问题,还能根据客户情绪调整沟通策略,使咨询转化率提升37%。而讯飞AI虚拟人交互平台则提供软硬一体化解决方案,其智能交互机已部署在200余个政务服务中心,日均服务量突破10万人次。

从技术突破到标准制定,再到场景落地,科大讯飞在数字人领域构建了完整生态链。这种闭环发展模式正在产生连锁反应:在文旅场景中,数字导游可同时服务50名游客;在医疗领域,虚拟护士能24小时监测患者状态;在教育场景,AI教师可实现个性化教学。随着技术持续进化,数字人正在从交互工具进化为真正的智能伙伴。

从机器学习到AI前沿:杨震原揭秘字节跳动近十年技术探索之路
我们在模型结构、自研服务器上也有很多探索,这也让我们实现了大模型的低调用成本。即便在数字世界,虽然目前的大模型,在视频、图片合成方面的能力已经超过人类,但是在众多内容理解、界面操作等方面,模型还是和人有比较…

2025-11-26

龙头家电ETF(159730)开盘微跌0.09%,重仓股多数飘红三花智控领涨
来源:新浪基金∞工作室 11月25日,龙头家电ETF(159730)开盘跌0.09%,报1.071元。龙头家电ETF(159730)重仓股方面,三花智控开盘涨1.86%,海尔智家涨0.30%,美的集团涨0.5…

2025-11-26

华为Mate 80系列首发麒麟9030处理器:性能显著提升,多版本配置亮相
11 月 25 日消息,在今天的华为 Mate 80 系列 | Mate X7 及全场景新品线上发布会上,Mate 80 系列手机正式发布。IT之家注意到,目前麒麟 9030 系列处理器已正式亮相。华为官网…

2025-11-26

华为Mate X7新机搭载阅读黑科技,AI动态图书让插画跃然“屏”上
在华为Mate X7上,华为阅读为用户带来了“AI动态图书”黑科技,在精品书上加入AI动态图书能力。 从精品音色的真人感听书体验,到AI眼动翻页用眼神翻书,再到本次AI动态图书能力的首发,华为阅读持续通过“技…

2025-11-26