网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

讯飞发布新交互大模型:数字人语音视觉三合一,智能体验再升级!

2024-11-14来源:ITBEAR编辑:瑞雪

讯飞开放平台今日宣布重大进展,其全新研发的讯飞星火多模态交互大模型已正式上线。这一技术突破实现了从单一的语音交互到音视频流实时多模态交互的跨越,为用户带来更为丰富和自然的交互体验。

讯飞星火多模态交互大模型首次引入了超拟人数字人技术,该技术使得数字人的躯干和四肢动作能够与语音内容精准匹配,快速生成相应的表情和动作,从而让AI形象更加栩栩如生。通过统一文本、语音和表情的表达,该模型在跨模态的语义一致性上取得了显著成效,使得大模型的情感表达更为真实和连贯。

在交互速度方面,该模型同样表现出色。它采用了统一的神经网络,直接实现了语音到语音的端到端建模,从而大大提升了响应速度和流畅性。该模型还能够敏锐地感知用户的情绪变化,并根据指令自由调整声音的节奏、大小和人设,为用户提供更加个性化的交互体验。

讯飞星火多模态交互大模型还支持多模态视觉交互。它不仅能够“听懂世界”,更能“认清万物”,通过全面感知具体的背景场景、物流状态等信息,对任务的理解更加精准。同时,该模型还能够综合判断语音、手势、行为和情绪等多种信息,作出更为合适的响应。

据此前报道,用户已经可以与数字人进行自然的语音和视频通话。在通话过程中,数字人不仅能够实现与用户的自然语音对话,其人物表情等也能够与说话语句相匹配。星火超拟人数字人还支持多模态交互功能,这使得数字人能够识别摄像头中的内容,如识别孙悟空和奥特曼站在一起、识别面霜的品牌和作用以及花的品类等。

阿里通义App焕新升级更名千问 5.0.0版本携三大核心能力强势登场
今日,阿里旗下通义App今日发布更新,名称正式变更为千问App,版本号为5.0.0。 在版本 5.0.0中,千问强调其核心能力包括:“对话问答”“智能写作”“全能相机”三大模块。 据知情人士透露,阿里巴巴计…

2025-11-15

谷歌前工程师再创业!AI数据分析新锐WisdomAI获英伟达等3.55亿融资
WisdomAI面向企业客户推出了AI驱动的对话式商业智能(BI)平台,提供AI数据分析业务,用户只需用自然语言提问便可获取分析后的答案。 WisdomAI称:“过去的BI只提供被动的、静态的仪表板,而Ag…

2025-11-15

百度世界大会发布AI新成果:文心5.0、昆仑芯升级,萝卜快跑领跑全球
李彦宏在大会上表示,“我们用AI重构搜索结果页,不是简单地在搜索结果中插入AI摘要,而是把搜索从一个以文字内容和链接为主的互联网应用,转化为一个以图片视频等富媒体内容为主的AI应用。” 在李彦宏看来,AI数字…

2025-11-14

百度世界大会亮点频出:文心5.0等成果发布,AI重构业务引领生产力革新
李彦宏在大会上表示,“我们用AI重构搜索结果页,不是简单地在搜索结果中插入AI摘要,而是把搜索从一个以文字内容和链接为主的互联网应用,转化为一个以图片视频等富媒体内容为主的AI应用。” 在李彦宏看来,AI数字…

2025-11-14

乌镇峰会:前沿科技碰撞,共绘网络空间命运共同体数智新蓝图
“非洲互联网之父”、加纳科网董事长尼·奎诺表示,像乌镇峰会这样的平台为发展中国家提供了宝贵的发声机会和参与空间;世界知识产权组织总干事邓鸿森表示,乌镇峰会为我们提供全球对话与合作的契机,这种对话与合作不仅是…

2025-11-13