微软新探索：音生图AI，实时视觉化会议演讲场景？-科技人物-网界科技

近日，科技媒体MSPoweruser发布报道，透露微软公司新获一项创新专利，该专利描述了一种基于用户实时语音输入来生成图片的技术。

据悉，这项专利文件长达20页，微软于2023年4月5日提交申请，并于10月10日获得批准。根据专利的详细描述，该系统能够在会议或讲座等场合实时捕捉音频内容，随后利用语言模型对这些音频进行总结，并据此生成相应的AI图像。

该专利所描述的工作流程分为三个主要步骤：首先是捕捉音频，即用户通过麦克风发言，系统实时记录并将其转化为文本；其次是处理文本，系统将文本分段记录，并对每段内容通过语言模型进行总结；最后是生成图像，系统根据总结生成的提示，创建AI生成的图像，并在屏幕上实时显示。

预计这一功能将主要应用于Microsoft Teams平台。随着演讲者话题的变化，实时生成的图像也会随之更新，从而为用户带来更加丰富的视觉沟通体验。微软表示，这种图像的使用有助于澄清概念，尤其适合那些需要通过视觉辅助来学习的用户。