网界
网络资讯 产业经济 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

微软开源OmniParser,GPT-4V秒解析屏幕截图,智能新突破!

2024-10-29来源:ITBEAR编辑:瑞雪

微软近日宣布了一项重大开源项目——OmniParser,这是一款专为解析和识别屏幕上可交互图标设计的AI工具。传统自动化方法受限于HTML或视图层次结构,而现有的视觉语言模型在处理复杂GUI元素时又显得力不从心。为此,微软推出了这款纯视觉基础的工具,旨在解决当前屏幕解析技术的局限性。

OmniParser结合了可交互区域检测模型、图标描述模型和OCR模块,无需依赖HTML标签或视图层次结构等显式基础数据。这一特性使得它能够在桌面、移动设备和网页等多种平台上跨平台工作,显著提高了用户界面的解析准确性。OmniParser还能将识别出的屏幕元素转换成结构化的数据。

在实际测试中,OmniParser展现出了卓越的性能。在ScreenSpot数据集中,它的准确率提高了73%,远超依赖HTML解析的模型。同时,当GPT-4V使用OmniParser的输出后,图标的正确标记率从70.5%提升至93.8%。这些改进充分证明了OmniParser在解决当前GUI交互模型根本缺陷方面的有效性。

微软已在Hugging Face上发布了OmniParser,这一举措将有助于普及这一前沿技术,进一步推动多模态AI的发展,特别是在无障碍、自动化和智能用户辅助等领域。

2025CSDI:大模型引领智能研发与IT组织变革
今年大家会听到越来越多的AI化、智能化,商业化,这些会成为主流旋律。未来,AI技术的发展从可靠、能干、聪明的阶段,将被部署到更广泛的场景中。得益于算法和算力的技术突破,带来了AI的更新变革,也为行业带来更多的能力和动力去获取更多的数据。AI的发展与AI的应用紧

2025-08-13

周鸿祎称智能体是“赛博牛马” 上班可以摸鱼自由了
文 / 玄玄也美编 / 顾青青出品 / 网界8月6日,第十三届互联网安全大会(ISC.AI 2025)在北京国家会议中心盛大开幕。这场以 “All In Agent” 为主题的盛会,因 360 集团创始人周鸿祎的一番惊人言论瞬间引爆舆论。周鸿祎表示,“智能体将变成我们的赛博牛马,做繁琐的工作

2025-08-07

快手可灵 AI 太能打,商业化跑得比谁都快
文 / 玄玄也美编 / 顾青青出品 / 网界最近,花旗和长江证券的研报都表示,快手可灵 AI 的商业化进程超出了预期。这个判断主要来自实实在在的成果,就在上周的世界人工智能大会上,可灵AI亮出成绩单,目前可灵 AI 在全球已经有超过 4500 万创作者,产品发布到现在升级了

2025-08-05