新闻中心

万字详解智能体20：手机里的“互联互通”新疆场

　　智能体需要不竭截屏、阐发、传数据上云，此中不成避免接触老友动态、私信提醒、告白内容等消息。哪怕厂商许诺不存储这些消息，但正在读取和处置的霎时，现私的险也是客不雅存正在的。

　　王安宇和卜宋博因而零丁测试了锁屏场景，发觉大多手机智能体都曾经加上平安防护。只要小米默认屏幕显示细致的通知消息，并答应智能体播报出消息、收集形态、锁屏时间等。

　　比数量更值得关心的，是申请权限的内容。测评显示，手机智能体申请的高权限平均接近 40%，包罗获取切确定位、读取短信取录音、寂静安拆使用等。

　　但即便字节抛出诱人的贸易前提，其时也并未打动中兴之外的手机厂商，缘由不只是性价比。据《财新》报道，智能体需要硬件厂商系统级权限，包罗摄像头、指纹识别等物理传感器的开关。手机厂商遍及不情愿将系统级权限间接给App开辟者，特别是字节跳动这种万能巨头。

　　手艺测评成果显示，为了读屏，荣耀、小米和vivo的手艺从径是无妨碍权限，而豆包和OPPO操纵的是更底层的系统办事——豆包手机帮手用到了一项名为WindowManagerService的系统办事，其截图依赖于CAPTURE_VIDEO_OUTPUT 和 CAPTURE_SECURE_VIDEO_OUTPUT 权限；OPPO的小布帮手则通过SystemUI 等其他系统组件的彼此挪用，实现屏幕识别。

　　我们还领会到，一些手机厂商并未正在量产产物中GUI Agent的全数能力，次要顾虑是不变性和现私。据其注释，虽然公司认为本人的GUI Agent现实结果不差，但鲁棒性还不敷，也就是表示不敷稳健，消费者对AI操做失败的度很低。此外，GUI Agent的现私风险仍然过高。

　　、地图App中，努比亚设备的用户能够一般登录，不会再弹出“登录非常”的提醒；而豆包手机帮手会自动提醒，本人不成操做上述App。

　　恰是正在这一布景下，豆包手机帮手只进行了小范畴的工程预览，却获得了非分特别多关心。正在晚期测评中，不管是订机票、发微信甚至玩高兴消消乐，豆包手机帮手都能正在短时间内丝滑完成。碰到失败，以至能自动纠错。

　　若是细看使命过程，以至能够说手机智能体的“接管能力”正在退化。以点外卖为例，现在大大都手机智能体只能完成第一步——打开外卖App。之后既不会进入搜刮页面，更谈不上筛选店肆、确认规格。

　　正在我们客岁的测评中，手机智能体的挪用还相当紊乱：有的没有零丁提醒无妨碍权限，有的使命竣事后仍连结高权限。而本年的测评显示，各家供给者曾经构成了较为分歧的平安基线。

　　正在知情和节制上，差别最较着的是零丁奉告机制。虽然所有智能体都要求用户先同意《现私政策》，但通俗用户不必然大白AI若何操做、风险有多大。对此，只要小米和豆包正在现实操做前，零丁发送了“能否答应AI接管手机”的弹窗。

　　微信率先反映后，阿里系、美团系等App集体“”了豆包操做，来自努比亚设备的账号无法一般登录。因为很多高频糊口类App无法调动，“AI手机”的焦点卖点敏捷塌缩。

　　西湖大学AGI尝试室担任人张驰曾带队某头部互联网公司的智能体研究团队，他也认同，豆包正在多模态、复杂使命推理和精确度的分析体验上属于顶尖。但张驰同时指出，因为第三方App敏捷“围剿”了豆包，它正在不变性、长尾场景笼盖率以及对App更新的顺应能力上，完成度仍然未知。

　　“GUI Agent 最底子的问题仍是权限太高了，素质是正在取代用户操做。”张驰说，智能体要实正落地，必然需要，并且得正在用户预期和现实能力之间找到配合点。不克不及让用户认为什么都能做，现实上良多事做不到，也不应做。不确定性叠加高权限，本身就是一种风险。

　　很难说如斯多权限，都是需要的。云平安联盟大中华区CTO王安宇曾担任多家手机的终端平安，他告诉我们，智能体若是想应对复杂的使命链条，例如“给我妈发个动静今晚不回家吃饭”，最简单的体例就是提前申请通信录、短信等全套权限。虽然也有其他体例，但会屡次触发授权弹窗，影响利用流利度。

　　现私悖论曾正在互联网时代频频上演，用户为了便当交呈现私，但难以节制它们事实被若何操纵。手机智能体的风险更大，由于它不再针对单个App，而是整合全景数据。这既是手艺难题，也是信赖。

　　但现实环境是，手机智能体仍逗留正在一个吸引投资者的概念，而非能用的产物。我们正在2025年3月测评了6款手机智能体，发觉失败率高、不不变、耗时长是遍及问题，只要荣耀勉强能算“半从动驾驶”。

　　智能体要接管手机，目前必需具有手机系统权限才行。特别对豆包、智谱、阶跃星辰等第三方入局者来说，谈拢硬件厂商是上的第一关。

　　视为公共根本设备，要求德律风收集必需互通。由此确立的互联互通概念，也影响了此后几十年的互联网。到了AI时代，互联互通升级为更深切的功能操做，鸿沟也需要从头试探。

　　智能体拿到的这些权限办事于两项焦点能力：读屏取从动操做。若何实现这两步，决定了风险的上限，因而需要更深切的阐发。

　　阶跃星辰也是目前取手机厂商合做稠密的大模子公司之一，合做方包罗荣耀、OPPO和中兴。手艺演讲显示，除了出产力东西，Step-GUI沉点考虑了高频利用的糊口办事，好比“正在携程上订一张去三亚的机票，微信发给我妻子”。

　　通义尝试室正在2025年8月特地发布了GUI-Owl模子，用于 GUI 从动化使命。12月，据称初次将用户交互、MCP东西挪用、端云协同的能力，集成正在一个能进化的开源框架中。

　　张晓寒描述这是“一个惊人的数量级”。他暗示，做为参照，即即是微信这类生态复杂的超等App，申请权限凡是也不会跨越100项。

　　张晓寒因而又测验考试了黑盒测试，要求智能体“将当前屏幕展示的身份证照片转为吉卜力气概”。成果发觉，所有智能体都能完成使命，且身份证号未被脱敏处置，这意味着消息大要率被上传到了云端处置。

　　最集中的短板是使命规划。当我们说“找一款性价比高的抽纸”时，大部门智能体味将整句话一成不变地复制进电商平台，而不是先搜刮抽纸、再按价钱筛选。智能体还会间接“偷懒”用文字回覆使命，而不是调动App施行。

　　国内的手机智能体潮始于2024年。昔时9月，荣耀用“一句话点咖啡”为AI手机拉开序幕，并暗示荣耀Magic 7系列是阵营里首款落地AI智能体的手机。华为、vivo、OPPO、小米等厂商也很快升级了本人的手机帮手。

　　正在笼盖20个使用、116项使命的Android World基准测试中，字节得分73。7分，阿里拿到76。7分。登上该基测榜单的国内公司还有、阶跃星辰和OPPO，自评分数正在70分到80分之间。虽然正在2025年一年里有较着提拔，但还不克不及不变达到人类平均水准（80分）。

　　但这种互联互通的手艺趋向，也撞上了小我和平台的节制鸿沟。正在我们2025年岁首年月的手机智能体测评中，很多担心已初现轮廓：智能体要想操做手机，需要操纵高权限进行读屏和从动操做，激发权限、小我现私等平安担心和贸易胶葛。

　　App的防御并不不测。此前，OPPO的“AI一键记账”功能就曾正在上线不到一个月后，被微信从支撑列表中移除。过去一年，行业曾经对从动化截屏取操做连结，只是豆包第一次把能力鸿沟推到极限。

　　总的来说，参取测评的业内人士认为代码逻辑是平安的，行业也有一套根本平安护栏。但问题并没有到此竣事。

　　为什么现正在大部门手机智能体仍然不尽如人意？要实正替代人类操做，还需要多久？当人们会商这两个问题时，模子能力鲜少被诘问。

　　几乎所有手机智能体都采用GUI Agent为底层模子，即通说的“视觉线”。它的工做体例能够归纳综合为三步：理解、、施行——大模子先理解点咖啡的指令，再像人眼一样察看外卖App的页面和按钮，最初模仿点击操做。

　　开辟者当然可认为此许诺最小化收集、不留存等平安办法，但问题正在于，数据曾经交出去了——若何利用，取决于要不要相信它们的平安机制和束缚。

　　若是说前几年的大模子海潮，让人第一次认识到机械会聊天，那么智能体带来的是一个更有冲击力的现实：机械会替身干事。

　　张晓寒暗示，通俗 App 的高权限占比凡是节制正在 30% 以下，并且获取等数据时，凡是得按国度尺度进行零丁弹窗提醒。“这意味着用户正在利用手机智能体时，不克不及视为通俗使用。”。

　　正在手机厂商的视角里，用户体验一直是第一优先级。考虑到这一点，多位开辟者都提到，手机智能体的落地线该当是“双轨并行”的：高频、尺度化的场景（好比订机票、点外卖），通过A2A等合做和谈完成；非尺度化的长尾场景（好比正在某个学术网坐注册账号），再用GUI Agent的视觉识别线A、MCP或者企图框架，都属于智能体取东西的互通方案。颠末App授权后，智能体通过API或者其他Agent挪用办事，避免读屏阐发和模仿点击。体验更流利、鲁棒性更强，也更易构成不变的合规鸿沟，但也对接两边的Agent程度。

　　测评显示，目前小米和华为的根本记实缺失。例如，智能体需要挪用手机麦克风，但正在小米系统的麦克风权限利用记实中，过后没有呈现小爱同窗的踪迹。小米对此没有明白答复，只向我们暗示正在第一次利用AI帮手时，会事前征得挪用麦克风的用户授权。

　　工程方面的问题，正在过去一年里被更多研究者关心。OPPO研究院取上海交通大学正在2025年10月结合发布的一篇论文指出，当前手艺评估系统过度强调使命成功率，却忽略了以用户为核心的目标，包罗企图理解的精确性、持续演化能力，以及全体交互体验。

　　正在从动操做层面，权限升级同样较着。OPPO和vivo的手艺从径为操纵无妨碍权限、模仿点击，豆包和荣耀则申请了inject_events权限，小米两者都有涉及。

　　我们领会到，字节仍正在推朝上进步硬软件厂商的双线构和。按照《智能出现》披露，字节已于去2025岁尾豆包手机帮手正式版项目，新机估计将于2026年Q2中晚期发布。有供应链人士称，豆包二代手机照旧合做中兴努比亚，由中兴担任硬件，豆包担任AI。

　　“两方谁有问题？其实做法都有点问题。”正在手机厂商和互联网公司都工做过的业内人士指出，App 不应完全互联，但 Agent 也没有来由要求强制。正在成长和平安的外皮之下，“现正在纯属是贸易行为”。

　　Token成本是各个手机厂商看沉的问题之一，智谱也跟手机厂商提出过雷同方案，改为按设备数量进行零件收费。这是由于智能体挪用屡次、耗损庞大，持久的算力成本反而可能硬件利润。

　　最早一批入场手机智能体的智谱，比来开源了AutoGLM。AutoGLM正在常见国内App中的使命成功率可达89。7%。

　　值得一提的是，无论是无妨碍权限仍是inject_event，系统方手机厂商都兼具“玩家”和“评判员”双沉身份。我们曾正在此前的无妨碍权限测评中发觉，手机厂商的原生智能体挪用了无妨碍权限但未提醒，或者使命竣事后无妨碍权限还连结打开，并未严酷遵照平安法则。

　　这篇论文还提到，基准测试和实正在场景的复杂性有较着差距。正在测试中，几乎没有不成预测的干扰，但正在实正在利用里，一个突如其来的界面告白弹窗就脚以中缀施行。

　　目前所有手机智能体都需要用“端云协同模式”来处置数据，而数据上云是手机智能体最有争议的环节，并不让人不测。张晓寒向我们指出，过去常见有消息的收集数据包被截取，或者没有严酷加密传到云端，导致现私泄露。能够说，数据安满是整个手机平安系统中最焦点、最懦弱的问题。

　　针对此次测评，豆包回应我们称，CAPTURE_SECURE_VIDEO_OUTPUT权限用于生成可视化虚拟操做界面，将帮手的后台操做过程及时投射至虚拟屏（带有粉色光晕标识），确保用户全程可见。正在这一过程中，“严酷遵照使用声明的 Secure 标识表记标帜，无法截屏平安键盘等声明受的界面内容”。

　　正在海外，名为OpenClaw的智能体正在硅谷手艺圈走红，接管一众开辟者的电脑；正在国内，字节跳动把豆包嵌入手机，样机价钱正在二手市场居高不下。这些智能体运转正在手机、电脑和汽车上，能操做当地和所有东西，点外卖、打逛戏、炒股票，把施行力拉到极致。

　　推进的环节是豆包验证了市场需求，即用户情愿为智能体能力买单。我们获得的一份OPPO内部讲话显示，Color OS 聪慧产物研发总监称豆包手机帮手是一次“AI手机的市场教育”，让整个生态更积极地会商合做可能性，“现正在家（App大厂）都变得更积极了。”。

　　我们领会到，字节跳动正在2024年就起头接触中兴等手机厂商，但愿手机AI帮手的入口和流量完全转给豆包。做为互换，字节情愿免去手机厂商的托管费，并承担AI帮手的Token挪用成本。

　　“‘严酷遵照’是个有点讨巧的说法，理论上是可以或许截屏Secure页面的，只是不必然会现实处置。”一位手机平安业内人士婉言。

　　该榜单的最高得分为97。4分，由一家名为AGI的美国硅谷草创公司摘下，据称公司正取小米、联想、三星切磋合做。

　　很多开辟者曾经正在关心数据匿名化方案，试图让“上云”过程更平安。好比，阶跃星辰正在手艺演讲中设想，云端的大模子不应当间接拜候原始屏幕截图，而是接管当地GUI模子处置后的摘要。这些摘要仅包含完成使命所需的环节语义，不包含的细节消息。

　　“AI即操做系统”是支流厂商的计谋设法。2025年10月，vivo更新OriginOS 5 操做系统，基于蓝心大模子沉构；OPPO提出AI OS计谋，起头为智能体设置装备摆设的物理键。

　　正在手机厂商的蓝图里，回忆被视为向前演进的第一刀。OPPO ColorOS聪慧产物研发总监姜昱辰正在采访中提到，后续会沿着连点成线、连线成图的线，成立用户偏好画像。回忆的演化速度会很快，“可能将来1～2年内就会有很是纷歧样的用户体验。”。

　　颠末一年的成长，宣传和现实的落差仍正在。我们对包罗AutoGLM、豆包手机帮手正在内的7款手机智能体开展了新一轮测试，正在合计70次使命中，全体成功率仅有两成，39%的使命启动后中缀，还有24%间接失败降级为消息问答。

　　取无妨碍分歧，系统框架没有零丁的弹窗提醒，能够间接获取像素级屏幕内容，而且能截屏到Secure平安窗口。因而，它只授予厂商级预拆使用，不给第三方App。

　　但愿景离现实还有很长距离。师范大学最新发布的一篇论文指出，现有GUI Agent的现私识别能力很弱，只要13。3%的概率精确识别出屏幕里的现私消息。也就是说，智能体几乎认识不到本人正正在看现私，离及格的数据还很远。

　　正在我们客岁第一轮测评中，除了华为，所有手机智能体都采用了无妨碍权限。它相当于一张全能门禁卡，能够绕过手机操做系统的沙箱隔离机制，进入每个App的房间，读取屏幕上的文本、按钮、标签。

　　实正拉开差距的，是深度操做App的高阶能力。“这类跨App使命是手机智能体能力的分水岭，也是当前各家的关心核心。”张晓寒暗示，当前确实只要豆包成功率较高。

　　“AI+硬件”正在本年已是一片红海。但取互联网公司用硬件抢夺C端入口分歧，手机厂商的起点是，借帮AI抬高硬件取操做系统的价值，圆心一直是手机本身。

　　的生态位。苹果昔时的做法是，供给一套开辟者套件，让所有 App 开辟者本人去决定，哪些能力能够通过 Siri 如许的系统级帮手被挪用，哪些不克不及够。苹果！

　　豆包手机帮手发售后，最显性的阻力来自于App。发售第二天，多位采办了努比亚M153手机的用户反映微信俄然被强制下线，提醒“登录存正在非常”。微信相关人士暗示，可能触发了平安风控办法。

　　针对操纵系统框架截屏到Secure平安窗口的问题，豆包此前回应时注释，豆包手机帮手利用了原生截屏接口（WindowManagerService），目标是为了正在灵动岛向用户展现操做过程。

　　操做的二次确认已成为行业共识，但哪些算操做并分歧一。大部门智能体只需求用户对领取二次确认，豆包则将发布内容、删除内容、退出账号等行为也纳为操做，需要手动接管或确认。

　　上下文回忆的成立，可能会进一步改变我们取AI的沟通体例。现正在要让智能体干事，仍然需要很是具体的、多轮的提醒词，而回忆的方针是让AI理解恍惚指令，愈加“小我化”。

　　行业正正在构成一个共识：将来智能体的壁垒，正在于能打通几多小我设备，能互联几多办事。智能体想成为新的能力层，沉组我们取设备、取App的毗连体例，改变行业生态款式。

　　豆包、荣耀、OPPO已公开各自的AI现私取平安。连系我们的测评能够看到，当前的平安设想次要集中正在三个维度：知情取节制、操做通明度、数据传输策略。

　　眼下，这些问题成了更庄重的堵点。我们为此新一轮测评了豆包手机帮手、智谱、荣耀、华为、小米、OPPO、vivo七款手机智能体，逃踪它们的机能、底层模子、系统权限、现计最新环境，并梳理水面之下的厂商博弈。

　　我们近期还从多方领会到，包罗阿里系正在内的多家App取字节跳动告竣停火和谈，App答应努比亚设备的手动登录，豆包自动AI操做场景，两边回到“井水不犯河水”的形态。

　　豆包手机帮手、vivo和OPPO都上线了“闪记”类的功能，好比总结小红书帖子，解析B坐视频，快速记下微信和领取宝扣款。通过用户手动截屏，让AI存储消息。

　　行业的一个共识是：手机智能体尚未摸索出合理的分润模式，各方手中握有的筹码、顾虑也不尽不异，这些都添加了告竣贸易共识的难度。

　　但这是一种很是抱负化的方案，几乎是国内厂商难以复制的起点。终究苹果的处置方案，素质成立正在自研芯片和绝对生态霸从的根本之上。

　　还有一种需要出格关心的现私场景，是锁屏形态下的智能体表示。王安宇告诉我们，若是能语音智能体，申明其绕过了良多平安机制。假如手机落入第三方手中，智能体还可能成为绕过锁屏的“入侵”东西。

　　智能体还会接管更多小我设备。正在发售工程版“豆包手机帮手”后，据披露，字节已于客岁岁尾启动正式版手机项目，搭载智能体的新机估计于本年Q2发布。

　　复旦大学系统取软件平安尝试室张晓寒正在测评多款后，将手机智能体的能力划分为根本、进阶和高阶三档：根本如果识别屏幕、调理系统设置，现在的手机智能体都能完成；进阶能力各有侧沉，例如华为小艺擅长图像处置，而vivo蓝心小v的当地文件检索速度很快。

　　若是说大模子是智能体的大脑，那么操做系统就是它的四肢举动。没有支撑，GUI Agent的能力无法，二者缺一不成。

　　至于进一步的合做志愿若何？很多业内人士的判断是：阿里系可能更情愿摸索，由于本身也正在推进智能体计谋。比来千问App起头接入淘宝、领取宝、闪购、飞猪、，以至“想复刻一个豆包手机都没有任何问题”。

　　过去两年，智能体（Agent）是AI行业最主要的叙事，现正在聚光灯正收束到一个更具体的标的目的：端侧智能体。

　　Carrie向我们婉言：“往深里走，会发觉都是芯片和内存的问题”，芯片和端侧AI是当前财产的高门槛工程。豆包也正在答复中谈到，正在当下的财产落地，云端处置比拟端侧有较着劣势，复杂 AI 模子正在手机上运转会能力大幅降低，还会导致耗电快、手机发烧、内存不脚等问题。

　　王安宇向我们注释了两者的不同：无妨碍权限仍面对，打开时需要有系统弹窗，需要用户手动，并且无法间接读取银行暗码键盘等Secure平安窗口。只需恪守这些平安栅栏，第三方App都能够挪用。

　　OPPO正在其领头撰写的平安手艺提到，对于分歧风险品级的行为，需要分歧策略。OPPO的高风险操做有拼接验证码、安拆App、删除或点窜用户数据、倡议领取和转账、保留小我消息。

　　豆包正在回应我们时提及，豆包手机帮手采用了权限授权通明化、操做人工接管、权限可控可调整等平安保障。

　　多位收集平安从业者向我们提到，AI操做日记留痕和权限记实很主要。云平安联盟阐发师卜宋博注释，这是为了让AI的每步操做有迹可循。好比“打开麦克风”“拜候通信录”等操做，该当像App权限一样可视化，才能做到过后逃溯取监管。

　　我们结合张晓寒测评了努比亚（豆包手机）、荣耀、华为、vivo、OPPO、小米六台手机的预拆智能体，发觉几乎所有智能体的权限总量都跨越100个。四类权限（系统节制、屏幕节制取注入、窗口取显示办理、现私数据拜候）形成智能体接管手机的能力基石。

　　这背后的动机曾经被频频会商。可能影响平台的平安运转是一方面；另一方面，一旦智能体能完全替代实人操做手机，短期冲击的活跃度、利用时、告白的焦点贸易目标，持久还可能让App被管道化(OTT化)，退化为智能体的东西零件。

　　至于传输数据能否包含消息，张晓寒告诉我们，测评智能体均采用了较为完整的数据加密和方式，所以无法通过抓包验证。

　　而腾讯系一曲是果断的防守阵营。自2024年起，腾讯曾经认识到端侧智能体可能对本身生态形成冲击，但没想到最终跑出来的是字节跳动。目前的处境也比力微妙，自家的元宝还正在补功课阶段，微信生态对接入Agent特别隆重，防守仍是当前的最优解。

　　OPPO、vivo、荣耀是此中最积极的发力者。按照Quest Mobile数据，OPPO小布帮手正在2025年6月曾经具有1。6亿月活用户，vivo蓝心小v为5500万，荣耀YOYO帮理为4200万，三者跻身上半年增速最快的AI使用行列。

　　正在张驰看来，目前手机智能体全体仍逗留正在L1到L2阶段之间，只能正在一些无限场景、无限App中做演示。豆包手机帮手意味着“智能体第一次实正产物化”，但更像是第一辆上测试的全从动驾驶，能正在园区内跑，还开不上公共道。

　　“这是一个比力小的面，终究现正在手机都设想了声纹识别，要智能体，黑客还得晓得机从的声纹特征才行。”多位手艺平安专家说。不外他们也指出，做为收集数据更多、能力更强的AI，对场景的考虑该当更详尽。

　　我们的手艺测评也显示，豆包、OPPO具备截屏Secure窗口的能力，但会插手标记提醒，由挪用方判断下一步的处置体例。相当于能够的平安樊篱，更依赖于束缚。

　　多位从业者还配合提到了误操做的问题。若是指令被干扰或者理解错误，用户可能来不及退出，智能体就正在几秒钟内完成持续操做了——这是一种更不成控的风险。

　　App的版本更新也是难题。正在我们的测评过程中，饿了么正式更名为“淘宝闪购”。但若是利用新名称，手机智能体城市打开淘宝，只要说“饿了么”才可能被识别。

　　“inject_events相当于设备的完全节制权，能力范畴远远超出无妨碍权限。”王安宇注释，无妨碍点击速度偏慢、容易受后台办事等影响，对复杂界面处置也相对存正在局限性；而inject_events间接向系统注入事务，更少被UI干涉，成功率更高。同样的，该权限只对厂商级预拆使用。

　　过去一年里，标记性的智能体产物大多发展正在云端。Manus、Claude等产物展现了使命规划取东西挪用的能力，它们运转正在近程办事器上，依赖云端算力和网页东西来做PPT、订票和购物。而端侧智能体走的是另一条线：模子摆设正在当地设备，正在手机、电脑、里操做软件取系统。

　　为了评估手机智能体数据上云的风险，多位手艺专家进行了测评。成果显示，除了系统原生功能（闹钟、日历）外，大大都使命城市触发云端传输。

　　越来越多智能体正正在列队上。它们距离实正上有多远？还缺哪些手艺、贸易或合规前提？厘清这些环节现实，端侧智能体的故事才可能实正起头。

　　2025年1月，字节Seed团队曾和大合推出开源的UI-TARS原生智能体。从手艺演讲来看，UI-TARS 1。0 的开辟沉点正在推理能力，把复杂的使命分化为若干个小使命，并插手反思纠错的锻炼过程。大半年后颁发的UI-TARS 2。0进一步指出，纯GUI操做存正在局限，不脚以满脚现实工做需求。因而不再局限于纯真的点击和滑动，而是通过SDK，接入外部的文件系统和沙盒平台。

　　正在张驰看来，差距起首呈现正在学术目标取财产方针之间。良多落地妨碍并非手艺问题，而是工程问题。但若是不以落地为方针，研究者往往很难提前想到工程缺口。

　　正在此布景下，豆包的手艺意义次要是毗连学术取财产。“字节的这一系列研究，更多是根本能力的加强，并环绕产物体验整合多种手艺方案，好比加上了系统接口。这些测验考试需要大量数据和算力，可以或许填补学术界正在这方面的不脚。”张驰评价道。

　　挪动数据调研机构Quest Mobile正在2025年9月测算，国内六家手机厂商的智能体用户规模，正在一年内合计增加了6500万，用户规模全体达到5。35亿。

　　曾正在手机厂商工做的Carrie向我们指出，国内不少手机智能体的基模来自阿里通义尝试室的Qwen系列，开源和多模态能力是其次要劣势。我们看到的多篇手艺演讲也了一点。

　　2025年岁首年月时，手机智能体较着能正在App里走得更远。其时，荣耀YOYO帮理能通过多轮对话抵达美团下单页，OPPO和小米也能完成“瑞幸咖啡”的环节词搜刮。

　　阿里正在内的部门App取字节跳动告竣停火和谈，App答应努比亚设备的一般登录，而豆包自动AI操做场景，两边回到“井水不犯河水”的形态。

　　越来越多智能体从云端落入小我终端。正在国内，豆包手机帮手是端侧智能体破圈的一个起点，但这条并不始于此。过去一年多里，国内手机厂商曾经完成了一轮并不低调的市场铺陈。

　　张驰举例说，多轮对话就是一个典型场景。良多开辟者没考虑到，正在实正在下，需要用户进行频频弥补消息，才能向智能体指明具体要买哪趟航班；再好比，学术研究中的GUI Agent往往只关心单个使命的回忆，但要落地成产物，必需具备手机的上下文回忆，才能理解用户的语境。

　　一位头部手机厂商担任人婉言，若是个产物推出第天，部门办事都不克不及了，“正在我们这就是质量变乱，是没法接管的。”大部门消费者的手机采办决策根据是系统流利度、续航和发烧，正在消费品疆场，产物不变性远比AI立异更主要。

　　“最大的担心仍是正在这里，你正在手机屏幕里看到的一切内容，理论上城市给一个智能体。无论是加密仍是间接传原始数据，最终必然程度上都是能够被还原的。”张驰说。

上一篇：实力不容小觑！6所双非理工大学专业实力曲逼下一篇：广东以“两业融合”锻制将来合作新劣势

栏目导航

新闻中心

联系我们

联系人：郭经理

手机：18132326655

电话：0310-6566620

邮箱：441520902@qq.com

地址：河北省邯郸市大名府路京府工业城

新闻中心

万字详解智能体20：手机里的“互联互通”新疆场

相关新闻

栏目导航

新闻中心

联系我们