12月1日,字节跳动豆包团队发布豆包手机助手技术预览版。
据介绍,豆包手机助手,是在豆包 APP 的基础上,和手机厂商在操作系统层面合作的 AI 助手软件。基于豆包大模型的能力和手机厂商的授权,豆包手机助手能够为用户带来更方便的交互和更丰富的体验。
现阶段,开发者和科技爱好者可以在豆包与中兴合作的工程样机 nubia M153 上,体验豆包手机助手的技术预览版本。目前该版本已面向开发者和科技爱好者少量发售,售价 3499 元。
豆包手机助手的出现,是在试图用 AI Agent 打通APP 之间,重构移动互联网的交互逻辑。
尽管当前的演示仍需面对技术「不确定性」的免责声明,但这种深入操作系统底层、追求「意图直达服务」的尝试,可能比单纯的 Chatbot 更具革新意义。

或许,谁能率先解决「操作手机」的稳定性难题,谁就能定义 AI 时代的「iPhone 时刻」。
据业内人士向「极客公园」介绍,字节跳动与努比亚为这款工程机的首销备货量为 3 万台,并为此订购了对应数量的手机关键元器件。
从「对话框」到「行动派」
过去两年,我们见惯了能写诗、能画图的 Chatbot,但对于普通用户而言,手机上最痛的痛点往往是繁琐的操作流。豆包手机助手这次的大看点,在于它试图从「对话」跨越到「行动」。
在技术预览版的演示中,豆包展示了一种在此前 GUI Agent(图形用户界面代理)研究中常被提及的能力——它能像人类一样「看懂」屏幕,并直接模拟点击操作。
这种「看懂屏幕」并模拟人类操作的底气,则源自豆包大模型在多模态能力上的积累。
据官方透露,该模型在视觉理解、推理以及图像创作等维度的性能已处于国际第一梯队。正是因为模型具备了精准的图形界面(GUI)识别能力,它才能在多项权威评测中拿到高分,从而像人类一样理解「按钮」和「输入框」的含义,而不仅仅是识别一堆代码。
据豆包手机官方使用文档介绍,豆包会根据意图自动判断是否调用 AI Agent 能力,若用户对话开头包含「帮我操作手机」,则会 100% 通过 AI 操作手机完成任务。
任务描述越详细,它的执行效率越高,执行效果越好。例如:“打开美团外卖帮我把最近几个订单的好评写了”。此外,AI 操作手机是在虚拟屏操作的,不会在前台默认展开,也不会影响正在进行的其他任务,你可以随时返回桌面使用其他应用。
用户也可以直接跟豆包对话,讲出需求,豆包可根据需求自动判断是否通过操作手机功能完成,以及在豆包对话框底部功能按钮中找到“操作手机”,点击按钮可手动描述需求,也可以设定定时等条件任务。
试想这样一个场景:你在社交媒体上被种草了一款好物,过去你需要截图、退出应用、打开电商平台、搜索、比价。
而在豆包的演示中,你只需说一句「帮我在全平台比价下单」,AI 就能自动跨应用跳转,搜索同款、对比价格规格、领券,甚至帮你选好最低价的商品填入购物车。

图片来源:豆包手机使用指南文档
虽然出于安全考虑,支付环节仍需人工确认,但前面那一系列机械的点击和切换,AI 已经代劳了。
甚至复杂任务也可以执行。在官方演示的旅行规划场景中,当用户提出「下个月去巴黎,帮我把收藏的餐厅标在地图上,看看哪天有展并订票」这样一句包含多重意图的指令时,AI 能够迅速将需求拆解为 6 个子任务:从查询社交媒体收藏、到高德地图标记、再到携程订票,最后整理进备忘录。
这种跨应用、多步骤的「任务链」执行能力,可以说是 AI 从「玩具」迈向「工具」的关键分水岭之一。
为了实现这种「类人」的交互,豆包打通了系统层面的多项权限。
在系统层面,豆包手机为 AI 能力设计了多种交互方式,用户可以通过侧边键、语音甚至耳机唤醒它;在相册里,它能直接听懂「把路人 P 掉」的指令并执行。

图片来源:豆包手机使用指南文档
在更复杂的「Pro 模式」下,它还能调用系统工具,结合记忆功能,直接完成「推荐礼物并放入购物车」这种需要多步推理的复杂任务。

图片来源:豆包手机使用指南文档
当然,将屏幕控制权和个人喜好交给 AI,隐私安全始终是绕不开的话题。所以豆包团队也强调,这一功能支持按需开启,并承诺严格保护数据隐私。
作为「技术预览版」,豆包团队也在视频结尾特别提示,受限于大模型技术的不确定性,演示中的「丝滑」体验目前还无法百分百复现,产品距离团队的最终预期仍有差距。
这也体现了 AI Agent 目前最真实的状态:方向极度性感,但落地仍需时间打磨。
2 不造硬件的「第三条路」
在 AI 手机的浪潮中,一直存在两种流派:一种是像 Google / Pixel 手机这样,自研模型以及整套 AI 软件产品体验,并植入自家系统;另一种则是纯软件厂商,试图通过超级 APP 抢占入口。

图片来源:Google
豆包选择了第三条路:不做硬件,只做生态。
在发布预览版的同时,豆包方面明确表示「没有自研手机计划」。他们的策略非常务实——通过与多家手机厂商洽谈,以「操作系统层面合作」的形式,将豆包的大模型能力植入不同品牌的机型中。
这种「手机厂商 + 大模型厂商」的深度耦合,正在成为行业的一股新趋势。
就像谷歌 Gemini 与三星的合作一样,术业有专攻正逐渐成为共识。
对于手机厂商而言,从零打造一个具备顶级推理、视觉理解和复杂任务规划能力的模型成本极高;而对于字节跳动这样的互联网巨头,缺乏硬件载体则会让 AI 始终隔着一层 APP 的玻璃墙,无法触达用户最核心的数据和场景。
目前的 nubia M153 工程机只是一个开始。售价 3499 元的门槛或许更多是面向开发者和极客人群的「邀请函」,旨在验证这种跨界合作的技术可行性与用户反馈。
或许,谁能率先解决「操作手机」的稳定性难题,谁就能定义 AI 时代的「iPhone 时刻」。
光做一个APP,在 AI 时代已经不够了
豆包手机助手的出现,本质上或许是一次对移动互联网交互逻辑的重构。
大模型的能力越来越强,单纯做一个 APP,在 AI 时代已经不够了。
AI Agent 需要接管更复杂的任务、感知更丰富的上下文,发挥一些真实的功能,才有更落地的价值,这意味着它必须走出软件的围墙,向下沉淀,与操作系统的底层权限和硬件能力进行深度整合。
过往,字节跳动一直是一支强大的“空军”——拥有极致的算法和庞大的应用生态,但在操作系统和终端硬件上,相比拥有 Android 的谷歌或拥有全场景终端的华为,字节始终缺少一块落地的“阵地”。
在移动互联网时代,这或许不是问题,但在 AI 需要深度介入用户场景的当下,缺乏硬件载体可能意味着丧失对场景的感知力。
豆包手机助手的推出,像是字节在当下阶段抛出的一次探索。
从 Pico 到 Ola Friend,再到如今深入手机 OS 层的助手,字节正在小心补齐“硬件触点”这块短板。
这或许并不是未来两三年行业的最终形态,但至少可以确认的是:字节已经意识到,想要让 AI 真正跑通,必须迈出“软硬结合”的这关键一步。

微信扫一扫打赏
支付宝扫一扫打赏