问题——“能不能干活”,需要回到真实场景作答 随着大模型能力增强和“智能体”概念升温,围绕新技术的讨论逐渐走向两极:一边期待它快速改变生产方式,一边担心它冲击就业结构。但比观点交锋更重要的,是验证一个更现实的问题:它真实工作流程中到底能做到什么程度、表现是否稳定、风险边界在哪里。基于此,哔哩哔哩近期推出系列直播挑战,把智能体放进真实任务、真实时间与真实压力之下公开测试,试图用可观察的过程替代想象中的结论。 原因——从“会说”走向“会做”,倒逼检验可用性 业内普遍认为,技术正在从对话式交互扩展到“调用工具、执行任务、操作环境”:能检索资料、拆解任务、生成代码、调用软件,并尝试完成一定闭环。这意味着它不再只是“答题器”,而可能进入办公、创作、运营等具体岗位流程。,现实任务往往包含多轮沟通、跨工具协作、权限限制和异常处理,任何一步出现迟滞或偏差都可能导致失败。直播不可剪辑的特点,让系统的成功、卡顿与失误都在同一时间轴上呈现,也更容易看清“演示”与“真正上岗”之间的距离。 影响——能力与短板同时暴露,协作方式正在重塑 从已进行的首场直播看,智能体执行并非一路顺畅:在账号分析与选题建议等环节出现流程未跑通;在整理桌面等偏操作类任务上,也暴露出速度慢、完成度不足等问题,显示其在复杂环境下的稳定性和效率仍有限。 但在更综合的任务中,系统也展示了可用性。例如在应用开发场景下,它能够在指令驱动下完成一定程度的功能实现与迭代,显示出“理解需求、推动落地”的潜在价值。与此同时,直播也呈现出当前人机协作的常态:创作者需要持续做任务拆解、质量把关和纠错回滚;系统执行时可能出现理解偏差、遗漏指令或结果不符合预期,最终产出仍需人工打磨。 这些现象提示,短期内技术更可能重塑岗位的工作方式,而不是简单替代:重复性、流程化环节有望明显提速;但涉及目标定义、审美判断、风险控制和责任承担的部分,仍需要人类主导。 对策——以公开测试促理性认知,以规范治理守住底线 对平台与产业而言,推动这类公开压力测试的意义,在于为社会提供更接近现实的样本:在真实任务中观察其可靠性、可解释性与安全边界。下一步,有关参与方可从三上发力: 一是强化“人类在环”机制。将智能体定位为工具与助手,建立清晰的审批、校验与回退流程,避免在关键决策和高风险操作中“自动放行”。 二是建立任务分级与权限管理。对资金交易、对外发布、系统设置变更等环节设置更严格的授权与审计,降低误操作带来的损失。 三是推动职业能力转型。面向内容创作、产品研发、运营销售等岗位,加强“任务拆解、提示指令、结果验收、合规把关”等能力培训,让从业者把更多精力投入创意、策略与高阶判断。 前景——从代码到内容到管理,多场景验证将给出更清晰答案 据介绍,后续直播将覆盖更多应用场景:包括让智能体参与完整的视频创作流程,测试其在选题、脚本与编导协同中的作用;也有以商业销售目标为导向的挑战,检验其在营销、转化与运营环节的能力边界;还将出现游戏对战、企业管理等更高不确定性与博弈性的场景。多场景的连续测试,有望深入回答三个现实问题:其一,能力是否具备可复制性,还是高度依赖个体经验与“现场调教”;其二,效率提升能否抵消沟通与纠错成本;其三,如何在扩大应用的同时,建立可追溯、可审计、可治理的责任体系。 可以预见,短期内“翻车”与“高光”会并存,而真正决定其走向的,不是单次成败,而是长期稳定性、成本结构与制度化落地能力。
这场技术实验带来的启示是:与其陷在“是否取代”的二元争论里,不如把注意力放在如何构建更高效、可控的人机协作。技术终究要服务于人的工作与生活——保持理性判断与开放心态——才能在变化中把握主动,推动更稳健的应用落地。