千问 3.5 实测:原生多模态架构下的编程、视觉 Agent 与视频理解
核心结论
千问 3.5 通过原生多模态架构在视觉定位、编程 Agent、视频理解三个方向实现了明显突破。API 价格仅 0.8 元/百万 Token(GPT-5.2 的 1/15),对开发者和企业来说性价比极高。
关键参数
| 指标 | 数值 | 备注 |
|---|---|---|
| 总参数量 | 397B | 稀疏 MOE 架构 |
| 激活参数量 | 17B | 推理高效 |
| 上下文长度 | 256K | 与基座持平 |
| 解码吞吐量 | 提升 19 倍 | 相比前代 |
| API 价格 | ¥0.8/百万 Token | 阿里云百炼平台 |
| 语言支持 | 201 种 | 前代为 119 种 |
编程速度
实测中,千问 3.5 仅用 26.1 秒完成了一个复杂的视觉自动化 Agent 编写。代码生成的流畅度和准确性在同级别模型中处于领先水平。

像素级视觉定位
作为视觉 Agent 使用时,模型能实现像素级精准操作 — 自动点击桌面图标、清理回收站、在 VSCode 中提交 Git 代码,全程无需人工干预,一次跑通。
![]()
这得益于原生多模态训练,视觉信息和语言信息在同一架构中联合处理,不存在传统方案中「先看图再理解」的信息折损。
视频理解
给模型一段行车记录仪视频,它能精准定位事故发生的时间点(1 分 14 秒),并解释因果关系。在足球比赛视频测试中,模型能回答涉及上下文逻辑的复杂细节问题。

256K 的上下文长度足以处理长视频场景,吞吐量相比前代提升 19 倍。
带图推理与 3D 生成
给模型一张参考图,它能生成高还原度的 3D 代码 — 坦克大战游戏、3D 迷宫等,直接可运行。

需要注意的问题
有技术门槛。 使用 API 和配置自动化 Agent 需要 Python 基础和环境配置经验,非技术用户上手有难度。
注意 API Key 安全。 自动化操作电脑时,配置文件中包含敏感信息,不要提交到公开仓库。
本地部署要求高。 397B 参数的完整模型对硬件要求很高,一般用户建议直接用云端 API。
适合什么人
需要构建视觉 Agent 或复杂自动化流程的 AI 开发者,追求高性价比生产环境模型的企业团队,以及希望在本地部署开源模型做二次开发的技术人员。纯非技术用户建议等封装更成熟的应用层产品。
如果你对 AI Agent 自动生成视频内容感兴趣,可以看看 Remotion + Skills 自动化视频生成教程;对 AI 编程工具的横向对比,参考 Codex AI 编程工具测评。