WebGPU · transformers.js
零后端、零 API 账单,代价是首次下载大、兼容性依赖浏览器。
On-device AI · Live Lab
选择下载源和模型后,直接在本机浏览器通过 WebGPU 加载 Qwen3.5 ONNX 权重。无服务端 API,但首次下载较大。
Model Runtime
隐私提示:对话和上传图片只保存在当前浏览器本地 IndexedDB;点击左侧“清空”可删除全部本地记录。
Runtimes
端侧推理主要分为浏览器、本机服务、移动端系统 SDK 与边缘设备四条路径。
零后端、零 API 账单,代价是首次下载大、兼容性依赖浏览器。
开发者最成熟路径,适合 IDE、本地知识库和桌面 Agent。
重在 NPU、功耗和系统级权限,模型通常在 1B-4B。
面向常驻、低功耗和私域数据闭环。
Model Matrix
下面是适合端侧观察的主流小模型线,体积会随框架、量化和上下文长度浮动。
| 模型系列 | 端侧档位 | 典型落点 | 备注 |
|---|---|---|---|
| Qwen3.5 | 0.8B / 2B / 4B | 浏览器 / 笔记本 | 本站实验台链路 |
| Llama 3.2 | 1B / 3B | 手机 / 集显笔记本 | 移动端优先 |
| Phi mini | 3B-4B | Copilot+ PC / 本机 | 高密度训练路线 |
| Gemma | 1B / 4B | 移动端 / 本机 | Google 生态 |
| DeepSeek Distill | 1.5B / 7B / 8B | 本机推理 | 推理任务常用 |
References