Model Runtime

加载与对话

隐私提示:对话和上传图片只保存在当前浏览器本地 IndexedDB;点击左侧“清空”可删除全部本地记录。

官方源 huggingface.co未检测国内镜像 hf-mirror.com未检测
正在初始化实验台...
准备就绪加载模型后输入文字或上传图片。当前会话:新对话
0.8-4B浏览器建议档位
Q4端侧量化主流
WebGPU当前实验链路
本地对话存储位置

Runtimes

运行形态

端侧推理主要分为浏览器、本机服务、移动端系统 SDK 与边缘设备四条路径。

浏览器

WebGPU · transformers.js

零后端、零 API 账单,代价是首次下载大、兼容性依赖浏览器。

本机

Ollama · llama.cpp

开发者最成熟路径,适合 IDE、本地知识库和桌面 Agent。

移动端

Core ML · MLC · MNN

重在 NPU、功耗和系统级权限,模型通常在 1B-4B。

边缘

NAS · Jetson · OpenVINO

面向常驻、低功耗和私域数据闭环。

Model Matrix

端侧模型矩阵

下面是适合端侧观察的主流小模型线,体积会随框架、量化和上下文长度浮动。

模型系列端侧档位典型落点备注
Qwen3.50.8B / 2B / 4B浏览器 / 笔记本本站实验台链路
Llama 3.21B / 3B手机 / 集显笔记本移动端优先
Phi mini3B-4BCopilot+ PC / 本机高密度训练路线
Gemma1B / 4B移动端 / 本机Google 生态
DeepSeek Distill1.5B / 7B / 8B本机推理推理任务常用

References

延伸阅读