端侧大模型 - 2aran.com｜涂阿燃（tuaran）的网络日志

Model Runtime

加载与对话

隐私提示：对话和上传图片只保存在当前浏览器本地 IndexedDB；点击左侧“清空”可删除全部本地记录。

下载源模型

官方源 huggingface.co未检测国内镜像 hf-mirror.com未检测

正在初始化实验台...

准备就绪加载模型后输入文字或上传图片。当前会话：新对话。

0.8-4B浏览器建议档位

Q4端侧量化主流

WebGPU当前实验链路

本地对话存储位置

Runtimes

端侧推理主要分为浏览器、本机服务、移动端系统 SDK 与边缘设备四条路径。

浏览器

零后端、零 API 账单，代价是首次下载大、兼容性依赖浏览器。

本机

开发者最成熟路径，适合 IDE、本地知识库和桌面 Agent。

移动端

重在 NPU、功耗和系统级权限，模型通常在 1B-4B。

边缘

面向常驻、低功耗和私域数据闭环。

Model Matrix

下面是适合端侧观察的主流小模型线，体积会随框架、量化和上下文长度浮动。

References