OpenClaw对接本地大模型失败经验分享

March 9, 2026 · 8 min read

本来这篇文章的题目叫“OpenClaw对接本地Qwen 3.5模型，再也不用担心token费用了”，只可惜实验失败，因此，就变成了失败的龙虾之旅。本文做一个实验记录，方便后续回顾。核心结论：llamacpp本地调用Qwen 3.5 4B量化模型成功，不过token输出的速度比较慢。使用OpenClaw配置本地api，一直无法成功say hello。猜测原因是本地机器配置不行，token生成过于缓慢，无法完成各种调用任务。根本原因，没有显卡，计算资源也不足。

缘起

最近刷微博，看到很多关于OpenClaw的微博，类比成钢铁侠的人工智能助手。由于OpenClaw之前推荐的是Claude模型，费用也不便宜，再加上没有很好的场景，所以一直没有使用。最近Qwen 3.5 发布了多个小B模型，甚至都有0.8B的模型，对机器的配置要求不高，于是计划尝试本地部署Qwen-3.5-2B模型，使用zeroclaw来调用本地Qwen模型。

为何选择2B模型

因为本地机器的配置不高，并且没有显卡，所以优先选择小B模型，先尝试是否能够跑通。

为何选择zeroclaw

因为zeroclaw号称用rust编写，资源占用比openclaw低很多，甚至都可以在便宜的设备上跑起来。刚好用来测试是否能跑通本地模型。

虚拟机

由于小龙虾有一定的危险性，毕竟把权限赋予一个未知的AI还是一件危险的事，因为你不知道AI会做什么危险的事情，比如把什么重要的文件删除了。因此，本次实验使用虚拟机来测试，控制风险。

安装虚拟机

刚好手上有debian 12的iso，因此首先安装debian虚拟机。虽然选择了国内的apt源，但是仍然是经过了漫长的等待，debian虚拟机才安装成功。安装成功之后，第一件事是先做一个镜像快照，好不容易安装成功，如果实验失败，还可以快速恢复镜像重新做实验。

Ollama

第一个方案是使用Ollama来安装Qwen 3.5模型。看到 Ollama里面直接集成了openclaw，因此计划修改方案，直接使用Ollama里面的openclaw来实验。第一步，使用官方脚本来安装Ollama，结果由于网络非常慢，下载了半天才下了0.5%，因此此方案作罢。

llama.cpp

看到zeroclaw是原生支持llama.cpp的，因此决定使用llama.cpp来本地部署qwen。经过一番折腾，下载好llama.cpp的可执行文件。

gguf

下载好llama.cpp之后，需要下载qwen 3.5对应的gguf模型，本来是huggingface上面有，最终发现 modelscope上面也有，速度更快。最终在modelscope上面下载到Qwen3.5-2B-UD-Q4_K_XL.gguf。

运行Qwen 3.5

根据 unsloth文档给出的参数，运行llamacpp。 ./llama-server -m ./Qwen3.5-2B-UD-Q4_K_XL.gguf --ctx-size 16384 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 --port 8001 之后本地打开浏览器，访问http://127.0.0.1:8001，成功访问到chat界面，成功与模型对话。下面这条是带推理模式的。 ./llama-server -m ./Qwen3.5-2B-UD-Q4_K_XL.gguf --ctx-size 16384 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 --port 8001 --chat-template-kwargs '{"enable_thinking":true}' 同样成功运行，就是思考了一大堆，而由于机器配置不行，i5处理器，分了6个Core给虚拟机，此时CPU使用率已经持续100%了，token产出速度仍然很慢，一条提问，几分钟了还没有输出完成。此时Qwen-3.5-2B模型本地已经成功运行了，接下来就是玩转小龙虾的时候了。

zeroclaw

下载zeroclaw，运行zeroclaw，结果报错了。 version GLIBC_2.39 not found (required by /home/ai/.local/bin/zeroclaw) 问了一下豆包，豆包说GLIBC_2.39在Debian 13里面了，建议我不要直接升级GLIBC，而是升级到Debian 13。

Debian 13

下载Debian 13 ISO，安装虚拟机，配置本地apt源，不知道是什么原因，换了几个不同的源，安装都异常缓慢，提示我还需要几个小时才能下载完。于是在安装的时候，去刷了会微博，看了会新闻，看了点技术文章，2个小时过去了，回来再一看，好家伙，还要2个多小时才能安装成功。于是决定继续回到debian 12折腾。

编译zeroclaw

既然直接下载的zeroclaw可执行文件无法成功运行，那就直接下载源码回来直接本地编译一个可执行文件。经过多次尝试，终于下好了编译环境，并且编译成功。（编译没有花很长时间，看来依赖文件不是很多。）按照官方教程运行，配置本地llamacpp，多次尝试，仍然无法成功让zeroclaw小龙虾say hello。

openclaw

以为是zeroclaw没有配置正确，于是准备回到openclaw上面。安装好openclaw，按照openclaw的onboard进行配置，不得不说，openclaw的onboard配置更加人性化，相当于是图形界面配置了。配置好之后，运行openclaw，仍然也没有成功让agent say hello。同时openclaw 的web界面，也没有成功回答问题。

2B 4B

猜测是模型比较小，因此下载了4B模型，按照同样的方法运行，小龙虾仍然无法成功返回结果。

思考模式

4B模型，开启thinking，小龙虾也还是没有成功执行命令。至此，小龙虾的体验过程结束，合理推测是本地机器资源比较弱，模型返回的token比较慢，导致小龙虾没有办法继续执行命令。

结论

8G内存，可以本地跑Qwen 3.5 4B的量化模型，token输出的速度比较慢，这个跟CPU关系比较大。本次没有成功让小龙虾连接本地运行的大模型，没有成功实现token自由。

缘起​

为何选择2B模型​

为何选择zeroclaw​

虚拟机​

安装虚拟机​

Ollama​

llama.cpp​

gguf​

运行Qwen 3.5​

zeroclaw​

Debian 13​

编译zeroclaw​

openclaw​

2B 4B​

思考模式​

结论​

缘起