本地跑大模型，终于找到靠谱 AI 工具了。

📌 一句话摘要

本文介绍开源命令行工具 whichllm，它能根据用户电脑硬件配置自动推荐最合适的本地大模型，兼顾性能与性价比。

📝 详细摘要

文章指出，随着 Llama、Qwen 等开源模型能力逼近闭源，越来越多用户尝试本地部署，但面临模型选择困难、试错成本高的问题。作者推荐了一个名为 whichllm 的开源命令行工具，它能自动检测硬件配置（N 卡、A 卡、Apple 芯片、纯 CPU），并基于显存带宽和参数量推算每个模型的运行速度（tok/s），给出综合评分和推荐排序。工具不仅关注模型能否运行，还考虑体验和性价比，例如为 24GB 显存的 RTX 4090 推荐 27B 模型而非 32B。文章还介绍了几个实用命令：whichllm run 可一键下载部署并对话；whichllm --gpu 可模拟不同显卡的兼容性；whichllm plan 可查询模型所需的最低显卡配置。同时，作者客观指出了工具的局限性：速度计算基于推算可能与实测有出入、Windows 下 A 卡检测精度不如 Linux、Apple 芯片和纯 CPU 环境下仅推荐 GGUF 格式。

💡 主要观点

- whichllm 能根据硬件自动推荐最优模型，兼顾性能与性价比。 工具检测 GPU/CPU 配置后，推算各模型运行速度并给出综合评分，优先推荐体验更好、性价比更高的模型，而非仅看能否运行。

提供一键部署与模拟查询等实用功能。 whichllm run 可自动下载、部署并启动对话；--gpu 参数可模拟不同显卡的兼容性；plan 命令可查询模型所需的最低显卡配置。

工具存在速度推算偏差与平台兼容性局限。 速度基于显存带宽和参数量推算，可能与实测有出入；Windows 下 A 卡检测精度不如 Linux；Apple 芯片和纯 CPU 环境仅推荐 GGUF 格式。

💬 文章金句

- 它不止告诉我们哪些模型能跑，还会考虑到哪些模型体验更好、性价比更高。

不要只顾着「能跑多大模型」，而是要选择好模型。

📊 文章信息

AI 初评：76

来源：GitHubDaily

作者：GitHubDaily

分类：人工智能

语言：中文

阅读时间：5 分钟

字数：1087

标签： AI 工具, 本地部署, 开源项目, LLM, 模型选择

阅读完整文章

本地跑大模型，终于找到靠谱 AI 工具了。

🤖 問 AI