WhichLLM biến bài toán chọn local model thành benchmark theo phần cứng - Open Source

Điểm nổi bật

Đầu ra mẫu cho RTX 4090 xếp Qwen3.6-27B Q5_K_M lên đầu với score 92.8 và khoảng 27 tok/s, thay vì chỉ chọn model to nhất vừa VRAM.
Repo nhấn mạnh ranking dựa trên benchmark thực như LiveBench, Artificial Analysis, Aider, Arena ELO và Open LLM Leaderboard.
Có cả hardware simulation như whichllm --gpu "RTX 4090" để thử trước khi mua máy hoặc GPU mới.
Hỗ trợ nhiều chế độ hành động hơn một bảng xếp hạng: run, snippet, plan, upgrade, json output.

Biểu đồ

flowchart LR A[Phần cứng người dùng] --> B[whichllm] B --> C[Phân tích VRAM và tốc độ] B --> D[Hợp nhất benchmark] C --> E[Xếp hạng model phù hợp] D --> E E --> F[Chạy model hoặc lập kế hoạch nâng cấp]

Tóm tắt

WhichLLM giải một bài toán rất thực tế của local AI: biết model nào chạy được đã khó, biết model nào đáng chạy hơn còn khó hơn. Phần lớn người dùng hiện vẫn chọn theo cảm tính, theo tên model nổi tiếng hoặc theo kích cỡ tham số. WhichLLM cố gắng thay cách làm đó bằng một pipeline có cơ sở hơn: dò phần cứng, ước lượng VRAM và tốc độ, rồi xếp hạng model theo benchmark thực, độ mới và mức độ tin cậy của dữ liệu.

Điều làm repo này đáng chú ý là nó chạm đúng nỗi đau của giai đoạn hậu-bùng nổ open model. Khi danh sách model trên Hugging Face tăng quá nhanh, “model nào tốt nhất cho máy tôi” trở thành bài toán vận hành chứ không còn là câu hỏi chơi vui. Một công cụ biến lựa chọn này thành lệnh CLI có thể script hóa là hướng đi hợp lý cho developer, đội hạ tầng và cả người mua phần cứng AI cá nhân.

Chi tiết

README của WhichLLM cho thấy dự án không muốn làm một “what fits” calculator đơn giản. Tác giả lập luận rằng nhét một model vào VRAM là phần dễ; phần khó hơn là biết model nào trong số những model vừa máy mới là lựa chọn hợp lý nhất. Vì vậy, công cụ này kết hợp nhiều lớp tín hiệu: benchmark chất lượng, độ mới của thế hệ model, confidence của dữ liệu đánh giá, ước lượng tốc độ theo phần cứng, loại quant và cả độ tin cậy của nguồn phát hành. Đây là cách tiếp cận có chiều sâu hơn hẳn so với đa số bảng so sánh local model hiện nay.

Một điểm nổi bật là cách repo xử lý dữ liệu benchmark. WhichLLM không chỉ lấy một leaderboard tĩnh rồi sắp số. Nó nêu rõ cơ chế recency-aware để tránh việc model cũ hưởng lợi quá mức từ bảng xếp hạng lỗi thời, đồng thời phân biệt các mức bằng chứng như direct, variant, base_model, line interpolation hay self-reported. Với hệ sinh thái open model đầy bản fork, repack và benchmark do uploader tự công bố, lớp “evidence grading” này là rất quan trọng. Nó biến repo từ một công cụ tiện ích thành một bộ lọc chống nhiễu cho thị trường model.

Thêm vào đó, WhichLLM được thiết kế để đi tiếp đến hành động. Người dùng không chỉ xem xếp hạng mà còn có thể chạy model ngay bằng whichllm run, lấy snippet Python, lập kế hoạch phần cứng cho một model mong muốn, hoặc so sánh phương án nâng cấp GPU. Đây là chi tiết đáng giá cho những ai đang cân nhắc đầu tư máy trạm AI hoặc muốn chuẩn hóa môi trường chạy model trong team. Repo cũng hỗ trợ JSON output, nghĩa là nó dễ chui vào pipeline tự động thay vì chỉ là một CLI để đọc bằng mắt.

Từ góc nhìn chiến lược, WhichLLM phản ánh một chuyển dịch của thị trường local AI: chi phí quyết định không còn nằm ở model download, mà ở quyết định chọn sai model cho đúng phần cứng. Chọn model quá lớn gây chậm và tốn, chọn model quá nhỏ thì bỏ lỡ chất lượng, còn chọn theo hype dễ tạo ảo giác hiệu năng. Công cụ như WhichLLM có thể trở thành lớp middleware ra quyết định cho cá nhân lẫn doanh nghiệp nhỏ đang xây local AI stack. Nếu số lượng open model tiếp tục tăng, lớp “benchmark-aware routing for humans” như thế này sẽ ngày càng có giá trị.

Điểm nổi bật

Biểu đồ

Tóm tắt

Chi tiết

Nguồn