Điểm nổi bật
- Mục tiêu rõ ràng: so sánh đầu ra with_skill vs without_skill trên cùng bộ prompt
- Cơ chế chấm điểm: dùng judge model để đánh giá song song hai đầu ra thay vì cảm tính
- Dạng triển khai: có cả CLI lẫn TypeScript SDK cho CI hoặc pipeline riêng
- Tín hiệu cộng đồng: repo vừa xuất hiện trên Show HN và có 63 sao trong khoảng quan sát
- Hệ sinh thái hỗ trợ: tương thích các API kiểu OpenAI, thuận tiện cho nhiều môi trường agent
Biểu đồ
Tóm tắt
agent-skills-eval giải một vấn đề rất “đúng thời điểm” của hệ sinh thái AI agent: ai cũng có thể viết SKILL.md, nhưng rất ít người đo được liệu skill đó có thật sự làm model tốt hơn trong một tác vụ cụ thể hay không. Dự án đưa việc đánh giá skill về đúng tinh thần kỹ thuật: có baseline, có đối chứng, có chấm điểm và có artifact để kiểm tra lại.
Thay vì tin vào cảm giác rằng “thêm skill thì agent có vẻ thông minh hơn”, agent-skills-eval chạy cùng một bộ prompt hai lần — một lần có skill và một lần không — rồi nhờ judge model chấm kết quả. Cách làm này đặc biệt hữu ích cho đội ngũ xây agent nội bộ, vì nó giúp giảm việc thêm tri thức tùy hứng mà không đo hiệu quả.
Chi tiết
Về bản chất, agent-skills-eval là một test runner cho Agent Skills. Repo mô tả rất rõ triết lý: viết một skill thì chưa đủ, phải chứng minh được skill đó tạo ra “lift” thực tế trên đầu ra. Đây là tư duy rất quan trọng ở giai đoạn hiện nay, khi nhiều đội kỹ thuật đang đổ công vào prompt engineering, system prompt và skill libraries nhưng thiếu công cụ đánh giá nghiêm ngặt.
Điểm mạnh nhất của dự án là cấu trúc đánh giá đối chứng. Một bài eval được chạy ở hai chế độ: with_skill và without_skill. Sau đó, judge model sẽ chấm điểm hai kết quả theo tiêu chí xác định trước. Kết quả không dừng ở pass/fail đơn giản mà còn tạo ra artifact và báo cáo HTML để xem lại. Điều này biến skill từ một “mẹo prompt” thành một đối tượng có thể kiểm thử, regression test và đưa vào CI.
Trong bối cảnh doanh nghiệp, dự án này hữu ích ở vài lớp. Thứ nhất, nó giúp đội phát triển agent kiểm soát chi phí ngữ cảnh: nếu một skill dài nhưng không cải thiện chất lượng, nên loại bỏ. Thứ hai, nó giúp chuẩn hóa cách đánh giá kỹ năng domain-specific, ví dụ skill xử lý ticket, skill phân tích log hay skill viết báo cáo. Thứ ba, nó mở đường cho cách quản trị thư viện skill theo dữ liệu thay vì theo cảm nhận cá nhân của từng người viết prompt.
Repo dùng TypeScript, có CLI một lệnh và hỗ trợ các OpenAI-compatible endpoints, nên rào cản thử nghiệm khá thấp. Từ góc độ sản phẩm, đây là một mảnh ghép hạ tầng quan trọng cho “AgentOps”: không chỉ chạy agent, mà còn đo agent. Hạn chế hiện tại là dự án còn mới, quy mô cộng đồng chưa lớn và chất lượng đánh giá vẫn phụ thuộc một phần vào judge model lẫn bộ tiêu chí bài test. Nhưng ngay cả với giới hạn đó, agent-skills-eval vẫn rất đáng theo dõi vì nó đưa tư duy thực nghiệm vào một khu vực vốn đang bị chi phối bởi trực giác.