Dirac — agent mã nguồn mở tối ưu chi phí và độ chính xác - Open Source

Điểm nổi bật

Tín hiệu mới: Show HN xuất hiện khoảng 1 giờ trước; GitHub pushed_at lúc 20:50 Asia/Saigon.
Hiệu quả chi phí: README công bố giảm trung bình 64,8% chi phí so với nhóm agent đối chứng.
Benchmark: đạt 65,2% trên TerminalBench 2.0 với gemini-3-flash-preview.
Cơ chế lõi: hash-anchored edits, AST-native editing và batch nhiều file trong một vòng suy luận.
Phạm vi dùng: có cả VS Code extension lẫn CLI cài qua npm.

Biểu đồ

flowchart LR A[Yêu cầu refactor] --> B[Curate context gọn] B --> C[Hash-anchored edits] C --> D[AST manipulation] D --> E[Batch nhiều file] E --> F[Giảm cost và tăng độ chính xác]

Tóm tắt

Dirac là một dự án coding agent mới nhưng đang tạo tín hiệu khá mạnh trong nhóm công cụ lập trình có agent. Điểm làm nó nổi bật không phải chỉ vì “thêm một agent nữa”, mà vì dự án định vị rất rõ: tối ưu context, giảm token waste và tăng độ chính xác của chỉnh sửa mã ở quy mô nhiều file.

Từ góc nhìn vận hành, đây là repo đáng theo dõi vì nó không chỉ hứa hẹn về UX. README đưa luôn benchmark, chênh lệch chi phí và giải thích cơ chế kỹ thuật đủ cụ thể để người đọc đánh giá xem lợi thế đó có thật sự khác biệt hay không.

Chi tiết

Dirac đi đúng vào một điểm đau đang lộ rõ của làn sóng coding agent: càng kéo nhiều ngữ cảnh vào cửa sổ ngữ cảnh, chi phí càng đội lên và chất lượng ra quyết định thường giảm dần. README của dự án nói khá thẳng rằng năng lực reasoning của model xuống theo độ dài context, nên cách thắng không nhất thiết là dùng model lớn hơn mà là giữ context gọn, chọn đúng vùng cần sửa và thực hiện chỉnh sửa với độ chính xác cao hơn. Đây là luận điểm hợp lý, nhất là với các đội đang phải cân bằng giữa tốc độ, chi phí API và tính ổn định khi agent đụng vào codebase lớn.

Về khác biệt kỹ thuật, Dirac nhấn vào ba khối đáng chú ý. Thứ nhất là hash-anchored edits: thay vì bám cứng vào line number dễ trượt sau mỗi lần chỉnh sửa, agent dùng neo ổn định hơn để xác định vùng sửa. Thứ hai là AST-native precision, cho phép thao tác ở cấp cấu trúc thay vì chỉ text thuần. Thứ ba là multi-file batching, tức gom nhiều thay đổi vào một vòng model thay vì chia nhỏ thành nhiều lượt đắt đỏ. Kết hợp ba lớp này, Dirac đang bán một lời hứa rất thực dụng: ít token hơn, ít vòng lặp hơn, và ít lỗi “sửa sai file/sai đoạn” hơn.

Điểm khiến repo đáng đọc thêm là cách họ trình bày benchmark. README công bố Dirac đạt 65,2% ở TerminalBench 2.0 và vượt cả baseline chính thức của Google ở cùng model, đồng thời giữ chi phí trung bình thấp hơn đáng kể. Dù benchmark nào cũng cần được nhìn với chút dè chừng, việc công khai diff, cost table và phương pháp tái lập vẫn tốt hơn kiểu claim chung chung. Nó tạo cảm giác dự án đang cố nói chuyện bằng bằng chứng kỹ thuật thay vì chỉ marketing.

Tất nhiên, dự án còn sớm: số sao vẫn chưa lớn, phần lớn sức hút hiện tại đến từ benchmark và Show HN hơn là độ chín production. Nhưng đúng vì còn sớm nên Dirac đáng chú ý. Nếu team này giữ được nhịp cải tiến và chứng minh lợi thế cost/quality ở nhiều bài toán thực hơn, Dirac có thể trở thành một đại diện mới cho nhánh coding agent “ít khoa trương, nhiều tối ưu hạ tầng suy luận”.

Điểm nổi bật

Biểu đồ

Tóm tắt

Chi tiết

Nguồn