Kelet, nền tảng phân tích nguyên nhân lỗi cho ứng dụng LLM và agent đang mở beta - Open Source

Điểm nổi bật

Trạng thái: đang mở beta và được giới thiệu trên Show HN trong cửa sổ 6 giờ hiện tại.
Bài toán giải quyết: tự động tìm root cause cho lỗi agent thay vì để kỹ sư đọc thủ công hàng trăm trace.
Tương thích: nhấn mạnh hỗ trợ OpenTelemetry, Langfuse, LangChain, PydanticAI, CrewAI, AI SDK và nhiều stack khác.
Khác biệt: không chỉ hiển thị trace mà còn gom cụm failure pattern và đề xuất patch có đo before/after.
Ai nên chú ý: đội đã có agent production, có traffic và đang đau đầu với reliability hơn là với việc dựng demo đầu tiên.

Biểu đồ

flowchart LR A[Trace va signals] --> B[Kelet ingest] B --> C[Cluster loi giong nhau] C --> D[Tim root cause] D --> E[De xuat patch va do ket qua]

Tóm tắt

Kelet không phải framework agent mới, mà là lớp tooling đứng sau agent production. Website của dự án mô tả một dịch vụ nhận trace và tín hiệu từ các ứng dụng LLM, sau đó tự điều tra failure pattern, xác định nguyên nhân gốc và đưa ra prompt patch hoặc gợi ý sửa đổi. Đó là một định vị khá khác với phần lớn dự án open source đang chạy theo model wrapper hoặc orchestration.

Điều làm Kelet đáng chú ý trong slot này là timing và nhu cầu thị trường. Khi ngày càng nhiều đội đã có chatbot, RAG app hay multi-agent workflow chạy thật, bài toán khó nhất không còn là dựng một pipeline đầu tiên mà là duy trì chất lượng ổn định. Kelet đại diện cho lớp hạ tầng mới, nơi reliability engineering cho AI được tách thành một sản phẩm chuyên dụng.

Chi tiết

Nội dung website của Kelet nhấn mạnh một sự thật quen thuộc nhưng khó chịu của ứng dụng LLM: agent ít khi “sập” theo nghĩa truyền thống. Chúng thường tiếp tục hoạt động nhưng cho ra câu trả lời sai, bỏ sót ngữ cảnh, dùng tool lệch mục tiêu hoặc gây trải nghiệm tệ ở một nhánh nhỏ người dùng. Vì thế, dashboard trace thuần túy chỉ giải quyết được phần nhìn thấy chứ chưa đụng tới phần suy luận nguyên nhân. Kelet cố chen vào đúng khoảng trống này bằng cách đọc trace, dùng tín hiệu như thumbs-down, user edits, abandoned conversation hoặc evaluator để lần ngược mẫu lỗi.

Nếu đúng như mô tả, giá trị của hệ thống nằm ở khả năng gom cụm các failure pattern tưởng như rời rạc. Trong môi trường production, kỹ sư hiếm khi có đủ thời gian đọc vài trăm phiên rồi tự viết báo cáo nguyên nhân. Một công cụ tự động hóa bước đó có thể biến observability từ công cụ hiển thị sang công cụ chẩn đoán. Website còn nhấn mạnh chuyện đo before/after reliability khi áp dụng patch, một điểm quan trọng vì nhiều đội AI hiện vẫn sửa prompt khá cảm tính.

Kelet cũng chọn chiến lược tương thích rộng. Việc dự án nhắc OpenTelemetry, Langfuse, LangChain, PydanticAI, CrewAI, Mastra, AI SDK và cả OpenAI, Anthropic, Gemini cho thấy họ muốn đứng ở tầng hạ tầng chéo framework. Đây là hướng hợp lý. Reliability không nên bị khóa vào một orchestrator cụ thể, nhất là khi thị trường agent còn thay đổi rất nhanh. Nếu tầng root-cause tooling độc lập đủ tốt, nó có thể trở thành mảnh ghép mặc định trong stack production của nhiều đội.

Về mặt sử dụng, Kelet có vẻ phù hợp nhất với nhóm đã qua giai đoạn thử nghiệm sớm. Website thừa nhận rõ giá trị thường thấy từ khoảng 200+ session và vài tín hiệu được cấu hình. Điều đó nghĩa là đội nhỏ hoặc dự án còn ít traffic có thể chưa cảm nhận lợi ích rõ ngay. Thêm nữa, mô hình dịch vụ server-side đòi hỏi người dùng gửi trace và tín hiệu ra hạ tầng của nhà cung cấp, nên các yêu cầu bảo mật và data governance sẽ là yếu tố quyết định đối với khách hàng doanh nghiệp.

Dù còn là beta và chưa phải dự án “repo-first”, Kelet vẫn đáng đưa vào slot open source rộng hơn vì nó phản ánh một trục phát triển mới của hệ sinh thái AI: tooling cho reliability. Trong vài tháng gần đây, phần lớn sự chú ý dồn vào coding agent, memory hay orchestration. Kelet cho thấy lớp hậu cần phía sau, gồm trace analysis, failure clustering và remediation, đang bắt đầu thành một danh mục riêng. Với người làm sản phẩm AI, đây là tín hiệu chiến lược đáng theo dõi vì nơi tạo lợi thế cạnh tranh có thể đang chuyển từ “ai xây agent nhanh hơn” sang “ai giữ được agent ổn định hơn khi chạy thật”.

Điểm nổi bật

Biểu đồ

Tóm tắt

Chi tiết

Nguồn