Omi, nền tảng wearable AI mã nguồn mở ghi nhớ mọi tương tác - Open Source

Điểm nổi bật

Stars: 9.716 stars, 821 stars hôm nay trên GitHub Trending.
Ngôn ngữ: Dart ở app chính, kèm Swift, Rust, Python và firmware C cho phần cứng.
Tính năng chính 1: ghi màn hình và hội thoại, chuyển giọng nói thành transcript, summary và action items theo thời gian thực.
Tính năng chính 2: chạy trên desktop, mobile, wearable và cả hardware dev kit mở.
Tính năng chính 3: có SDK, API, MCP server và tài liệu build thiết bị riêng.

Biểu đồ

flowchart LR A[Wearable hoặc app] --> B[Thu âm và ghi màn hình] B --> C[Transcription và memory] C --> D[Tóm tắt, action items, chat] D --> E[Trợ lý AI cá nhân đa thiết bị]

Tóm tắt

Omi nổi bật không chỉ vì lượng sao cao mà vì nó gom nhiều lớp vốn hay tách rời thành một stack hoàn chỉnh: thiết bị đeo, desktop app, mobile app, backend transcription và lớp chat/memory. Đây là hướng đi tham vọng, nhắm vào một dạng “personal AI memory system” có thể nghe, nhìn và nhớ theo thời gian thực.

Trong làn sóng AI agent, phần lớn dự án tập trung vào software workflow. Omi khác ở chỗ kéo AI ra khỏi cửa sổ chat, chạm vào ambient computing và wearable. Điều đó khiến dự án hấp dẫn, nhưng đồng thời đặt ra nhiều câu hỏi về riêng tư, hạ tầng và mức độ chấp nhận của người dùng.

Chi tiết

Omi là một trong những dự án hiếm hoi kết hợp được ba lớp đang cùng nóng lên: AI memory, multimodal capture và open hardware. Repo mô tả rất rõ lời hứa sản phẩm, gần như không vòng vo: ghi lại màn hình và cuộc trò chuyện, chép lời theo thời gian thực, tạo summary và action items, sau đó đưa tất cả vào một lớp chat “nhớ mọi thứ bạn đã thấy và nghe”. Về mặt định vị, đây là bước tiến từ chatbot sang companion system, nơi dữ liệu ngữ cảnh đến liên tục từ môi trường sống và làm việc.

Điều làm Omi đáng chú ý là độ đầy đủ của stack. Ở phía client có macOS app viết bằng Swift và Rust, mobile app Flutter, wearable phần cứng và cả Omi Glass. Ở phía backend có hệ Python/FastAPI, VAD, diarization, storage, cache và kết nối LLM. Ngoài ra repo còn có SDK cho Python, Swift, React Native, cùng MCP server để mở ra khả năng tích hợp với các agent hoặc workflow khác. Với người xây sản phẩm AI, đây không chỉ là một app mẫu mà là một reference architecture cho ambient AI.

Giá trị thực tế lớn nhất của Omi nằm ở khái niệm memory layer xuyên thiết bị. Nếu làm tốt, hệ thống như thế có thể thay đổi cách cá nhân ghi nhớ meeting, quyết định, việc phải làm và bối cảnh giao tiếp. Nó cũng tạo ra cơ hội cho các ứng dụng dọc: coaching, sales follow-up, note-taking, hỗ trợ người khiếm thính, hoặc trợ lý công việc cá nhân. Repo cho thấy họ đã nghĩ đến hướng platform khi mở API, SDK và ví dụ app.

Nhưng đây cũng là dự án mang rủi ro rõ nhất trong ba repo opensource của slot này. Khi bạn thu âm cuộc trò chuyện và ghi màn hình liên tục, câu hỏi đầu tiên không phải là model nào tốt hơn mà là dữ liệu được lưu ở đâu, ai truy cập được, và quyền riêng tư của người đối thoại được xử lý thế nào. Repo có hướng dẫn local development và open source hardware, nhưng để một hệ thống như vậy được dùng rộng trong doanh nghiệp hay thị trường đại chúng, governance và trust sẽ quan trọng không kém UX.

Ngoài riêng tư, Omi còn là bài toán vận hành nặng. Một sản phẩm vừa có firmware, app đa nền tảng, backend thời gian thực, streaming audio và memory retrieval sẽ khó tối ưu đồng đều. Tuy nhiên, chính vì dám ôm trọn bài toán đó mà Omi trở thành repo đáng theo dõi. Nó không phải một wrapper nhỏ quanh API LLM, mà là một thử nghiệm nghiêm túc về AI cá nhân luôn bật, và việc nó tăng mạnh trên GitHub Trending cho thấy cộng đồng đang quan tâm thật đến lớp sản phẩm “AI hiện diện liên tục”, không chỉ AI trong hộp chat.

Điểm nổi bật

Biểu đồ

Tóm tắt

Chi tiết

Nguồn