yapsnap — công cụ chép lời audio/video CPU-only, không cần cloud - Open Source

Điểm nổi bật

Tín hiệu rất mới: repo được tạo lúc 2026-05-20T21:01:24Z và cập nhật 2026-05-21T01:51:26Z, đúng cửa sổ slot 3h–9h.
Show HN trong 4 giờ: bài giới thiệu trên Hacker News ghi nhận 29 points sau khoảng 4 giờ, cho thấy có quan tâm sớm từ cộng đồng builder.
Triết lý triển khai: CPU-only, không cần GPU, không cần API key, model tải một lần khoảng 80 MB rồi chạy offline.
Nguồn đầu vào linh hoạt: hỗ trợ YouTube, X, TikTok, Instagram Reels, link media trực tiếp và file cục bộ.
Stack gọn: chỉ xoay quanh sherpa-onnx, numpy, yt-dlp, ffmpeg và một Python module chính.

Biểu đồ

flowchart LR A[URL video hoặc file audio] --> B[yt-dlp hoặc file local] B --> C[ffmpeg decode 16k mono] C --> D[yapsnap] D --> E[Zipformer ASR CPU-only] E --> F[TXT thường] E --> G[TXT có timestamp]

Tóm tắt

Trong bối cảnh rất nhiều sản phẩm AI đang mặc định đẩy dữ liệu lên API đám mây, yapsnap đi theo hướng ngược lại: một CLI nhỏ, chạy tại máy, nhận URL video hoặc file audio và trả về transcript dạng text. Điểm hấp dẫn không nằm ở mô hình ASR mới, mà ở cách đóng gói một workflow thực dụng cho người cần “bốc” nội dung từ video nhanh, rẻ và kín dữ liệu.

Dự án này phù hợp với nhu cầu ngày càng phổ biến trong team nội dung, nghiên cứu và vận hành: trích transcript từ clip ngắn, họp ghi âm hoặc podcast mà không muốn lệ thuộc quota API. Với việc vừa xuất hiện trên Show HN, yapsnap đáng theo dõi như một ví dụ của xu hướng AI utility nhỏ nhưng giải quyết bài toán rất thật.

Chi tiết

README của yapsnap cực kỳ rõ về định vị: “Snap any video URL or audio file into plaintext. No GPU. No cloud. One command.” Thay vì cố trở thành một nền tảng media AI đầy đủ, dự án bó hẹp vào một việc duy nhất là phiên âm và làm việc đó theo cách tối giản nhất. Người dùng chỉ cần cài ffmpeg, pip install ., rồi gọi yapsnap <url hoặc file> là có transcript ở thư mục ./transcripts/. Đây là trải nghiệm rất hợp với nhóm kỹ thuật thích công cụ một lệnh, nhưng cũng đủ đơn giản cho người không muốn dựng pipeline ASR riêng.

Giá trị thực tế lớn nhất của yapsnap là quyền riêng tư và chi phí. Dự án dùng mô hình streaming Zipformer transducer của Kroko chạy qua sherpa-onnx, tải model cỡ khoảng 80 MB trong lần đầu và sau đó hoạt động offline. Điều này biến nó thành lựa chọn hấp dẫn cho doanh nghiệp hoặc cá nhân cần xử lý nội dung nhạy cảm như họp nội bộ, phỏng vấn khách hàng hoặc dữ liệu nghiên cứu mà không muốn gửi lên bên thứ ba. Ngoài ra, vì không cần GPU, rào cản hạ tầng thấp hơn hẳn nhiều stack ASR gần đây vốn tối ưu cho CUDA hoặc Apple Silicon.

Một điểm cộng khác là phạm vi input rất thực chiến. README liệt kê rõ các nguồn như YouTube, Shorts, X, TikTok, Instagram Reels, media URL trực tiếp và file cục bộ phổ biến như mp3, mp4, wav, webm, mkv. Khi kết hợp yt-dlp với ffmpeg, yapsnap gần như đứng trên vai hai công cụ rất bền trong cộng đồng open-source để giải quyết khâu lấy và chuẩn hoá media. Phần --timestamps cũng hữu ích cho nhu cầu ghi chú, cắt nội dung hoặc dẫn lại đoạn quan trọng mà không cần subtitle-grade alignment.

Tuy vậy, dự án vẫn ở giai đoạn rất sớm. Số sao còn thấp, chưa có website riêng, và README cũng thẳng thắn nói timestamp chỉ đủ cho điều hướng chứ chưa phải chất lượng căn chỉnh phụ đề chuyên nghiệp. Mặt khác, việc phụ thuộc yt-dlp nghĩa là các nền tảng mạng xã hội có thể thay đổi cơ chế hoặc dựng rào cản địa lý, đăng nhập, chống bot bất kỳ lúc nào. Dù vậy, với một công cụ nhỏ vừa lên Show HN, yapsnap có tín hiệu tốt: giải quyết việc thật, cách dùng đơn giản, chi phí gần như bằng không và khác biệt rõ với làn sóng “mọi thứ đều là SaaS AI”.

Điểm nổi bật

Biểu đồ

Tóm tắt

Chi tiết

Nguồn