ml-sharp-web đưa Gaussian Splats của Apple chạy thẳng trong trình duyệt - Open Source

Điểm nổi bật

Stars: 71 stars sau khi xuất hiện trên Show HN, còn sớm nhưng đang hút đúng cộng đồng 3D/AI browser-native.
Kiến trúc: chạy bằng React + TypeScript + Vite + ONNX Runtime Web.
Chức năng chính: upload 1 ảnh, sinh Gaussian splats trong browser, preview kết quả và tải ra file .ply.
Điểm kỹ thuật đáng chú ý: mô hình ONNX cần sidecar dữ liệu khoảng ~2,4 GB, cho thấy tác giả đang đẩy giới hạn inference browser-side khá mạnh.
Giá trị chiến lược: biến một research demo của Apple thành playground web là bước thu hẹp khoảng cách giữa paper, model export và sản phẩm tương tác.

Biểu đồ

flowchart LR A[Ảnh đầu vào] --> B[ONNX Runtime Web] B --> C[ml-sharp-web] C --> D[Gaussian Splat] D --> E[Preview 3D] D --> F[Export file PLY]

Tóm tắt

ml-sharp-web là một ví dụ nhỏ nhưng đáng quan sát của xu hướng “AI generation chạy ngay trên client”. Thay vì xây thêm một demo server nặng phía backend, dự án này lấy SHARP của Apple, export sang ONNX rồi dựng một web playground cho phép tạo Gaussian splats trực tiếp trong trình duyệt.

Điểm làm dự án thú vị không nằm ở số sao hiện tại mà ở hướng đi. Nếu các workflow 3D generation có thể đẩy dần sang browser bằng WebAssembly/WebGPU, chi phí hạ tầng và độ trễ cho các ứng dụng sáng tạo sẽ thay đổi đáng kể.

Chi tiết

Theo README, ml-sharp-web là một ứng dụng browser-based để tạo Gaussian splats từ một ảnh đơn, dựa trên mô hình SHARP của Apple. Người dùng upload một ảnh, bấm generate, xem trước kết quả và tải file .ply để dùng tiếp trong pipeline 3D. Toàn bộ giao diện được dựng bằng React/TypeScript, còn suy luận chạy qua ONNX Runtime Web trong worker riêng. Đây là điểm quan trọng: dự án không chỉ wrap một model có sẵn, mà còn giải phần “last mile” khó hơn là đóng gói export model, inference worker, post-processing và viewer vào trải nghiệm web tương đối liền mạch.

README cũng khá thẳng thắn về giới hạn. Bộ model xuất sang ONNX kéo theo file sidecar .onnx.data rất lớn, khoảng 2,4 GB, và hiệu năng phụ thuộc mạnh vào browser cũng như bộ nhớ máy người dùng. Nghĩa là sản phẩm này chưa phải “demo cho số đông”, nhưng nó là tín hiệu kỹ thuật rõ ràng rằng browser đang dần trở thành runtime nghiêm túc cho các ứng dụng AI thị giác phức tạp hơn. Đối với các đội làm creative tooling, điều đó quan trọng hơn nhiều so với một bảng benchmark đơn lẻ.

Một điểm đáng khen khác là tác giả ghi rõ ghi chú license của upstream SHARP: code và model weights có điều khoản khác nhau, trong đó phần model mang hạn chế research-use. Với làn sóng AI open source hiện tại, sự minh bạch này rất cần thiết vì nhiều dự án demo thường bỏ qua khác biệt giữa giấy phép code và giấy phép weights. ml-sharp-web vì thế có thể chưa phải sản phẩm sẵn sàng scale, nhưng là ví dụ tốt về cách biến research artifact thành một prototype web đủ rõ ràng để cộng đồng học theo, fork và tối ưu thêm. Với thị trường AI 3D, đây là hướng đi đáng theo dõi trong slot này.

Điểm nổi bật

Biểu đồ

Tóm tắt

Chi tiết

Nguồn