SAM 3 mở rộng Segment Anything sang open-vocabulary trên ảnh và video - Open Source

Điểm nổi bật

Quy mô mô hình: SAM 3 có 848 triệu tham số, dùng chung encoder cho detector và tracker.
Độ phủ khái niệm: benchmark SA-Co của dự án chứa 270.000 khái niệm độc nhất, lớn hơn hơn 50 lần các benchmark trước.
Dữ liệu huấn luyện: Meta cho biết data engine đã tự động gán nhãn hơn 4 triệu khái niệm để huấn luyện segmentation open-vocabulary.
Chất lượng đầu ra: repo công bố mức 75–80% hiệu năng con người trên benchmark SA-Co mới.
Nhịp cập nhật: bản SAM 3.1 Object Multiplex bổ sung cơ chế shared-memory cho multi-object tracking nhanh hơn mà không đánh đổi độ chính xác.

Biểu đồ

flowchart LR A[Ảnh hoặc video] --> B[Vision encoder chung] B --> C[Detector nhận prompt văn bản] B --> D[Tracker theo dõi đa khung] C --> E[Mask và box open-vocabulary] D --> F[Theo dõi nhiều đối tượng] E --> G[Ứng dụng thị giác máy tính] F --> G

Tóm tắt

SAM 3 là bước đi đáng chú ý của Meta trong nhóm công cụ thị giác mở, vì nó không chỉ "segment anything" theo điểm hoặc box như thế hệ cũ mà còn nhận prompt bằng khái niệm văn bản. Điều này đẩy repo từ một công cụ annotation quen thuộc thành một lớp model có thể dùng cho workflow agent thị giác, tìm đối tượng theo ý nghĩa và bám đối tượng xuyên suốt video.

Điểm đáng đọc không chỉ nằm ở mô hình, mà còn ở cách Meta đóng gói toàn bộ stack: repo có code inference, fine-tuning, notebook mẫu, benchmark riêng và liên kết checkpoint trên Hugging Face. Với đội sản phẩm hoặc đội CV, đây là dạng repo có thể thử ngay để đánh giá khả năng đưa segmentation mở vào quy trình tìm kiếm, giám sát hoặc gắn ngữ nghĩa cho dữ liệu video.

Chi tiết

SAM 3 giải quyết một bài toán mà nhiều đội AI thị giác đang gặp phải: mô hình segmentation cũ thường mạnh khi người dùng đã biết chính xác điểm, box hoặc exemplar cần khoanh vùng, nhưng yếu hơn khi tác vụ cần diễn đạt bằng ngôn ngữ tự nhiên. Theo README của repo, SAM 3 là foundation model hợp nhất cho promptable segmentation trên cả ảnh lẫn video, có thể phát hiện, phân đoạn và theo dõi đối tượng bằng prompt văn bản hoặc prompt thị giác như điểm, box và mask. Giá trị thực tế ở đây là giao diện điều khiển bằng ngôn ngữ giúp nó gần hơn với luồng làm việc của agent và ứng dụng doanh nghiệp.

Meta nhấn mạnh hai điểm kỹ thuật. Thứ nhất, SAM 3 mở rộng từ segmentation instance sang exhaustive segmentation theo open-vocabulary concept. Nghĩa là thay vì chỉ xử lý một vài nhãn phổ biến, hệ thống có thể nhận cụm từ ngắn và đi tìm mọi thực thể phù hợp trong ảnh hoặc video. Thứ hai, dự án dùng kiến trúc detector–tracker tách rời nhưng chia sẻ vision encoder, cộng với presence token để phân biệt tốt hơn các prompt gần nghĩa như "người mặc áo trắng" so với "người mặc áo đỏ". Cách tách này hữu ích vì nó giảm giao thoa nhiệm vụ giữa nhận diện theo văn bản và bám đối tượng theo thời gian.

Bộ benchmark SA-Co là điểm làm repo này nổi bật hơn nhiều repo demo CV thông thường. README ghi rõ benchmark gồm 270.000 khái niệm độc nhất, cùng với data engine đã tự động gán nhãn hơn 4 triệu khái niệm. Đây là tín hiệu cho thấy repo không chỉ có vài demo đẹp mà còn có luận điểm dữ liệu đủ mạnh: muốn làm segmentation open-vocabulary ở quy mô lớn thì phải có kho khái niệm và nhãn tương ứng đủ sâu. Với lãnh đạo kỹ thuật, điểm này quan trọng vì nó cho biết dự án có thể được dùng như nền móng R&D chứ không chỉ là proof-of-concept.

Ở góc triển khai, repo khá thực dụng. Nó yêu cầu Python 3.12+, PyTorch 2.7+ và GPU CUDA 12.6+, đồng thời cung cấp lệnh cài đặt, notebook ví dụ cho ảnh, video, batched inference và cả ví dụ dùng SAM 3 như một công cụ cho MLLM. Nghĩa là đội nghiên cứu có thể thử ở notebook trước, còn đội sản phẩm có thể tiến dần sang pipeline riêng. Rủi ro nằm ở chỗ checkpoint hiện yêu cầu quyền truy cập qua Hugging Face, và hạ tầng phần cứng không hề nhẹ. Vì vậy SAM 3 hợp với đội có GPU và bài toán thật sự cần segmentation theo ngữ nghĩa trên ảnh/video lớn. Nhưng nếu đúng nhu cầu, đây là một repo open source đáng theo dõi sát vì nó đẩy mặt bằng công cụ thị giác cho agent tiến lên rõ rệt.

Điểm nổi bật

Biểu đồ

Tóm tắt

Chi tiết

Nguồn