VOID, mô hình xóa vật thể và tương tác khỏi video của Netflix - Open Source

Điểm nổi bật

Stars / tín hiệu cộng đồng: dự án được nhắc trên HN với khoảng 180 điểm và xuất hiện đồng thời trên GitHub cùng Hugging Face.
Ngôn ngữ: Python, pipeline đi kèm notebook, script inference và data generation.
Tính năng chính 1: xóa vật thể khỏi video cùng các hiệu ứng tương tác như bóng, phản chiếu hoặc đồ vật bị tác động.
Tính năng chính 2: dùng quadmask 4 lớp để mô tả vật thể chính, vùng chồng lấn, vùng bị ảnh hưởng và nền giữ lại.
Tính năng chính 3: hai checkpoint theo hai pass, trong đó pass 2 dùng warped noise để tăng tính nhất quán theo thời gian.

Biểu đồ

flowchart LR A[Video gốc] --> B[Quadmask 4 lớp] C[Prompt nền sau khi xóa] --> D[VOID Pass 1] B --> D D --> E[Video đã xóa vật thể] E --> F[VOID Pass 2 tinh chỉnh] F --> G[Video nhất quán theo thời gian]

Tóm tắt

VOID là một dự án open source đáng chú ý vì nó đẩy bài toán video object removal lên một nấc khó hơn nhiều. Thay vì chỉ xóa vật thể và vá lại nền, mô hình cố gắng xóa cả những tương tác mà vật thể đó gây ra trong cảnh, ví dụ người bị xóa thì cây đàn đang cầm cũng phải rơi xuống tự nhiên, hoặc vật thể bị che, bóng đổ, vùng va chạm cũng cần được xử lý đồng bộ. Đây là một bước tiến từ “xóa hình ảnh” sang “xóa sự kiện vật lý trong video”.

Với các nhóm làm hậu kỳ, chỉnh sửa video, nội dung tổng hợp hoặc nghiên cứu video generative, điểm hấp dẫn nhất của VOID là cách bài toán được đóng gói. Repo không chỉ có model checkpoint mà còn có notebook, pipeline mask reasoning, quy ước dữ liệu đầu vào và hướng dẫn inference hai bước, cho thấy đây là nỗ lực phát hành tương đối hoàn chỉnh chứ không chỉ tung trọng số.

Chi tiết

Theo README và model card, VOID được xây trên CogVideoX-Fun-V1.5-5b-InP rồi fine-tune cho video inpainting với interaction-aware quadmask conditioning. Quadmask là ý tưởng đáng chú ý nhất trong toàn bộ dự án. Thay vì mặt nạ nhị phân đơn giản, hệ thống dùng bốn giá trị để phân biệt vật thể cần xóa, vùng chồng lấn, vùng bị tác động và nền cần giữ. Chính cách biểu diễn này cho phép mô hình hiểu cảnh không chỉ ở mức “chỗ nào cần lấp” mà còn ở mức “đâu là hệ quả vật lý của vật thể cần loại bỏ”.

Dự án được tổ chức thành hai pass. Pass 1 giải bài toán inpainting cơ bản trên video. Pass 2 dùng optical flow-warped latent initialization để cải thiện temporal consistency, rất quan trọng với các clip dài hoặc cảnh có nhiều chuyển động. Cách chia thành hai checkpoint này thực dụng hơn là cố nhồi toàn bộ chất lượng vào một lần suy luận. Nó cho người dùng lựa chọn giữa tốc độ và độ ổn định hình ảnh theo thời gian.

Một điểm đáng giá nữa là repo không chỉ cung cấp suy luận mà còn mở cả pipeline tạo dữ liệu huấn luyện và tạo quadmask. Phần VLM-MASK-REASONER kết hợp SAM2 với Gemini để suy luận vùng tương tác, tức khâu tiền xử lý vốn thường bị giữ kín nay được công khai tương đối rõ. Dù vậy, nhu cầu phần cứng vẫn rất nặng. Notebook yêu cầu GPU 40 GB VRAM trở lên, training chạy trên 8 A100 80GB và còn phụ thuộc thêm vào dữ liệu HUMOTO, Kubric, Blender cùng một số asset bên ngoài. Vì thế, giá trị gần hạn của VOID có lẽ nằm ở nghiên cứu, demo chất lượng cao và những đội kỹ thuật có GPU tốt, hơn là triển khai đại trà ngay lập tức.

Từ góc nhìn chiến lược, VOID cho thấy một hướng quan trọng của open source video AI: chuyển từ các tác vụ chỉnh sửa bề mặt sang mô phỏng nhất quán theo động học của cảnh. Nếu xu hướng này tiếp tục, các công cụ biên tập video trong tương lai sẽ không chỉ “xóa một người khỏi khung hình” mà có thể tái dựng toàn bộ logic vật lý sau khi sự kiện đó biến mất. Với ngành media, quảng cáo và hậu kỳ, đây là ngưỡng năng lực rất đáng theo dõi.

Điểm nổi bật

Biểu đồ

Tóm tắt

Chi tiết

Nguồn