Netflix VOID video object deletion - Open Source

Điểm nổi bật

Mô hình 5B nền CogVideoX-Fun: được fine-tune cho video inpainting có nhận thức tương tác.
Quadmask 4 giá trị: tách vùng vật thể chính, vùng chồng lấn, vùng bị ảnh hưởng và nền.
Tối đa 197 frame ở 384x672: đủ cho nhiều clip demo ngắn có động lực học đơn giản.
Yêu cầu GPU mạnh: notebook nêu mức 40GB+ VRAM, cho thấy đây vẫn là công cụ nghiên cứu nặng.

Biểu đồ

flowchart LR A[Video gốc] --> B[Quadmask] B --> C[VOID Pass 1] C --> D[Pass 2 tinh chỉnh nhất quán thời gian] D --> E[Video đã xóa vật thể và tương tác]

Tóm tắt

VOID là một dự án opensource đáng chú ý vì nó đẩy bài toán “xóa vật thể khỏi video” lên một mức khó hơn: xóa luôn các hệ quả mà vật thể đó gây ra trong cảnh, ví dụ bóng đổ, va chạm hay chuyển động kéo theo. Đây là một khác biệt quan trọng so với nhiều pipeline video inpainting chỉ xử lý vùng bị che theo nghĩa thị giác.

Nếu cộng đồng tiếp tục cải tiến được bài toán interaction-aware editing, lớp công cụ chỉnh sửa video bằng AI sẽ tiến gần hơn đến các workflow hậu kỳ chuyên nghiệp và tổng hợp dữ liệu mô phỏng.

Chi tiết

Theo trang model card trên Hugging Face, VOID — viết tắt của Video Object and Interaction Deletion — được xây trên nền CogVideoX-Fun-V1.5-5b-InP và fine-tune cho video inpainting với quadmask conditioning. Ý tưởng cốt lõi ở đây là không xem mọi pixel cần sửa là giống nhau. Thay vào đó, pipeline chia cảnh thành bốn vùng: vật thể cần loại bỏ, vùng chồng lấn, vùng bị ảnh hưởng bởi tương tác, và vùng nền cần giữ nguyên. Chính cách biểu diễn này cho thấy tham vọng của dự án không phải “xóa đẹp một object”, mà là tái dựng trạng thái phản thực của cảnh sau khi object đó chưa từng xuất hiện.

Đây là một hướng rất đáng chú ý trong computer vision ứng dụng. Phần lớn công cụ xóa vật thể hiện nay làm tốt ở mức poster hoặc clip đơn giản, nhưng nhanh chóng lộ lỗi khi vật thể tham gia tương tác vật lý: người ngồi lên ghế, kéo rèm, làm đổ đồ vật, che khuất nguồn sáng, hoặc tạo phản xạ. Khi đó, việc loại bỏ vật thể mà vẫn giữ cảnh hợp lý đòi hỏi mô hình phải hiểu không chỉ texture mà còn quan hệ nhân quả thị giác. VOID là một bước đi theo hướng đó.

Từ góc nhìn sản phẩm, tiềm năng của công cụ như VOID nằm ở ba nhóm use case. Thứ nhất là hậu kỳ video và chỉnh sửa nội dung, nơi nhà sáng tạo muốn xóa chủ thể không mong muốn mà không phải rotoscope thủ công quá nhiều. Thứ hai là tổng hợp dữ liệu cho robot và thị giác máy tính, khi cần tạo ra các biến thể phản thực của cùng một cảnh. Thứ ba là nghiên cứu agent/video world model, vì bài toán “nếu bỏ tác nhân này ra thì cảnh diễn tiến ra sao” rất gần với suy luận nhân quả trong môi trường động.

Tuy nhiên, model card cũng cho thấy đây chưa phải công cụ dành cho số đông. Yêu cầu 40GB+ VRAM khiến phạm vi sử dụng chủ yếu vẫn nằm ở lab, studio hoặc hạ tầng GPU đám mây. Input format cũng không đơn giản: mỗi video cần video gốc, quadmask và prompt mô tả cảnh sau khi xóa. Điều đó nghĩa là chất lượng đầu ra vẫn phụ thuộc đáng kể vào pipeline chuẩn bị dữ liệu.

Dù vậy, giá trị của VOID với hệ sinh thái opensource là rõ ràng. Netflix đang công khai không chỉ checkpoint mà cả logic dữ liệu, training và demo. Điều này giúp cộng đồng có một baseline nghiêm túc cho interaction-aware video editing — một hướng trước đây thường nằm trong bài báo, ít khi đi kèm implementation tương đối hoàn chỉnh. Nếu được tối ưu thêm về bộ nhớ và tooling, VOID có thể trở thành nền cho một lớp công cụ video AI tinh vi hơn nhiều so với “inpaint một vùng”.

Nguồn

Model card VOID trên Hugging Face