Heretic: tự động abliteration để gỡ bỏ lớp kiểm duyệt trên LLM - Open Source

Điểm nổi bật

Chức năng chính: tự động hóa quy trình directional ablation / abliteration để giảm refusal của model.
Điểm kỹ thuật: tối ưu đồng thời hai mục tiêu là giảm số lần từ chối và giữ KL divergence thấp so với model gốc.
Tín hiệu cộng đồng: repo xuất hiện như một candidate nổi bật trong luồng GitHub/GitHub-adjacent AI tooling của slot 21h.
Ứng dụng thực tế: hỗ trợ nhiều dense model, multimodal model và một số kiến trúc MoE/hybrid như Qwen3.5.

Biểu đồ

flowchart LR A[Model instruction-tuned] --> B[Heretic phân tích refusal direction] B --> C[Tối ưu tham số abliteration] C --> D[Model ít từ chối hơn] D --> E[Giữ gần năng lực gốc]

Tóm tắt

Heretic là một repo đánh trúng đúng mối quan tâm đang tăng nhanh trong cộng đồng open model: làm sao thay đổi hành vi safety/refusal của model mà không phải huấn luyện hậu kỳ tốn kém. Thay vì fine-tune lại từ đầu, dự án dùng directional ablation kết hợp tối ưu hóa bằng Optuna để tìm cấu hình “gỡ kiểm duyệt” hiệu quả nhất cho từng model.

Điểm khiến repo đáng chú ý không chỉ nằm ở tính gây tranh cãi của use case, mà còn ở cách tác giả đóng gói nó như một công cụ kỹ thuật có benchmark, evaluation loop và các tuỳ chọn nghiên cứu interpretability. Điều này khiến Heretic vừa là công cụ vận hành, vừa là một bộ thử nghiệm cho những người muốn can thiệp sâu vào hành vi model.

Chi tiết

Từ README, Heretic không xây một câu chuyện marketing kiểu “uncensored model” đơn giản. Giá trị cốt lõi của dự án là biến một kỹ thuật vốn đòi hỏi hiểu biết khá sâu về residual space và refusal direction thành một pipeline chạy được cho người dùng kỹ thuật. Thay vì bắt người dùng tự mò từng layer, từng ma trận và mức can thiệp, Heretic sử dụng directional ablation kết hợp bộ tối ưu TPE của Optuna để tìm bộ tham số cho kết quả tốt nhất theo hai trục: số prompt “harmful” bị từ chối giảm xuống, trong khi hành vi trên prompt “harmless” vẫn giữ tương đối gần model gốc, thể hiện qua KL divergence.

README còn đưa ra ví dụ khá cụ thể với Gemma 3 12B: model gốc từ chối 97/100 prompt “harmful”, còn model sinh bởi Heretic giảm xuống còn 3/100, đồng thời giữ KL divergence thấp hơn một số bản abliterated phổ biến khác. Dù đây là benchmark do tác giả công bố và cần được tái kiểm chứng, nó cho thấy dự án không chỉ dựa vào cảm nhận chủ quan của cộng đồng mà còn cố gắng lượng hóa trade-off giữa “ít refusal hơn” và “ít phá hỏng năng lực gốc hơn”. Với người nghiên cứu alignment hoặc jailbreak, đây là điểm đáng xem.

Một điểm khác đáng chú ý là độ mở rộng của repo. Heretic hỗ trợ nhiều loại model dense, multimodal, một số MoE và hybrid, lại cho phép lượng tử hóa bitsandbytes để giảm VRAM. Tài liệu cũng đề cập các tính năng nghiên cứu như chiếu residual bằng PaCMAP, tạo scatter plot theo layer và animation để quan sát biến đổi không gian biểu diễn. Điều đó biến repo từ một công cụ “hack model” thành một playground nghiêm túc cho interpretability ở mức thực hành.

Tất nhiên, use case của Heretic có tính nhạy cảm cao. Nó có thể phục vụ nghiên cứu safety hoặc red-teaming, nhưng cũng có thể bị dùng để làm suy yếu guardrail có chủ đích. Chính vì vậy, giá trị chiến lược của repo không nằm ở việc nên hay không nên dùng nó, mà ở chỗ nó cho thấy lớp alignment hiện tại của nhiều open model đang ngày càng được cộng đồng xem như một thành phần có thể phân rã, đo lường và tối ưu như bất kỳ hệ thống kỹ thuật nào khác.

Nguồn

GitHub repo