Grokking đa probe trên HN mở ra tranh luận về độ tin cậy của probe làm thước đo an toàn - Discussion

Điểm nổi bật

Engagement: 1 point, thread mới đăng vài phút khi crawl; thảo luận còn ở giai đoạn khởi phát.
Kết quả nghiên cứu chính: fresh probe AUROC tăng từ 0,472 lên 0,528 sau huấn luyện DPO, trong khi hai probe gốc gần như phẳng với biến thiên chỉ khoảng 7×10^-8.
Luận điểm chính 1: tối ưu theo probe không đồng nghĩa mô hình sẽ di chuyển đúng trên trục mà probe đó đang đo.
Luận điểm chính 2: hiện tượng tác giả gọi là dạng Goodhart cấu trúc — mô hình học được điều gì đó có thật nhưng lại đi theo hướng gần như vô hình với chính thước đo huấn luyện.
Giá trị thực tế: với đội làm guardrail, thread đặt lại câu hỏi nền tảng: dùng probe để train và dùng chính probe đó để evaluate có thể tạo ra cảm giác an toàn giả.

Biểu đồ

flowchart LR A[DPO dùng probe gốc] --> B[Loss giảm] B --> C[Probe gốc gần như phẳng] A --> D[Fresh probe huấn luyện lại] D --> E[AUROC tăng dần] E --> F[Nghi ngờ Goodhart cấu trúc] F --> G[Cần cách đánh giá độc lập hơn]

Tóm tắt

Submission về paper mới của OpenInterp chưa có đủ thời gian để tích lũy tranh luận lớn trên HN, nhưng chủ đề của nó chạm rất trúng nỗi lo hiện tại của cộng đồng alignment và AI safety. Nhóm tác giả mô tả một thí nghiệm DPO đa probe trên Qwen3.6-27B, nơi hai probe gốc gần như không cho thấy thay đổi nào xuyên suốt quá trình train, nhưng một fresh probe huấn luyện lại trên activations của từng checkpoint thì lại thấy quỹ đạo cải thiện đều và tăng tốc ở giai đoạn cuối.

Điểm khiến thread đáng chú ý là hệ quả phương pháp luận. Nếu probe vừa là tín hiệu thưởng khi train, vừa là thước đo khi evaluate, đội ngũ safety có thể bỏ sót một dạng thay đổi có thật nhưng “đi lệch trục đo”. Với làn sóng doanh nghiệp đang dựa nhiều hơn vào classifier, verifier và probe-based guardrail, đây là câu hỏi không hề hàn lâm.

Chi tiết

Paper của OpenInterp đưa ra một kết quả khá khó chịu theo nghĩa tốt: mô hình có thể đang học, loss có thể đang giảm, generation có thể đã đổi, nhưng probe gốc vẫn gần như đứng yên. Trong thiết kế thí nghiệm, nhóm tác giả dùng hai activation probe có sẵn — một probe cho factuality và một probe cho reasoning quality — làm tín hiệu preference cho DPO trên Qwen3.6-27B. Nếu nhìn theo giả định quen thuộc, tối ưu theo hai probe đó phải đẩy biểu diễn mô hình di chuyển dọc chính những trục mà probe đang đo. Nhưng kết quả không diễn ra như vậy.

Theo phần tóm tắt và phương pháp được công bố, variation của hai probe gốc gần như bằng không xuyên suốt training, chỉ quanh cỡ 10^-8, thấp hơn nhiều so với nhiễu trong từng bước đo. Ngược lại, khi tác giả huấn luyện lại một fresh probe trên activations của từng checkpoint với cùng bộ nhãn, AUROC lại đi lên từ 0,472 lên 0,528 và có dấu hiệu tăng tốc nửa sau quá trình. Tác giả diễn giải đây là một kiểu “construct-then-compress” giống grokking, nhưng xảy ra theo một hướng biểu diễn gần như trực giao với trục mà probe gốc đang quan sát.

Về mặt tranh luận, đây là một đòn trực diện vào thói quen đánh giá tiện tay trong nhiều pipeline safety hiện nay. Các đội làm guardrail rất thích probe vì nó rẻ, dễ gắn vào training loop, lại cho cảm giác cơ học hơn so với đánh giá bằng prompt-based rubric. Nhưng nếu mô hình có thể tối ưu theo tín hiệu reward mà vẫn dịch chuyển vào vùng probe gốc không nhìn thấy, toàn bộ vòng lặp “train bằng probe, validate bằng probe” sẽ có nguy cơ tự xác nhận lẫn nhau. Khi đó, cảm giác “an toàn hơn” có thể chỉ phản ánh việc thước đo quá hẹp chứ không phản ánh mô hình thực sự bớt rủi ro.

Paper cũng chạm một điểm kỹ thuật đáng chú ý khác: tác giả ghi nhận bug im lặng ở Qwen3.6 PEFT save/load khiến adapter có thể không nạp đúng mà không báo lỗi rõ ràng. Nếu nhận định này đúng và tái hiện được, nó nhắc lại một sự thật không thoải mái khác của AI engineering: nhiều kết luận về alignment hoặc fine-tuning có thể bị bóp méo bởi các vấn đề hạ tầng mà người dùng không nhìn thấy.

Với doanh nghiệp, bài học không nhất thiết là “đừng dùng probe”. Bài học có lẽ là phải tách tín hiệu train khỏi tín hiệu evaluate, và nếu probe là thành phần quan trọng trong stack safety thì cần thêm cách đo độc lập hơn: fresh probe, human eval, red-team hoặc downstream task metrics. Vì vậy, dù thread HN này còn rất mới, nó có giá trị như một cảnh báo sớm cho những ai đang xây safety layer dựa quá nhiều vào một loại đo lường duy nhất.

Điểm nổi bật

Biểu đồ

Tóm tắt

Chi tiết

Nguồn