OpenAI siết huấn luyện Codex sau meme 'goblins'

Điểm nổi bật
- 7:45 PM ngày 28/4: WIRED ghi nhận bộ chỉ dẫn của Codex được lộ ra với dòng cấm nhắc tới “goblins, gremlins, raccoons, trolls, ogres, pigeons”.
- 1 sản phẩm trọng điểm: Codex CLI là lớp công cụ lập trình mà OpenAI đang đẩy mạnh trong cuộc đua agent coding.
- Nhiều lần lặp lại: chỉ dẫn chống “goblins” không xuất hiện một lần ngẫu nhiên mà được nhắc lại nhiều lần trong instruction set.
- 2 đối thủ chính: bài viết đặt Codex vào cuộc cạnh tranh trực diện với Anthropic và các agent coding khác.
- 1 tín hiệu sản phẩm: cuộc đua AI coding đã đi từ benchmark sang kiểm soát hành vi đầu ra trong môi trường agent thật.
Biểu đồ
Tóm tắt
WIRED tiết lộ một chi tiết nhỏ nhưng nói lên nhiều điều về giai đoạn trưởng thành của sản phẩm AI coding: OpenAI đã phải bổ sung các chỉ dẫn rất cụ thể để Codex không tự dưng nhắc tới “goblins” và các sinh vật tương tự khi làm việc. Bề ngoài đây là một câu chuyện meme, nhưng ở tầng sản phẩm, nó cho thấy các nhà cung cấp agent code không còn chỉ tối ưu độ đúng của mã mà còn phải kiểm soát ngữ điệu, độ ổn định và mức độ phù hợp trong ngữ cảnh làm việc thực tế.
Khi AI bắt đầu trực tiếp tham gia vào workflow viết phần mềm, những lệch chuẩn nhỏ về hành vi không còn là trò đùa vô hại. Chúng ảnh hưởng tới niềm tin người dùng, độ chuyên nghiệp của sản phẩm và khả năng triển khai trong doanh nghiệp. Vì vậy, chi tiết “cấm goblins” thực chất là dấu hiệu của một thị trường đang chuyển từ trình diễn mô hình sang vận hành sản phẩm.
Chi tiết
Bài viết của WIRED mô tả một phát hiện khá kỳ lạ nhưng đáng chú ý trong bộ chỉ dẫn dành cho Codex CLI của OpenAI: mô hình được yêu cầu “không bao giờ nói về goblins, gremlins, raccoons, trolls, ogres, pigeons hoặc các sinh vật khác trừ khi hoàn toàn liên quan tới yêu cầu của người dùng”. Đây không phải là một trò đùa được thêm vào phần giao diện công khai, mà là một phần của instruction set dùng để điều khiển hành vi của hệ thống khi hỗ trợ lập trình. Việc OpenAI phải viết ra một lệnh cấm cụ thể như vậy cho thấy họ đang xử lý một dạng lệch hành vi đã xuất hiện đủ thường xuyên để trở thành vấn đề sản phẩm.
Ý nghĩa đầu tiên nằm ở bản chất của agent coding. Khi AI chỉ trả lời trong khung chat ngắn, một câu nói lạc đề có thể bị bỏ qua. Nhưng khi mô hình được gắn vào CLI, IDE hay workflow tác tử để đọc codebase, chạy lệnh, sửa file và phản hồi liên tục, các sai lệch về giọng điệu hoặc liên tưởng vô nghĩa sẽ làm giảm đáng kể cảm giác tin cậy. Người dùng kỹ thuật không chỉ cần một mô hình “thông minh”, họ cần một cộng sự số có hành vi nhất quán, ngắn gọn, không gây nhiễu và đủ chuyên nghiệp để xuất hiện trong môi trường làm việc thật.
Ý nghĩa thứ hai là cuộc đua agent coding đang bước sang pha cạnh tranh tinh vi hơn. WIRED nhắc tới bối cảnh OpenAI đang chạy đua gắt với Anthropic và các đối thủ khác, trong khi coding nổi lên như một năng lực “sát tiền” nhất của AI ứng dụng. Ở giai đoạn đầu, các hãng tranh nhau benchmark, tốc độ suy luận và khả năng sinh code. Nhưng khi sản phẩm đi vào tay người dùng thật, bài toán dịch chuyển sang reliability: mô hình có làm đúng việc được giao không, có giữ đúng vai không, có phát sinh những biểu hiện lạ khi đi qua nhiều lớp instruction hay không.
Đây cũng là lời nhắc về tính xác suất của mô hình ngôn ngữ. Một hệ thống có thể rất giỏi viết code nhưng vẫn mang những xu hướng bất thường khi kết hợp với agent harness, memory và lớp prompt dài. Chính sự kết hợp nhiều lớp đó khiến hành vi phát sinh không còn dễ dự đoán như trong benchmark đóng. OpenAI vì thế không chỉ phải huấn luyện mô hình tốt hơn mà còn phải đóng gói nó bằng các quy tắc vận hành rõ ràng hơn.
Về chiến lược sản phẩm, câu chuyện “goblins” cho thấy AI coding đã đủ quan trọng để từng lỗi persona nhỏ cũng phải được chỉnh trị như bug thật. Điều này đặc biệt quan trọng với nhóm khách hàng doanh nghiệp, nơi AI không được phép vừa sửa code vừa tạo cảm giác thiếu nghiêm túc. Nếu nhìn rộng hơn, việc tinh chỉnh hành vi như vậy sẽ ngày càng trở thành lợi thế cạnh tranh: hãng nào kiểm soát tốt hơn không chỉ chất lượng đầu ra mà cả tính ổn định khi agent hoạt động lâu dài, hãng đó có cơ hội thắng ở lớp triển khai thực tế.
Rủi ro là khi các hãng thêm ngày càng nhiều chỉ dẫn vá lỗi hành vi, sản phẩm có thể trở nên cứng nhắc hoặc khó dự đoán theo kiểu khác. Nhưng lợi ích trước mắt rất rõ: người dùng sẽ đánh giá một agent không chỉ bằng việc nó viết được đoạn mã gì, mà bằng việc nó có cư xử như một công cụ làm việc đáng tin cậy hay không. Và chính ở điểm đó, chi tiết “đừng nhắc goblins” lại trở thành một tín hiệu sản phẩm rất thật.