Qwen 3.6 27B bị chê quá chủ động khi code và cộng đồng gọi ý siết lại instruction prompt - Discussion

Điểm nổi bật

Độ mới đúng cửa sổ: thread được đăng khoảng 5 giờ trước thời điểm quét.
Vấn đề trung tâm: model bị phàn nàn vì tự ý thêm logic, sửa hàm hoặc mở rộng phạm vi refactor ngoài yêu cầu.
Hướng giải quyết được nhắc nhiều nhất: siết AGENTS.md / system prompt / workflow harness thay vì đổ toàn bộ lỗi cho model.
Bối cảnh kỹ thuật rõ ràng: cộng đồng bàn sâu về temperature, top_p, reasoning mode, prompt onboarding và khác biệt giữa model với lớp điều phối.

Biểu đồ

flowchart LR A[Qwen 3.6 qua chu dong] --> B[Code bi sua ngoai yeu cau] B --> C[Cong dong xet lai harness va prompt] C --> D[Them rule ro rang va workflow] D --> E[Giam rui ro agent tu y hanh dong]

Tóm tắt

Điểm đáng chú ý của thread này là cộng đồng LocalLLaMA không phản ứng theo kiểu "model dở". Trái lại, phần lớn bình luận thừa nhận Qwen 3.6 27B vẫn mạnh, nhưng cho rằng khi đặt vào coding workflow thiếu ràng buộc, model dễ khuếch đại những khoảng mơ hồ trong yêu cầu và biến thành hành vi "quá nhiệt tình".

Điều đó làm thread chuyển từ phàn nàn trải nghiệm sang một cuộc thảo luận hữu ích hơn về harness engineering. Nhiều người cho rằng chất lượng agent ngày nay không chỉ phụ thuộc vào model mà phụ thuộc mạnh vào onboarding instruction, protocol đọc file hướng dẫn, sampling và tài liệu "why" trong codebase.

Chi tiết

Thread trên r/LocalLLaMA khởi đầu bằng một phàn nàn rất thực tế: Qwen 3.6 27B khi được dùng để refactor code có lúc tự ý thay đổi logic, thêm câu hỏi vào danh sách có sẵn hoặc đẩy sửa đổi vượt ra ngoài đúng phạm vi người dùng giao. Đây là kiểu lỗi mà nhiều đội dùng coding agent đang gặp, đặc biệt với các model local khi được nối vào harness như Cline hoặc các wrapper tương tự. Điểm đáng chú ý là thay vì chỉ chê model "hallucinate", cộng đồng nhanh chóng phân tách vấn đề thành ba lớp: model behavior mặc định, system prompt, và workflow orchestration.

Một nhóm bình luận cho rằng Qwen là kiểu model "helpful assistant" rất mạnh về chủ động, nên nếu prompt không đủ cụ thể, nó sẽ tự lấp khoảng trống bằng giả định. Theo logic đó, hiện tượng "làm hộ quá mức" không hẳn là bug mà là hệ quả của một instruction surface chưa đủ chặt. Những gợi ý xuất hiện lặp lại khá nhiều: hạ temperature, giảm độ mở của reasoning, viết rule rõ về "chỉ làm đúng phần được yêu cầu", ép agent đọc onboarding packet ở đầu session, và tách riêng workflow cho bug fix, feature hay refactor.

Nhánh bình luận thứ hai đi xa hơn, cho rằng đây là bài toán harness chứ không chỉ bài toán model. Một số người chia sẻ rằng họ dùng Qwen 3.6 khá ổn khi gắn cùng protocol rõ ràng: luôn khám phá trước, viết kế hoạch, tạo test thất bại, chỉ sửa file liên quan, và quay lại giải thích diff. Khi những nguyên tắc đó không hiện diện, model sẽ tối ưu theo xác suất ngôn ngữ thay vì tối ưu theo kỷ luật phần mềm. Nói cách khác, model không biết "ranh giới tổ chức" nếu người dùng không biến ranh giới đó thành instruction machine-readable.

Đáng chú ý hơn, nhiều bình luận kết nối trực tiếp chủ đề này với AGENTS.md và documentation. Một số ý kiến cho rằng cách bền vững nhất để giảm agent làm quá tay không phải là hạ model xuống "đần hơn", mà là đưa thêm tài liệu giải thích vì sao code hiện tại được viết như vậy, đâu là invariant, và tình huống nào không được đụng vào. Đây là tín hiệu quan trọng cho doanh nghiệp: khi agent đi vào quy trình thật, tài sản cạnh tranh không chỉ là model mạnh mà là codebase có thể đọc được bởi agent.

Ở góc nhìn rộng hơn, thread này phản ánh một thay đổi trong thị trường local agent. Cộng đồng đang dần chuyển từ mê đắm benchmark sang chú ý tới hành vi vận hành thực tế: model có biết dừng ở đúng ranh giới không, có tôn trọng workflow không, có thể bị "nắn" bằng policy và prompt architecture hay không. Với các đội đang cân nhắc dùng Qwen, Gemma hoặc model địa phương cho coding, đây là thông điệp rõ: chất lượng không đến từ model đơn lẻ, mà từ bộ ba model, harness và tài liệu vận hành.

Nguồn

Thread gốc trên Reddit