Hugging Face theo dõi Crowfeather-50m: minh bạch từng bước huấn luyện một base model nhỏ - Discussion

Điểm nổi bật

Engagement: khoảng 693 lượt xem hiển thị trên post, 1 bình luận trực tiếp và tín hiệu theo dõi rõ từ cộng đồng small-model builder.
Dữ kiện chính: model 54,5M tham số, pretrain 17.500 bước, khoảng 2,3B token, chưa có SFT.
Điểm cộng cộng đồng: tác giả chia sẻ thẳng cả điểm yếu — chưa làm tốt facts, code, math — thay vì chỉ khoe benchmark đẹp.
Ý nghĩa rộng hơn: phản ánh xu hướng build-in-public cho small model và chi phí compute đang trở thành câu chuyện sản phẩm lẫn cộng đồng.

Biểu đồ

flowchart LR A[Crowfeather-50m lên Hugging Face] --> B[Builder chia sẻ số liệu huấn luyện thật] B --> C[Cộng đồng soi kiến trúc và token budget] C --> D[Quan tâm tới small model minh bạch] D --> E[Cơ hội build model công khai, lặp nhanh]

Tóm tắt

So với các thread ồn ào trên Hacker News, post của Crownelius nhỏ hơn nhiều về quy mô tranh luận, nhưng lại đáng chú ý ở một chiều khác: tính minh bạch. Tác giả không chỉ thả model card mà còn kể rõ đã huấn luyện tới đâu, compute bị ngắt ở bước nào, mô hình làm tốt điều gì và thất bại ra sao. Trong bối cảnh phần lớn thảo luận về model thường xoay quanh benchmark hoặc marketing, kiểu chia sẻ này tạo cảm giác gần với “lab notebook công khai” hơn là launch post.

Điều khiến post hấp dẫn là nó đại diện cho làn sóng builder đang thử nghiêm túc với mô hình nhỏ. Thay vì nhảy vào đua frontier, họ tối ưu vòng lặp học nhanh: train ít hơn, minh bạch hơn, public hơn, và chấp nhận model còn yếu nhưng có giá trị nghiên cứu rõ ràng.

Chi tiết

Post của Crownelius công bố checkpoint đầu tiên của Crowfeather-50m, một base language model 54,5 triệu tham số. Về mặt “headline”, con số này không lớn trong thế giới 2026, nơi các model hàng trăm tỷ và nghìn tỷ tham số phủ kín feed. Nhưng chính vì vậy, nội dung lại đáng đọc: tác giả nói rất rõ đây là một thử nghiệm học thuật-build-in-public, không phải một nỗ lực cạnh tranh trực diện với frontier model. Dự án bank được 17.500 bước pretrain trên FineWeb-edu, khoảng 2,3 tỷ token, rồi phải dừng vì hết credits trên Thunder Compute. Thay vì che điểm gãy đó, tác giả biến nó thành một phần câu chuyện của model.

Điểm cộng lớn của post là giọng điệu trung thực. Tác giả mô tả model có thể viết tiếng Anh trôi chảy, giữ nhịp văn bản tương đối ổn, nhưng gần như chưa làm được facts, code và math. Chính cách mô tả đó làm post có giá trị hơn nhiều announcement kiểu “we just released a new open model”. Với builder khác, dữ kiện hữu ích không nằm ở claim mô hình mạnh, mà ở việc biết 54,5M params với 2,3B token và recipe kiểu Gemma-4/DeepSeek-V4 có thể cho ra mức chất lượng nào.

Ở cấp cộng đồng, post còn phản ánh một xu hướng đang rõ hơn trong năm 2026: small model research đang quay lại như một dòng chảy riêng. Lý do không chỉ là chi phí. Small model cho phép builder hiểu training dynamics nhanh hơn, thử optimizer/scheduler/attention recipe mới nhanh hơn và công khai toàn bộ vòng lặp mà không cần hạ tầng kiểu big lab. Điều này mở cửa cho một lớp nhà phát triển độc lập: không đủ tiền đua model lớn, nhưng đủ khả năng tạo ra tri thức thực nghiệm hữu ích.

Thảo luận tuy chưa dài, nhưng tín hiệu tương tác trên feed Hugging Face cho thấy cộng đồng đang quan tâm tới đúng câu hỏi: 2,3B token với model nhỏ có ý nghĩa gì, checkpoint base như vậy sẽ đi về đâu nếu tiếp tục SFT hoặc distill, và liệu build-in-public có thể tạo ra niềm tin tốt hơn so với những model card quá bóng bẩy hay không. Từ góc nhìn chiến lược, đây là tín hiệu tốt cho hệ sinh thái open model: không phải mọi giá trị đều đến từ quy mô; đôi khi giá trị nằm ở việc công khai cách học, lỗi học và chi phí học.

Điểm nổi bật

Biểu đồ

Tóm tắt

Chi tiết

Nguồn