Crowfeather-50m — model 54,5M tham số được pretrain công khai từng checkpoint - Open Source

Điểm nổi bật

Stars/Likes: 2 likes trên Hugging Face tại thời điểm crawl; repo/model card mới và vừa được cập nhật trong 6 giờ gần nhất.
Quy mô: 54,5M tham số, pretrained 17.500 bước trên FineWeb-edu, khoảng 2,3B token.
Công thức kỹ thuật: alternating sliding/global attention kiểu Gemma 4, Muon optimizer kiểu DeepSeek V4, WSD scheduler và tied embeddings.
Điểm khác biệt: model card công khai thẳng cả prompt output lỗi, điểm yếu về facts/code/math và kế hoạch tiếp tục train.

Biểu đồ

flowchart LR A[FineWeb-edu] --> B[Crowfeather-50m] B --> C[Checkpoint step 17500] B --> D[Model card minh bạch] C --> E[Nghiên cứu small model] D --> E

Tóm tắt

Crowfeather-50m đáng chú ý không phải vì nó là model mạnh, mà vì nó minh bạch. Trong một thị trường mà phần lớn launch model chỉ nhấn vào benchmark đẹp hoặc brand, model card của Crowfeather cho thấy một hướng làm khác: công khai recipe, token budget, tham số, output lỗi và cả lý do quá trình train bị ngắt. Với builder nhỏ hoặc nhóm nghiên cứu thực nghiệm, đây là kiểu artifact học được nhiều hơn từ một frontier announcement bóng bẩy.

Từ góc nhìn opensource, Crowfeather-50m cũng đại diện cho xu hướng “small model as public lab notebook”. Model yếu hơn, nhưng vòng lặp thử nghiệm ngắn hơn, chi phí dễ kiểm soát hơn và khả năng chia sẻ bài học cho cộng đồng cao hơn.

Chi tiết

Trang model card của Crowfeather-50m mô tả rất cụ thể: đây là một base language model 54,5M tham số, train trên FineWeb-edu trong 17.500 bước, tương đương khoảng 2,3B token. Kiến trúc dùng attention xen kẽ sliding/global lấy cảm hứng từ Gemma 4, Muon optimizer cho trọng số 2D theo tinh thần DeepSeek V4, cùng WSD learning-rate schedule, logit soft-cap và z-loss. Các con số cấu hình như dim, layer, head, context và phân bổ tham số đều được nêu rõ. Chỉ riêng mức chi tiết đó đã khiến model card hữu ích cho bất kỳ ai đang học cách thiết kế và huấn luyện model nhỏ.

Giá trị lớn hơn nằm ở thái độ báo cáo. Tác giả đưa cả output ví dụ để chứng minh model hiện làm tốt gì và dở gì. Nó viết tiếng Anh tương đối mượt, giữ nhịp câu ổn, nhưng factual accuracy còn thấp và code gần như thất bại vì corpus ít dữ liệu lập trình. Đây là dạng honesty mà cộng đồng opensource rất cần: thay vì cố thuyết phục người dùng rằng một checkpoint đầu đã “đủ dùng”, model card nói rõ đây là artifact nghiên cứu, không phù hợp production, không phải chat model và càng chưa phải code model.

Về mặt ứng dụng, Crowfeather-50m phù hợp nhất với ba nhóm. Nhóm một là builder muốn nghiên cứu training dynamics trên quy mô nhỏ: đổi optimizer, scheduler, tokenizer hay corpus rồi đo tác động. Nhóm hai là người cần một base artifact để distill hoặc fine-tune cho miền hẹp. Nhóm ba là cộng đồng giáo dục AI, nơi việc hiểu pipeline quan trọng hơn việc chạy một model thật to. README còn cho thấy lộ trình tiếp theo: tiếp tục train từ checkpoint hiện có, thêm SFT và các bước tối ưu sau này. Điều này mở ra cơ hội theo dõi tiến hóa của một model theo thời gian, chứ không chỉ nhìn snapshot cuối.

Hạn chế dĩ nhiên rất rõ. Chất lượng hiện tại chưa đủ cho use case thực tế; mã sử dụng model cần code companion riêng; và hệ sinh thái quanh nó còn sơ khai. Nhưng đó không phải vấn đề nếu nhìn repo đúng vai trò: một thực nghiệm small-model minh bạch, có dữ kiện, có thất bại công khai và có giá trị học tập cao. Trong bối cảnh chi phí compute ngày càng là rào cản, những dự án kiểu này có thể trở thành lớp hạ tầng tri thức quan trọng cho cộng đồng opensource AI.

Điểm nổi bật

Biểu đồ

Tóm tắt

Chi tiết

Nguồn