ERAI News

WaveletLM — mô hình ngôn ngữ không attention với scale O(n log n)

Python 1 giờ trước
WaveletLM — mô hình ngôn ngữ không attention với scale O(n log n)

Điểm nổi bật

  • Nguồn phát hiện: xuất hiện trên HN Show trong khung 2 giờ gần nhất.
  • Ngôn ngữ: Python, train bằng PyTorch.
  • Ý tưởng cốt lõi: bỏ attention, thay bằng wavelet decomposition + FWHT + gated spectral mixing.
  • Hiệu năng công bố: bản 883M tham chiếu dùng ~18.2 GiB VRAM để train và ~4.9 GiB để inference.
  • Điểm đáng chú ý: kiến trúc nhắm tới bài toán scale sequence dài với độ phức tạp O(n log n).

Biểu đồ

flowchart LR A[Token input] --> B[Wavelet decomposition] B --> C[FWHT spectral mixing] C --> D[MLP + PKM] D --> E[Wavelet reconstruction] E --> F[Text output]

Tóm tắt

WaveletLM là một thử nghiệm táo bạo trong nhóm mô hình ngôn ngữ “attention-free”. Thay vì tiếp tục tối ưu Transformer truyền thống, dự án dùng wavelet decomposition và Fast Walsh-Hadamard Transform để trộn thông tin giữa token, rồi kết hợp với MLP mở rộng và sparse product-key memory.

Điều làm dự án đáng theo dõi không phải vì nó đã chứng minh thay thế hoàn toàn Transformer, mà vì nó đại diện cho một hướng tìm kiếm nghiêm túc: làm sao giữ được năng lực mô hình ngôn ngữ khi chi phí context dài trở nên quá đắt.

Chi tiết

README của WaveletLM khá rõ ràng về tham vọng kỹ thuật. Tác giả mô tả pipeline gồm learned lifting wavelet decomposition, sau đó đi qua Fast Walsh-Hadamard Transform, khối gated spectral mixing kiểu SwiGLU, rồi tái cấu trúc bằng inverse FWHT và wavelet reconstruction. Điểm hấp dẫn là cách tiếp cận này tránh cơ chế attention toàn cục vốn đắt đỏ, thay bằng một chuỗi phép biến đổi có thể mở rộng theo O(n log n). Với ai đang tìm đường cho long-context hoặc inference cost thấp hơn, đây là ý tưởng đáng chú ý.

Dự án cũng cho thấy tinh thần mã nguồn mở thực dụng hơn nhiều repo “concept only”. README có hướng dẫn cài đặt, train, inference, cấu hình mẫu và cả con số vận hành tương đối cụ thể. Bản chạy tốt nhất mà repo nêu ra là model 883M trên WikiText-103, cần khoảng 18.2 GiB VRAM để train và 4.9 GiB để suy luận, tốc độ vào khoảng 28.8 token/s trên RTX 5090. Những con số này chưa biến WaveletLM thành giải pháp phổ cập, nhưng đủ để cộng đồng kỹ thuật thử lặp lại và so sánh.

Một điểm hay khác là tác giả không chỉ dừng ở “kiến trúc mới”, mà còn bổ sung các chiến lược inference như entropy adaptive, lookahead và post-training quantization. Điều này khiến dự án trông giống một playground nghiên cứu có khả năng chuyển hóa thành benchmark độc lập hơn là chỉ một README trình diễn.

Hạn chế cũng khá rõ. Trước hết, đây vẫn là dự án giai đoạn sớm, phạm vi đánh giá chủ yếu xoay quanh WikiText-103 và vài bài test do tác giả công bố. Chưa có bằng chứng rằng kiến trúc này giữ được chất lượng trên các workload phức tạp kiểu reasoning, coding hay instruction-following ở quy mô lớn. Ngoài ra, adoption sẽ khó nếu cộng đồng không có tooling và benchmark tái hiện ổn định.

Dù vậy, ở slot 3h này, WaveletLM là một tín hiệu tốt của hệ AI mã nguồn mở: thay vì chỉ fine-tune hoặc wrapper model sẵn có, repo này thử đụng vào chính lõi kiến trúc. Với người theo dõi xu hướng hạ tầng model, đó là giá trị đáng lưu ý.

Nguồn

© 2024 AI News. All rights reserved.