SubQ ra mắt 12 triệu token context — kiến trúc mới thay đổi cuộc chơi LLM
Một startup Miami vừa chứng minh rằng Transformer truyền thống không phải là con đường duy nhất. Subquadratic ra mắt SubQ — mô hình ngôn ngữ đầu tiên dùng kiến trúc Subquadratic Sparse Attention (SSA), xử lý được 12 triệu token context trong một lần chạy. Con số ấn tượng nhất: 52 lần nhanh hơn FlashAttention ở mức 1 triệu token, giảm 1.000 lần lượng tính toán attention so với dense attention truyền thống. Needle-in-a-Haystack recall đạt 92.1%. SWE-Bench đạt 81.8%. ...