Một startup Miami vừa chứng minh rằng Transformer truyền thống không phải là con đường duy nhất. Subquadratic ra mắt SubQ — mô hình ngôn ngữ đầu tiên dùng kiến trúc Subquadratic Sparse Attention (SSA), xử lý được 12 triệu token context trong một lần chạy.

Con số ấn tượng nhất: 52 lần nhanh hơn FlashAttention ở mức 1 triệu token, giảm 1.000 lần lượng tính toán attention so với dense attention truyền thống. Needle-in-a-Haystack recall đạt 92.1%. SWE-Bench đạt 81.8%.

SubQ không chỉ là paper. Họ đã tung ba sản phẩm thương mại: SubQ API cho developer, SubQ Code là CLI agent lập trình, và SubQ Search cho tìm kiếm ngữ nghĩa. Tất cả tận dụng được context window khổng lồ — nghĩa là bạn có thể ném cả codebase lớn vào model mà không cần chunking hay retrieval phức tạp.

Tại sao điều này đáng quan tâm? Kiến trúc SSA giải quyết bài toán O(n²) vốn là bottleneck của Transformer truyền thống. Thay vì tính attention trên mọi cặp token, SSA chọn lọc thông minh hơn — ít tính hơn nhưng không mất thông tin. Nếu kết quả reproducible, đây có thể là hướng đi thay thế cho kiến trúc Transformer đang thống trị.

Cho AI builder và Solopreneur: context window 12 triệu token mở ra khả năng phân tích toàn bộ codebase, tài liệu pháp lý dài, hoặc dataset lớn trong một prompt. Không cần RAG pipeline phức tạp, không cần chunking strategy. Tức là giảm đáng kể engineering effort khi build ứng dụng AI.

Thử SubQ API tại trang chủ Subquadratic để đánh giá xem nó phù hợp với use case của bạn chưa.

📎 Nguồn: TheNewStack | https://thenewstack.io/subquadratic-12-million-context-window/