KẾT THÚC ERA TRANSFORMER? MODEL MỚI XỬ LÝ 12 TRIỆU TOKEN KHÔNG GIỚI HẠN

Một startup tên Subquadratic vừa ra mắt mô hình thương mại đầu tiên dùng kiến trúc hoàn toàn khác Transformer — và nó xử lý được context window 12 triệu token.

Transformer truyền thống có một điểm yếu chí mạng: chi phí tính toán tăng theo cấp số nhân khi mở rộng context. Nghĩa là gấp đôi context = gấp bốn chi phí. SubQ 1M-Preview dùng cơ chế attention mới, bỏ qua giới hạn này. Kết quả: xử lý tương đương toàn bộ Wikipedia tiếng Việt trong một lần, với chi phí không tăng exponentially.

Nếu benchmark độc lập xác nhận claim này, đây là thay đổi paradigm thực sự. Các ứng dụng như phân tích toàn bộ codebase doanh nghiệp, đọc hàng nghìn hợp đồng cùng lúc, hay xử lý video dài nhiều giờ đều trở nên khả thi về chi phí. Mọi model đang chạy đua context window (Gemini 2M, GPT-4.1 1M) đều dựa Transformer — SubQ cho thấy có đường khác.

→ Ai nên quan tâm: AI engineer, founder build product xử lý tài liệu dài, CTO đang đánh giá LLM cho enterprise.

#ai_research #llm #architecture

📎 https://whatllm.org