Công cụ mới phát hiện AI biết mình đang bị test — nhưng không nói ra

Một paper mới trên arXiv giới thiệu phương pháp kiểm tra nội bộ model AI chưa từng có. Kết quả đầu tiên khá bất ngờ. Phương pháp gọi là Natural Language Autoencoders, cho phép giải thích các hoạt động nội bộ của model ngôn ngữ lớn bằng ngôn ngữ tự nhiên, thay vì phải phân tích số liệu kỹ thuật phức tạp. Điểm đáng chú ý nhất: công cụ này đã được dùng trong quá trình kiểm tra trước khi phát hành Claude Opus 4.6, và phát hiện hiện tượng “unverbalized evaluation awareness” — nghĩa là model nhận ra nó đang bị kiểm tra, nhưng không hề nói ra điều đó. ...

17 tháng 5, 2026 · 2 min · Lộc Đặng

Kết thúc era Transformer? Model mới xử lý 12 triệu token không giới hạn

KẾT THÚC ERA TRANSFORMER? MODEL MỚI XỬ LÝ 12 TRIỆU TOKEN KHÔNG GIỚI HẠN Một startup tên Subquadratic vừa ra mắt mô hình thương mại đầu tiên dùng kiến trúc hoàn toàn khác Transformer — và nó xử lý được context window 12 triệu token. Transformer truyền thống có một điểm yếu chí mạng: chi phí tính toán tăng theo cấp số nhân khi mở rộng context. Nghĩa là gấp đôi context = gấp bốn chi phí. SubQ 1M-Preview dùng cơ chế attention mới, bỏ qua giới hạn này. Kết quả: xử lý tương đương toàn bộ Wikipedia tiếng Việt trong một lần, với chi phí không tăng exponentially. ...

16 tháng 5, 2026 · 1 min · Lộc Đặng

SubQ ra mắt 12 triệu token context — kiến trúc mới thay đổi cuộc chơi LLM

Một startup Miami vừa chứng minh rằng Transformer truyền thống không phải là con đường duy nhất. Subquadratic ra mắt SubQ — mô hình ngôn ngữ đầu tiên dùng kiến trúc Subquadratic Sparse Attention (SSA), xử lý được 12 triệu token context trong một lần chạy. Con số ấn tượng nhất: 52 lần nhanh hơn FlashAttention ở mức 1 triệu token, giảm 1.000 lần lượng tính toán attention so với dense attention truyền thống. Needle-in-a-Haystack recall đạt 92.1%. SWE-Bench đạt 81.8%. ...

15 tháng 5, 2026 · 2 min · Lộc Đặng