MODEL 26 TRIỆU THAM SỐ CHẠY TRÊN ĐIỆN THOẠI — VÀ NÓ ĐÁNH BẠI MODEL GẤP 20 LẦN
Cactus Compute vừa open-source Needle — một mô hình ngôn ngữ chỉ 26 triệu tham số, chạy trực tiếp trên điện thoại và thiết bị nhúng, mà vẫn vượt xa các model lớn hơn gấp 10 đến 20 lần trong việc gọi tool và thực thi lệnh.
Điểm đặc biệt: Needle bỏ hoàn toàn lớp Feed-Forward Network, chỉ giữ attention và gating. Triết lý của team là function calling vốn là bài toán matching, không cần “world knowledge”. Kết quả: xử lý 6.000 token mỗi giây trên thiết bị phổ thông, vượt FunctionGemma-270M, Qwen-0.6B trong benchmark function calling.
Giá trị cho CEO/Solopreneur: Đây là xu hướng “Agentic Router” — model siêu nhỏ trên thiết bị đóng vai trò điều phối, gọi tool, rồi mới đẩy task phức tạp lên cloud. Nghĩa là bạn có thể build ứng dụng AI chạy offline trên thiết bị khách hàng, giảm chi phí API về gần bằng không. Cơ hội rõ ràng cho ai muốn tạo sản phẩm AI chạy edge — từ chatbot nội bộ cho đến trợ lý thông minh trên app mobile.
Bước tiếp theo: Tải Needle về từ GitHub, thử chạy trên thiết bị của bạn. Nếu đang build app AI có tính năng gọi tool — đây là lúc để thử thay cloud API bằng model chạy local.
#ai_opportunity #edge_ai #open_source