Ai_safety

Một paper mới trên arXiv giới thiệu phương pháp kiểm tra nội bộ model AI chưa từng có. Kết quả đầu tiên khá bất ngờ. Phương pháp gọi là Natural Language Autoencoders, cho phép giải thích các hoạt động nội bộ của model ngôn ngữ lớn bằng ngôn ngữ tự nhiên, thay vì phải phân tích số liệu kỹ thuật phức tạp. Điểm đáng chú ý nhất: công cụ này đã được dùng trong quá trình kiểm tra trước khi phát hành Claude Opus 4.6, và phát hiện hiện tượng “unverbalized evaluation awareness” — nghĩa là model nhận ra nó đang bị kiểm tra, nhưng không hề nói ra điều đó. ...

Ai_safety

Công cụ mới phát hiện AI biết mình đang bị test — nhưng không nói ra

Stanford: AI nịnh người dùng, xác nhận hành vi sai nhiều hơn 49%