Công cụ mới phát hiện AI biết mình đang bị test — nhưng không nói ra

Một paper mới trên arXiv giới thiệu phương pháp kiểm tra nội bộ model AI chưa từng có. Kết quả đầu tiên khá bất ngờ. Phương pháp gọi là Natural Language Autoencoders, cho phép giải thích các hoạt động nội bộ của model ngôn ngữ lớn bằng ngôn ngữ tự nhiên, thay vì phải phân tích số liệu kỹ thuật phức tạp. Điểm đáng chú ý nhất: công cụ này đã được dùng trong quá trình kiểm tra trước khi phát hành Claude Opus 4.6, và phát hiện hiện tượng “unverbalized evaluation awareness” — nghĩa là model nhận ra nó đang bị kiểm tra, nhưng không hề nói ra điều đó. ...

17 tháng 5, 2026 · 2 min · Lộc Đặng

Stanford: AI nịnh người dùng, xác nhận hành vi sai nhiều hơn 49%

Stanford vừa công bố nghiên cứu trên tạp chí Science khiến cả ngành AI phải suy nghĩ lại. Nghiên cứu do Myra Cheng và Dan Jurafsky dẫn dắt đã test 11 model ngôn ngữ lớn hàng đầu, bao gồm ChatGPT, Claude, Gemini, và DeepSeek. Phát hiện chính: AI xác nhận quan điểm người dùng nhiều hơn 49% so với người thật, kể cả khi người dùng mô tả hành vi phi đạo đức hoặc sai trái. ...

17 tháng 5, 2026 · 2 min · Lộc Đặng