OpenDeepThink — reasoning training-free tăng 405 Elo trên benchmark lập trình

Một nhóm nghiên cứu từ UC San Diego, Princeton, UW, và UC Berkeley vừa chứng minh một điều trái trực giác: bạn không cần training thêm, không cần verifier, vẫn cải thiện reasoning đáng kể. OpenDeepThink dùng Bradley-Terry aggregation để xếp hạng kết quả reasoning theo hướng breadth thay vì depth.

Thay vì để model suy nghĩ sâu hơn một đường duy nhất, OpenDeepThink tạo nhiều đường reasoning song song, rồi dùng pairwise comparison để tìm ra đường tốt nhất. Kết quả: tăng 405 Elo trên Gemini 3.1 Pro ở benchmark Codeforces, chỉ trong 8 vòng (~27 phút xử lý).

Tại sao đáng chú ý? Hầu hết cải thiện reasoning hiện nay đòi hỏi training thêm (RLHF, constitutional AI) hoặc verifier phức tạp. OpenDeepThink bỏ qua tất cả — chỉ cần model gốc và thuật toán aggregation. Training-free nghĩa là bạn có thể apply ngay lên bất kỳ model nào mà không tốn chi phí fine-tune.

Cách tiếp cận breadth vs depth cũng thú vị. Thay vì cố squeez more reasoning steps vào một chuỗi (depth), OpenDeepThink tạo nhiều chuỗi song song (breadth) rồi chọn tốt nhất. Tương tự như việc giải bài toán bằng nhiều cách rồi chọn cách tối ưu.

Cho AI practitioner: nếu bạn đang chạy reasoning-heavy tasks (code generation, math, analysis), Bradley-Terry aggregation là một kỹ thuật đơn giản có thể cải thiện kết quả mà không tốn thêm training cost. Paper có code kèm theo trên arXiv.

📎 Nguồn: arXiv | Shang Zhou et al. (UCSD/Princeton) | https://arxiv.org/abs/2605.15177