<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Reasoning on Loc Dang</title><link>https://locdang.com/tags/reasoning/</link><description>Recent content in Reasoning on Loc Dang</description><generator>Hugo</generator><language>vi-VN</language><lastBuildDate>Fri, 15 May 2026 21:14:00 +0700</lastBuildDate><atom:link href="https://locdang.com/tags/reasoning/index.xml" rel="self" type="application/rss+xml"/><item><title>OpenDeepThink — reasoning training-free tăng 405 Elo trên benchmark lập trình</title><link>https://locdang.com/posts/opendeepthink-reasoning-training-free-405-elo/</link><pubDate>Fri, 15 May 2026 21:14:00 +0700</pubDate><guid>https://locdang.com/posts/opendeepthink-reasoning-training-free-405-elo/</guid><description>&lt;p&gt;Một nhóm nghiên cứu từ UC San Diego, Princeton, UW, và UC Berkeley vừa chứng minh một điều trái trực giác: bạn không cần training thêm, không cần verifier, vẫn cải thiện reasoning đáng kể. OpenDeepThink dùng Bradley-Terry aggregation để xếp hạng kết quả reasoning theo hướng breadth thay vì depth.&lt;/p&gt;
&lt;p&gt;Thay vì để model suy nghĩ sâu hơn một đường duy nhất, OpenDeepThink tạo nhiều đường reasoning song song, rồi dùng pairwise comparison để tìm ra đường tốt nhất. Kết quả: tăng 405 Elo trên Gemini 3.1 Pro ở benchmark Codeforces, chỉ trong 8 vòng (~27 phút xử lý).&lt;/p&gt;</description></item></channel></rss>