用1/10成本就能「吊打」強(qiáng)化學(xué)習(xí),Thinking Machines最新一篇文章開源的這個(gè)策略,不看真OUT了!可在Tinker直接復(fù)現(xiàn)。

現(xiàn)在的大模型在特定領(lǐng)域能夠達(dá)到專家級(jí)表現(xiàn)已經(jīng)不足為奇。

但是能不能讓模型變小的同時(shí),也能在特定領(lǐng)域達(dá)到接近專家級(jí)表現(xiàn)?

現(xiàn)在通常的答案就是「模型蒸餾」(Model Distillation)。

比如DeepSeek-R1發(fā)布時(shí),順帶著也發(fā)布了多個(gè)蒸餾模型(R1模型參數(shù)為671B,蒸餾模型都比較小,1.5B、7B、14B等)。


那還有沒有更好的辦法?

這就是今天要講的On-Policy Distillation(同策略/在線策略蒸餾)。

這是一個(gè)Thinking Machines整的新活,這個(gè)新策略既有強(qiáng)化學(xué)習(xí)等在線策略方法的相關(guān)性和可靠性;又具備離線策略(Off-policy)方法的數(shù)據(jù)效率。


Mira Murati認(rèn)為這個(gè)策略可以讓小模型提升特定領(lǐng)域的表現(xiàn),還能持續(xù)學(xué)習(xí)。


Lilian Weng夸贊新方法「優(yōu)雅」。認(rèn)為這個(gè)策略提供了一種優(yōu)雅的方式,將教師模型作為過程獎(jiǎng)勵(lì)模型來提供稠密獎(jiǎng)勵(lì)。