11月25日,騰訊混元于11月25日推出開源OCR模型HunyuanOCR,該模型參數量為1B,基于混元原生多模態架構構建,在多項OCR應用評測中取得當前最優效果。

騰訊混元OCR模型宣布開源:參數量1B 支持14種小語種翻譯

該模型采用端到端訓練推理范式,通過單次前向推理即可完成多項任務,相比傳統級聯方案更具效率優勢。其架構由原生分辨率視頻編碼器、自適應視覺適配器與輕量化語言模型三部分組成。

在性能方面,HunyuanOCR在復雜文檔解析評測OmniDocBench中獲得94.1分,超過谷歌Gemini3-pro等模型;在涵蓋文檔、街景、手寫等九大場景的測試集上,其文字檢測與識別能力領先同類開源及商業模型。同時,該模型支持14種小語種翻譯,并在ICDAR2025文檔翻譯比賽中獲得小模型賽道冠軍。

目前該模型已應用于票據字段抽取、視頻字幕識別及拍照翻譯等場景,并正式對外開放源代碼。