科技日報記者 李均
低成本推理與超長文本理解的創新之門,近日被我國一家AI企業敲開。連日來,這一科技創新事件在全球AI領域引發震動。
6月17日凌晨,總部位于上海的AI獨角獸企業MiniMax(上海稀宇科技有限公司),發布了自主研發的“全球首個開源的大規模混合架構推理模型”MiniMax-M1(以下簡稱M1)。M1支持100萬token上下文窗口,訓練成本僅為53.74萬美元,約合380萬元人民幣,其長文本處理、寫代碼等核心性能填補了開源領域長上下文技術的空白,展現比肩甚至超越業界頂尖模型的實力。
開源“新王”:較低成本訓練出頂尖模型
當前,AI發展迎來關鍵轉折點,如同一場比賽進入下半場。大模型的競爭已經轉變為算力、數據、應用場景等整個生態的競爭,而高效、低成本、強推理能力成為定義下一代AI創新的關鍵變量。“M1如同用經濟型轎車的成本造出了豪華超跑。”“M1是我們眼中的性價比‘新王’。”互聯網上,一些AI行業觀察者給出這樣的評價。
作為國內“AI六小虎”之一的MiniMax,此次發布的M1大模型擁有巨大的成本優勢,主要源于兩大技術創新。一是采用閃電注意力機制為主的混合架構,使得模型在計算長的上下文輸入以及深度推理時更加高效;二是運用CISPO強化學習算法,優化重要性采樣權重,訓練效率超越其他大模型。得益于CISPO的高效,M1模型的整個強化學習階段僅使用了512塊英偉達H800 GPU,耗時3周,成本僅為53.74萬美元。MiniMax方面表示,這一成本“比最初的預期少了一個數量級”。
相關技術報告也指出,在進行8萬Token的深度推理時,M1所需的算力僅為國內另一款大模型的約30%;生成10萬token時,推理算力只需要另一款大模型的25%,實現了“性能躍升、成本腰斬”的雙重突破,為市場提供了一個高性能、低門檻的新選擇。對此,資深人工智能專家、高級工程師丁成剛認為,MiniMax宣布在其自有的App和Web端,M1模型將保持不限量免費使用。當較低成本訓練出頂尖模型,用戶不用擔心百萬token上下文成為高昂服務,可以預見,M1或將會成為智能體時代的首選開源基座模型。
技術“大考”:推動架構創新,實現性能超越
行業觀察人士認為,面對多個核心生產力場景,M1于同類模型中率先實現了技術突破與架構創新,它的核心競爭力在于,將線性注意力(Linear Attention)與標準Softmax注意力有機融合,形成獨特的“閃電注意力”機制。這一設計讓M1在保持長序列處理效率的同時,解決了純線性注意力在信息檢索上的固有缺陷。
相關技術報告顯示,在性能方面,MiniMax在業內公認的17個主流評測集上對M1進行了“檢閱”。結果顯示,M1表現亮眼,全面碾壓開源界。尤其是在軟件工程、長上下文理解以及工具使用等復雜且對生產力要求較高的場景中,M1展現出絕對實力。在SWE-bench基準測試里,M1-40k和M1-80k分別取得55.6%和56.0%的高分。憑借其百萬級的上下文窗口,M1在長上下文理解任務中具有壓倒性優勢,不僅超越所有開源模型,還在部分指標上接近OpenAI o3和Claude4Opus,在全球范圍內位居第二。
在代理工具使用場景(TAU-bench)的評測中,M1不僅在所有開源模型中脫穎而出,還戰勝了Gemini-2.5Pro。此外,M1-80k在多數基準測試中的表現都優于M1-40k,表明增加計算資源對于提升模型性能有顯著作用。在處理400頁技術文檔或10萬行代碼庫時,傳統模型需反復切分上下文,而M1可以做到整體消化、連貫推理,為智能體發展提供了開創性范例。
“M1打破了‘算力+資本’的競爭模式,將對全球AI大模型市場產生深遠影響。不過,對于更多AI領域企業來說,要從技術流派轉向市場應用,以解決問題、實現任務為出發點,開拓醫療、健康、旅游、傳媒等領域垂直類應用場景,才能在AI的規模化應用方面擁有更多想象空間和發展機遇。”資深創投專家、江蘇投資人中心秘書長吳峰認為。