AI 真有產值嗎？MIT 新研究：AI 寫程式產量暴增 180%，能用的只增加 30%

麻省理工學院（MIT）涵蓋逾 10 萬名開發者的研究顯示，AI 程式代理雖然大幅推高程式產量，但真正進入生產環境的軟體增幅遠不如表面數字亮眼。AI 工具讓程式量約增加 180%，但實際上線的程式僅約增加 30%。

新創公司在早期產品出現後共計已投資 AI 程式工具數十億美元，因代理程式在各項軟體基準測試表現亮眼：早期僅能解決部分任務，短時間內進步到取得高分，使不少投資人誤以為軟體工程已「攻克」。但研究與業界觀察都顯示，可測試驗證的「能寫程式」與真正「能交件」的落差仍十分明顯。

研究與分析指出，AI 寫程式之所以進展順利，是因可驗證性高：編譯器能直接判定輸出是否通過，測試套件也能立即得知對錯，模型可反覆以基準為目標最佳化。但真實企業環境，最難的往往不是寫出可執行的程式，而是判斷變更是否適合某個特定、文件不完整且複雜的生產系統。這類正確性無法只靠數字榜衡量，系統通常必須真實負載運作夠長時間才能確認。

投資人與業界人士強調，真正有價值的不是通用回答，而是能基於企業資料正確推論。能回答一般問題的 token 價值有限，若 AI 必須以特定公司資料、工作流程與權限架構順利推理，價值就會大幅提高。這也代表資料存取、信任關係與企業整合成本，可能比模型功能高低更能形成長期護城河。

多家 AI 公司也以這種邏輯設計商業模式。部分業者採取「成功才收費」方式，如只有代理程式完整解決客戶問題時才計費；另一些則保證某種結果。這類定價模式之所以可行，前提是業者取得足夠系統權限，能判斷任務是否真正完成。法律領域也出現類似情況，部分公司以自家基準與實際經驗，反過來定義什麼才算合格的 AI 輸出，顯示標準形成更依賴市場回饋，而不只是關起門來的模型訓練。

整體來看，AI 程式工具開發速度確實有提升，但不是線性加速，而是將瓶頸往下游推：程式寫更快，審查、測試、整合、上線與產品化壓力會跟著升高。對投資人而言，這代表應更關注需要公司資料、長期信任與深度整合才能交件的企業，而不是只看基準分數的表面勝利。

（首圖來源：Pixabay）