哈佛研究發現：選 AI 就像選員工？要看價值觀契不契合

當我們與 AI 對話，是否真的能相信它的價值觀與我們一致？哈佛商學院近期使用一套原本用來測量人類價值的問卷（PVQ-RR），評估了市面上 9 款主流大型語言模型（LLM），結果顯示，不同 AI 模型竟展現出明顯不同的「價值偏好」：有的強調規則，有的偏好創意，有的則顯得較不關懷他人。

這項研究可知AI背後隱性的行為傾向，更提醒我們在企業與社會中導入AI時，不能只看功能，還要審視它們可能帶來的價值觀影響。這樣的差異，不只是學術上的好玩而已，它直接觸及了 AI 實際應用的核心問題：你在用的 AI，真的適合你的公司文化與任務目標嗎？

AI「性格」會隨版本更新而變動

很多人可能會以為這些語言模型背後沒有意識，那它的回應就只是根據語料統計給出的「最合理答案」；但哈佛的研究指出，即使 AI 沒有主觀意圖，它所「表現出來的價值傾向」，卻會深刻影響它的回應內容。例如，在「是否遵守規則」這一項上，Mistral 與 DeepSeek-V3 兩款模型的分數高得驚人，代表它們在設計與訓練中內建了高度規範導向的思維；相對地，Grok 2（Fun Mode）與 Llama 的規則遵守度偏低，卻更重視「刺激」與「自我方向」，這樣的模型更適合用在腦力激盪或創意發想的場景中。

特別值得注意的是，同一品牌不同版本的模型也有明顯落差：像 GPT o1 在「關懷他人」與「自我方向」上的分數都偏低，而且回答也不穩定，顯示這個版本的穩定性與價值取向可能還未定型。這說明了一件事：AI 的「性格」會隨著升級版本而變動，今天看起來溫和有禮的模型，下一次更新後可能就變得冷靜務實，甚至無視某些價值考量。

選 AI，也像選團隊成員一樣

如果說選一個 AI 模型就像選擇一個團隊成員，那麼哈佛這份研究就是我們第一次真正看清楚這些「虛擬夥伴」的履歷表。根據研究結果，GPT-4.5 是各項表現最均衡的選手，不但在「關懷他人」、「普世價值」等面向得分高，在「自我方向」與「成就」上也維持中等以上的平衡，適合多元情境與需求的企業使用。

相對地，Claude 則特別擅長「謙遜」與「人際敏感」，這讓它在需要細膩處理人際關係的工作環境中表現出色，例如心理諮詢、顧客服務或教育領域。反觀像 Gemini 則在「自我方向」與「關懷他人」的表現都偏低，可能更適合用在強調控制力、標準化流程為主的場景，像是風控、資料審核等任務。這樣的分類不僅可以幫助企業選出「最適合的 AI 搭檔」，更能在 AI 部署上減少價值衝突帶來的溝通與管理問題。換句話說，AI 的選擇早已不再只是看處理速度或 API 相容性這麼簡單，而是進入了一個要看「價值觀契合度」的全新階段。

從工具到夥伴，AI 價值觀將影響企業文化

這項研究的真正啟示在於：我們過去把 AI 看作是一種工具，是可以任意操控與應用的智慧機械。但現在，它正逐漸變成我們工作流程中的參與者，甚至是決策過程上的一環。當我們在使用 AI 協助撰寫文件、設計策略、建議決策方向的同時，這些看似中立的建議，可能早已深受模型價值觀的潛移默化所影響。企業若忽視這些潛在價值偏差，輕則導致團隊誤判，重則影響企業文化與外部形象。

若一個強調創新文化的企業，長期使用一個重視服從與規範的模型為創意生成工具，那麼團隊的思維可能逐漸趨於保守、缺乏突破性，這會不會在不知不覺中削弱了競爭力？

反之，如果一間金融機構選用一個價值觀太過自由奔放的模型，會不會帶來潛在的法遵風險？這些問題，都值得企業在選 AI時就提前思考。未來的 AI，或許不只是我們的工具，而是我們的文化共同創作者。我們能否善用這些「價值偏好」，讓 AI 真正與我們的使命一致，將是組織領導者的新責任。