彭博開發 BloombergGPT,提供專用金融 AI 資訊服務

作者 | 發布日期 2023 年 04 月 06 日 10:15 | 分類 AI 人工智慧 , 財經 line share follow us in feedly line share
彭博開發 BloombergGPT,提供專用金融 AI 資訊服務


美國財經資訊公司彭博(Bloomberg)近日宣布研發自有聊天機器人 BloombergGPT,盼推出專用金融領域的人工智慧(AI)資訊處理應用,以提供客戶和記者更多功能與服務。

美國新聞業網站尼曼實驗室(Nieman Lab)報導,彭博3月31日發表研究論文詳述BloombergGPT開發。彭博介紹,BloombergGPT是「新大規模生成式AI模型。這個大型語言模型(LLM)專門鎖定範圍廣泛的金融資料訓練產生,目的為了支援多元化的金融產業自然語言處理(NLP)任務集」。

彭博表示,近期以大型語言模型為基礎的人工智慧發展,已在許多領域展示令人振奮的新應用;但金融領域因複雜性及專門術語,必需有專屬模型。BloombergGPT的推出,代表將聊天機器人新科技開發應用到金融產業的第一步。

彭博指出,BloombergGPT將協助改善現有金融相關自然語言任務,如文本情感分析、命名實體辨識(NER)、新聞分類、回答問題和其他功能。此外,它也創造新機會排列可從彭博終端機取得的巨量資料,以提供客戶更多協助。

至於BloombergGPT的訓練規模,彭博表示語料庫有7千億餘個token(字詞碎片)。相較熱門聊天機器人ChatGPT開發公司OpenAI在2020年模型GPT-3,訓練語料庫約有5千億個token。

據彭博說法,BloombergGPT語料庫有3,630億個token取自彭博自有金融資料,也就是來自彭博終端機資料庫,彭博稱這是「至今最大特定領域資料集(dataset)」;其餘3,450億個token則取自其他來源通用資料集。

訓練資料分為財金類FinPile和一般The Pile兩類。FinPile包括彭博檔案庫各類英文金融文件,如新聞文章、公告、新聞稿、網頁內容和社群媒體資料,以及彭博記者撰寫的新聞以外所有新聞來源。

至於The Pile則是龐雜語料庫,來源從YouTube畫面擷取、文藝數位化的古騰堡計畫(Project Gutenberg)到AI訓練常見的安隆公司(Enron)電郵快取。

而BloombergGPT如何使用?尼曼實驗室文章表示,照訓練原理,應有像ChatGPT的功能,此外也能處理與彭博需求更相關的任務,如將自然語言指令翻譯成彭博查詢語言(Bloomberg Query Language)終端機的使用者偏好功能。

BloombergGPT也能為新聞文章提議具有彭博新聞風格的標題。彭博還說,BloombergGPT更能回答與商業有關的提問,無論文本情感分析、分類、資料擷取或任何任務。

(譯者:張正芊;首圖來源:shutterstock)