一句話自動產生 SQL 語法,瞄準數據處理的 Numbers Station 獲近 4 億元募資

作者 | 發布日期 2023 年 04 月 08 日 10:30 | 分類 AI 人工智慧 , Big Data , 公司治理 line share follow us in feedly line share
一句話自動產生 SQL 語法,瞄準數據處理的 Numbers Station 獲近 4 億元募資


外包數據清理平台 CrowdFlower 調查指出,資料科學家有 60% 時間花在「清理數據」,而非真正數據分析。就算所有企業都了解「數據驅動」(Data-Driven)的重要性,資料處理仍是無可避免的苦工。

新創Numbers Station把近來火熱的「生成式AI」運用於資料處理:使用者只要輸入一句話,即可自動產生SQL語法,從龐大資料庫撈取數據。如某產品月銷量、本季營業額前三產品,還能直接建立AI模型,連不懂程式語言的工作者也能使用,3月剛獲1,250萬美元A輪募資。

▲ Numbers Station專門解決數據分析上一層工作:數據清理。(Source:Numbers Station)

Numbers Station期望使資料科學家專注「最重要的事」

Numbers Station是由史丹佛大學博士Chris Aberger、Ines Chami、Sen Wu及副教授Chris Ré共同創辦。

「我們看到大多數AI人才專注行銷、圖片產生功能,鮮少專注處理龐雜數據格式、資料前清理,但這仍是巨大的企業問題和企業需求。」Numbers Station執行長Chris Aberger說。

數據分析之前,如果沒有清理乾淨的數據,就難以產出有正確見解的洞察,也就是常見的「垃圾進、垃圾出」(Garbage in, garbage out),如果大多原始數據(Raw Data)錯誤、重複或缺失,尚未清理前便建立AI模型,會降低AI模型的準確率。不過因數據龐大、來源多樣,使數據清洗一直相當困難。

Chris Aberger指出,數據分析、清理能力需要一定程度門檻,因此數據往往只是部分人掌握,不論初階數據存取或AI模型,都仰賴這少數人。「我們想讓資料科學家花更多時間提供洞察,花更少時間在平凡的數據清理」。

Numbers Station讓人人都能寫SQL、建立AI模型

2021年Numbers Station成立,專門提供生成式AI服務,為資料科學家省去重複又耗時的數據清理、重複數據刪除、正規化(Normalization)等,但目前僅供SQL語言。

Numbers Station的目標簡單來說,就是讓數據清洗不再困難,也不再限於有專業知識的人。分成三部分:第一是提高效率,讓資料科學家專注更重要的工作,如解釋數據、制定決策;二是提高數據品質,透過AI自動糾正並辨識問題;三是數據存取權民主化,讓所有人皆能數據撈取、建立AI模型。

為了達成上述目標,Numbers Station產品提供三大服務加速數據清洗、存取與使用:

自動生成SQL語言

SQL語言大多用於資料庫查詢,如客戶訂單、銷售趨勢等,藉Numbers Station,使用者不用學SQL語言,只要輸入口語化指令,如「在A資料表尋找價格大於1,000的商品」,即可得到一串SQL公式,直接撈取需要的數據。

自動建立AI模型

Numbers Station也能自動建立AI模型,以客戶評論為例,使用者只要輸入一句話,如「這些顧客最喜歡這產品哪個地方?以一個單字摘要,如價格、尺寸合適度、風格等」,Numbers Station就會自動為資料集貼上標籤,接著只需檢驗標籤是否正確,回饋並修正,即可建立AI模型。

▲ Numbers Station可讓程式小白直接建立AI模型。(Source:Numbers Station)

自動整併資料庫

由於公司多個資料庫可能散布不同平台,Numbers Station能直接將SAP、Salesforce、Snowflake等資料合併。

▲ Numbers Station自動整併資料集功能。(Source:Numbers Station)

以Numbers Station某間企業客戶來說,擁有兩個客戶關係管理系統(CRM),各自管理線上與實體門市顧客,兩邊數據各自獨立。為了得知顧客線上、實體消費情形,企業希望兩邊數據整併,讓行銷及業務團隊追蹤消費者全面購物過程。

但困難的是,不同實體門市數據雜亂,出現許多缺失值、格式錯誤,導致數據整併需耗費許多精力,最後使用Numbers Station後,兩邊數據匹配率98%,工作速度提升10倍,為數據分析團隊大幅節省時間成本。

對抗生成式AI熱潮,「加入自身專業」才是成功關鍵

3月Numbers Station剛獲1,250萬美元A輪募資,由Madrona領投,含Norwest Venture Partners、Factory等其他投資人。

Madrona投資人Tim Porter和Jon Turow說,投資Numbers Station原因是團隊成員背景有技術實力,可為更多企業導入AI,降低技術使用門檻,Chris Aberger過去就在美國人工智慧軟硬體獨角獸SambaNova Systems領導機器學習團隊。

資料視覺化企業Tableau的前執行長Mark Nelson也發表看法:「Numbers Station正在解決數據業幾十年來挑戰,其平台和底層AI技術為現代數據工作帶來根本性的轉變。」

現行許多公司使用ChatGPT原OpenAI模型打造產品,Chris Aberger也提出相應看法。在他看來,由於ChatGPT僅抓取網路資訊,無法涵括所有知識專業,僅能達到及格水準,因此需要微調才能做到近滿分,使產品差異化。「真正重要的是,這些模型哪些地方應用AI專業知識,使它們在特定組織任務表現良好。」

(本文由 創業小聚 授權轉載;首圖來源:Numbers Station AI