生成式 AI 掀起科技革命,各大科技巨頭紛紛投入戰局。
近日OpenAI與蘋果合作,美國新創產業研究公司PitchBook數據,今年NVIDIA也持續押注,參與韓國新創Twelve Labs的A輪募資,投資約5,000萬美元(約新台幣16億元),大大幫助Twelve Labs開發AI。
Twelve Labs的AI專攻影片分析,用戶只要說:「幫我找到狗狗打滾的影片。」AI就能馬上找到。看似簡單,其實背後需要理解影片個動作、聲音和情緒代表的意思,背後是Twelve Labs僅花兩年就推出的AI模型。
超越MUM的客製化AI模型,Twelve Labs解決AI訓練影片痛點
MUM是多任務統一模型,能從使用者搜尋語句判斷關鍵字關聯性,找出多條資料,並比對分析使用者用文字、影像或語音問的問題,更全面判斷使用者提問。
其實Google很早就推出MUM AI模型,能了解人類語言不同情況有不同意思,如「住在這很方便」和「我去方便一下」,兩句話的「方便」意思就不同。
Google MUM聚焦提供更精準搜尋結果,Twelve Labs則著重影片AI訓練。Twelve Labs公開AI模型給客戶,依據自己需求調整模型並開發應用,建立API將AI用於各自領域。
▲ Google MUM的AI搜尋系統與Twelve Labs都希望使用者更快找到解答,但Twelve Labs將AI公開給需要的客戶自行調整AI模型。(Source:Google)
「我們最初目的是讓使用者就像用『ctrl+f』網頁快速搜尋需要的詞語,也能快速找到需要的片段」,Twelve Labs共同創辦人暨執行長Jae Lee說,許多訓練AI處理影片的公司較「土法煉鋼」:手動標記影片片段,30秒長影片可能就有幾千萬個標記點,耗時又費力。
Twelve Labs採更有效訓練法。如傳統做法是將每片段同時標上動作、元素、聲音等標籤來訓練,Twelve Labs則水平分割:整部影片動作、聲音、圖像幾個元素分開訓練和分析。
如根據音頻波形,訓練AI辨別人群聲、鳥叫聲或樹葉聲;也透過人物關係互動和時間變化,讓AI分辨人物動作和關係。最後將這些AI訓練成果結合,打造出能理解影片內容的AI模型。
Twelve Labs AI功能三大特色,加速影片自動化開發
Twelve Labs的AI功能結合影片搜尋、語言生成、自動分類及產出摘要,透過API以三大功能幫助簡化影片和內容工作者的後製流程。
影片搜尋和語言生成結合:Twelve Labs的AI搜尋配合語言生成的方式,可以透過AI找到需要的片段。後製工作者不需看完整部影片,就可找到編輯片段,是相當省時的工具,像是狗狗影片告訴AI:「請幫我找到狗狗在草地打滾的片段」或烹飪料理影片,詢問AI用到哪些食材或調味料,對較長影片也能請AI提供影片摘要,找出人物和核心重點是什麼。
▲ Twelve Labs的AI搜尋配合語言生成,用AI找到需要片段,如問AI:請幫我找出偷溜進超市的狗。
自動標記影片:YouTube某些影片也有片段標記,可透過Twelve Labs的AI自動下標功能,找出需要標記的片段。 如創業家影片,AI會自動標記「3:16~6:26是創業家故事」、「15:36~18:37是產品技術解釋」,加速後製人員下標速度,節省編輯時間。
▲ Twelve Labs的AI自動下標功能,自動找出需標記片段。
自動分類影片:最後功能是針對有大量影片瀏覽需求的公司。透過Twelve Labs的AI分類功能,能從影片作品或歷年影音報導快速找到需要材料,節省在海量影片翻找和篩選的時間。
▲ Twelve Labs的AI分類功能,能快速找到需要種類,節省在海量影片篩選的時間。
Twelve Labs有推出不同使用者收費方案,90天600分鐘免費版方案、個人開發者方案和企業方案,後兩者可依單日或單月計算,並有圖片、聲音和影片標記等AI需求每分鐘收費。
兩年半開發兩個AI 模型,影片AI模型獲投資青睞
Twelve Labs的AI功能已有約三萬多名開發人員使用,包括內容創作者及訓練生成式AI的各領域企業。
團隊也與企業合作,2022年幫助NVIDIA訓練A100和H100 GPU,達影片分類、摘要和推薦等自動化影片功能。今年也幫助線上影片編輯網站Blackbird,利用AI加速自動標註影片效率,讓創作者和後製人員更專注影片,不用反覆確認影片後製細節,提高人員工作效率。
去年Twelve Labs推出第一個AI模型Pegasus,成功將長短影片和語言生成AI結合,從4秒到20分鐘影片都能讓使用者與AI文字對話,請AI回答影片所有問題。今年3月又推出第二個AI模型Marengo,經歷訓練6千萬支影片及5億多張圖片,可回答更多影片圖片和聲音等多模型AI。
Twelve Labs創辦至今兩年多,完成兩個AI模型。
Jae Lee和Twelve Labs技術長Aiden Lee也從最初集合五位核心成員成長到40人團隊,並陸續從歐洲創投Index Ventures和加拿大投資公司Radical Ventures等募得3,000萬美元(約新台幣9億元)種子資金,更在近兩年與NVIDIA、英特爾和三星建立合作關係,後續將用NVIDIA這筆資金,持續研發精進AI模型。
▲Twelve Labs執行長兼共同創辦人Jae Lee(左)和技術長Aiden Lee(右)。
- Microsoft backs OpenAI rival Mistral AI
- Twelve Labs – Funding, Financials, Valuation & Investors
- NEA Invests in Twelve Labs’ Multimodal AI
- Twelve Labs is building models that can understand videos at a deep level
- Microsoft Backs Startup Focused on Making AI More Efficient
- 輝達投資AI新創公司馬不停蹄 Twelve Labs近期喜獲青睞
- Twelve Labs: Building Multimodal Video Foundation Models for Better Understanding
(本文由 創業小聚 授權轉載;圖片來源:Twelve Labs)