模態:計算機視覺的多維度語言

作者:Gaudenz Boesch

編譯:ronghuaiyang

在人類的角度來看,modality 的含義指的是觸覺、味覺、嗅覺、視覺和聽覺這些感官。然而,AI 系統可以通過與各種傳感器和輸出機制的集成來通過額外的數據類型進行交互。

"Modality" 的含義被定義爲 “某種事物存在的特定方式或被體驗或表達的方式”。在人工智能領域,我們使用這個術語來討論 AI 系統可以解釋的輸入和輸出數據的類型。在人類的角度來看,modality 的含義指的是觸覺、味覺、嗅覺、視覺和聽覺這些感官。然而,AI 系統可以通過與各種傳感器和輸出機制的集成來通過額外的數據類型進行交互。

通過使用各種攝像頭和傳感器進行的模式識別和機器學習使系統能夠識別和解釋數據中的有意義的模式,以執行特定任務或解決定義好的問題。

瞭解模態

每種類型都提供了獨特的洞察力,增強了 AI 理解和與其環境互動的能力。

模態的類型:

最初,AI 系統主要集中在單一模態上。早期模型,如感知器,在 1950 年代爲視覺模態奠定了基礎。自然語言處理 (NLP) 是 AI 系統中多種模態的另一個重大突破。雖然它的明顯應用是在可讀文本中,但它也導致了諸如 LeNet 這樣的計算機視覺模型的發展,用於手寫識別。NLP 仍然支撐着人類與大多數生成式 AI 工具之間的互動。

卷積神經網絡 (CNN) 模態的概念

20 世紀末 RNNs 和 CNNs 的引入對於聽覺和視覺模態來說是一個里程碑式的時刻。2017 年 Transformer 架構(如 GPT 和 BERT)的推出又向前邁出了一大步。這些架構特別增強了理解和生成語言的能力。

如今,研究的重點正轉向能夠以多種方式與世界互動的多模態 AI 系統。

AI 中的多模態系統

多模態 AI 是能夠解釋和與世界互動的系統的自然演進。這些系統結合了多模態數據,如文本、圖像、聲音和視頻,以形成對環境更加複雜的模型。反過來,這使得對周圍世界的解釋和響應變得更加微妙。

雖然整合個體模態可以幫助 AI 在特定任務中表現出色,但採用多模態的方法極大地擴展了能力的邊界。

突破性的模型和技術

Meta AI 是多模態 AI 研究領域的前沿實體之一。它正在開發能夠在不同模態之間理解和生成內容的模型。團隊的一項突破是 Omnivore 模型,它可以使用相同的參數識別圖像、視頻和 3D 數據。

團隊還開發了 FLAVA 項目,爲多模態任務提供基礎模型。它可以執行超過 35 種任務,從圖像和文本識別到聯合文本 - 圖像任務。例如,在單一提示下,FLAVA 可以描述一張圖像、解釋其意義並回答具體問題。它還具有令人印象深刻的零樣本能力,能夠對文本和圖像內容進行分類和檢索。

FLAVA 的結構概要,展示了圖像和文本融合輸入,已實現全面的多任務處理

Data2Vec,作爲 Meta 的另一項倡議,證明了 “完全相同的模型架構和自監督訓練流程可用於開發圖像、語音和文本識別方面的最先進的模型。” 簡而言之,這支持了實施多種模態並不一定需要極端開發開銷的觀點。

雙模態 AI 訓練方法的示意圖,一個 “學生” 模型學習模仿 “教師” 模型處理複雜的語音處理任務。這個完全相同的模型可以處理文本、聽覺和視覺模態。

Google 也在該領域做出了重要貢獻,推出瞭如 Pix2Seq 這樣的模型。該模型採取了一種獨特的方法,即使用多模態架構解決看似單模態的任務。例如,它將物體檢測視爲一項語言建模任務,通過對視覺輸入進行標記化處理。MaxViT,作爲一種 Vision Transformer,確保了局部和非局部信息的有效組合。

Pix2Seq 模型的工作流程:將視覺輸入轉化爲有序的數據 tokens 以進行物體檢測。該模型將圖像轉化爲標註的文本信息,用於各種物體類別。

在技術層面,NVIDIA 在推動多模態 AI 創新方面發揮了重要作用。NVIDIA L40S GPU 是一款專爲加速 AI 工作負載而設計的通用數據中心 GPU。這包括各種模態,如大型語言模型 (LLM) 推理、訓練、圖形和視頻應用。它在開發下一代音頻、語音、2D、視頻和 3D 的 AI 方面仍可能發揮關鍵作用。

由 NVIDIA L40S GPU 驅動的 ThinkSystem SR675 V3 代表着能夠處理複雜多模態 AI 的硬件。例如,它能夠創建數字孿生和沉浸式元宇宙模擬。

實際應用

多模態人工智能系統的應用領域極爲廣泛,而我們纔剛剛起步。例如,自動駕駛汽車需要結合視覺、聽覺和文本等多種模式來響應人類指令並導航。在醫療健康領域,多模態診斷綜合了影像資料、報告和患者數據,以提供更加精確的診斷。多模態人工智能助手能夠理解和響應不同的輸入,比如語音命令和視覺提示。

在健康領域的多模態 AI 應用

在最前沿的應用中,我們看到了採用多模態能力的先進機器人系統。在最近的一次演示中,下圖展示了將人類語言輸入與視覺解釋相結合的能力。這使得它能夠根據口頭指示在廚房中執行典型的家務任務。我們還看到特斯拉的 Optimus 等其他競爭對手也有類似的發展。

使用多模態 AI 實現機器人和人類的互動功能

支持多模態 AI 的技術框架與模型

多模態系統的成功離不開多種複雜神經網絡架構的集成。大多數多模態 AI 的應用案例都需要對其所處理的數據的內容和上下文有深入的理解。更進一步說,它們必須能夠高效地同時處理來自不同來源的多種模態。

這就引出瞭如何最好地整合不同數據類型的同時平衡增強相關性和減少噪聲的需求的問題。即使是在同一時間訓練 AI 系統處理多種模態也會導致諸如共學 (co-learning) 等問題。這些問題的影響範圍從簡單的干擾到災難性的遺忘都有可能。

然而,得益於該領域的快速發展,不斷湧現出解決這些不足的先進框架和模型。有些框架是專門設計用來幫助和諧地合成來自不同數據類型的信息。PyTorch 的 TorchMultimodal 庫就是這樣一個例子,它爲研究人員和開發者提供了構建模塊和最先進的多模態模型的端到端示例。

值得注意的模型包括 BERT,它可以深度理解文本內容;以及卷積神經網絡 (CNNs),用於圖像識別。Torch multimodal 允許將這些強大的單模態模型結合起來,形成一個多模態系統。

這也帶來了革命性的突破。例如,CLIP 的開發改變了計算機視覺系統學習文本和 AI 表示的方式。此外,還有 Multimodal GPT,它擴展了 OpenAI 的 GPT 架構來處理多模態生成。

CLIP 預訓練了一個圖像編碼器和一個文本編碼器,以預測數據集中哪些圖像與哪些文本相匹配,從而使 CLIP 成爲一個零樣本分類器。數據集中的所有類別都被轉換爲標題,例如 “一張狗的照片”。然後 CLIP 預測與其估計最適合給定圖像配對的標題所屬的類別。

多模態 AI 系統開發面臨的挑戰

在將不同數據類型整合到單一 AI 模型中時,會面臨多個挑戰:

尋找解決這些挑戰的方法是一個持續發展的領域。一些模型無關的方法,如 Meta 開發的方法,提供了最有前景的前進路徑。

此外,深度學習模型展示了自動從大型多模態數據集中學習表示的能力。這有可能進一步提高準確性和效率,特別是在數據高度多樣化的場景下。加入神經網絡也有助於解決與多模態數據的複雜性和維度相關的挑戰。

多模態對 AI 及計算機視覺的影響

多模態技術的進步預示着未來 AI 和計算機視覺將無縫融入我們的日常生活。隨着這些技術的發展成熟,它們將成爲高級增強現實 (AR) 和虛擬現實 (VR)、機器人技術以及物聯網(IoT) 的重要組成部分。

在製造業中應用機器人來自動化物理任務

在機器人技術領域,增強現實 (AR) 展現出巨大的潛力,能夠簡化編程並改進控制方法。特別是,增強現實可視化系統通過結合真實世界的物理環境與 AR 的沉浸式功能,提高了複雜決策的質量。將視覺、眼動追蹤、觸覺反饋和聲音相結合,使交互變得更加沉浸式。

例如,ABB Robotics 在其 AR 系統中使用增強現實技術,將模擬解決方案疊加到真實環境中。它允許用戶在部署解決方案之前,在 RobotStudio 人工智能軟件中創建先進的模擬。PTC Reality Lab 的 Kinetic AR 項目正在研究利用多模態模型來進行機器人的運動規劃和編程。

在物聯網 (IoT) 領域,多模態交互系統 (MIS) 將真實世界的情境與沉浸式的增強現實內容相結合。這爲用戶交互開闢了新的途徑。網絡技術和計算能力的進步使得實時、自然且用戶友好的界面成爲可能。

英文原文:https://viso.ai/computer-vision/modality/

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/teJ0eMfwe6sur2_-huto4w