5 分鐘看完 3 大 AI 模型:常見的 AI 模型有哪些?

這兩年大家一直強調 AI 時代已經來臨,但對於一般人來說,除了 ChatGPT 和 Google Gemini,多數人對 AI 這個詞都是似懂非懂。

要不是我自己在科技業工作,我肯定也不清楚現在市面上所說的 AI 功能,背後到底是怎麼做的。

今天這篇文章我會快速和大家分享,現在市面上所看到的 AI 功能,其實背後都是以 3 大 AI 模型為基礎所建立的,它們分別是: LLM、ASR 和 Diffusion Model。

什麼是 LLM?

這個應該是相對最多人聽過的 AI 模型了,LLM 的全名叫做 Large Language Model(大型語言模型),是一個可以幫助機器理解並使用人類語言的 AI 模型,我們最常用的 ChatGPT 背後也是以 LLM 為基礎來回答大家的問題。

而之所以叫作大型語言模型是因為,他是透過大量文本資料的訓練,來學習人類的語言或其他類型的複雜資料,進一步實現辨識問題並從資料庫給出相對應答案的功能。

簡單來說,大家可以想成工程師們每天都丟幾百萬 GB 的論文和網路文章,讓 LLM 學習語言的組成和規則(機器學習),當人們向 LLM 提問時,他就會照著自己對文字的理解來回答問題。

LLM 可以實現哪些功能?

LLM 最主要被應用在以下幾種情境當中:

1. 智能客服

LLM 可用於客服或 IT 支援助理,提供即時解答與技術指導,減少人力成本並提高客戶滿意度,實現 24/7 全天候服務。

2. 內容創建與文案生成

LLM 能快速生成新聞稿、行銷文案或教學手冊,縮短內容製作時間,確保品牌調性一致,提升內容創作效率(對,你想的沒錯,這段也是我請 ChatGPT 寫的)

3. 醫療助理與健康諮詢

現在也陸續有醫院導入 AI,實現智能醫療助理的功能,LLM 能協助醫生整理病歷、生成診斷報告,或提供健康管理建議,減輕醫護文書負擔並提升患者對健康問題的了解。

4. 軟體開發與程式輔助

想必許多工程師 or 資工系學生這幾年都慢慢習慣讓 AI 來幫你產出程式碼,再以此為基礎作調整。甚至還可以請 AI 幫你 Debug,這些背後也是依靠 LLM 來實現。

常見的 LLM 模型有哪些?

大家最常聽到的大概有兩個,OpenAI 的 GPT 和 Meta 的 LLaMA,事實上也確實如此,大部分的品牌廠都有使用這兩個模型來打造自家的 AI 功能。

除此之外還有像 Google 的 Bard、Anthropic 的 Claude 以及微軟的 Azure,大家可以看下方這張簡表,基本上我覺得知道這 5 個就足夠了。

*整理 by ChatGPT

模型特點應用場景優勢限制
OpenAI GPT– 基於深度學習的生成式預訓練模型- 多模態支持(GPT-4)- 支援多輪對話與指令優化– 文本生成、內容創建- 語言翻譯- AI 助理與客服– 自然語言生成能力強- 支持多語言與跨領域應用– 計算資源需求高- 商用成本高
Meta LLaMA– 高效設計,資源利用率高- LLaMA 2 支援商業應用- 專注開源與研究友好性– 多語言處理- 自然語言生成- 學術研究與模型優化– 高效能、靈活性強- 適合低資源環境– 模型商用化限制(部分版本)
Anthropic Claude– 強調安全性與倫理性- 對話能力自然,支持長文本處理- 偏向解釋性 AI 的開發– 對話 AI- 知識管理- 敏感環境中的語言應用– 強調安全與合規性- 適合企業使用– 性能尚未超越 GPT- 部分場景功能有限
Microsoft Azure– 集成 OpenAI GPT 模型- 與 Azure 平台緊密結合- 提供企業定制化選項– 商務文件生成- 語言驅動的工作流- 數據分析與報告生成– 雲端部署方便- 深度集成企業生態– 高度依賴 Azure 生態- 價格偏高
Google Bard– 基於 PaLM 2- 專注多語言處理與程式碼生成- 可提供即時資訊查詢– 語言翻譯- 程式碼生成與除錯- 即時搜索輔助– 數據訓練多樣化,適應性強- 結合 Google 搜索– 性能在某些場景下不如 GPT- 多模態支持有限

什麼是 ASR?

ASR 的全名叫 Automatic Speech Recognition(中文語音識別),簡單來說,就是能識別人的語音內容,並將其轉成文字。現在市面上出現的能在錄音之後快速生成逐字稿,背後的 AI 模型就是 ASR。

其實 ASR 的訓練原理和 LLM 相同,只是 LLM 是餵文本資料,而 ASR 則是需要投入大量的語音數據來讓模型進行機器學習,才能實現較為精準的語音轉文字。

ASR 可實現哪些功能?

ASR 其實是個很實用但低調的功能,在我還不是手機 PM 的時候,我甚至不知道原來以下這兩項功能背後是靠這個模型來實現的,這裡快速分享給大家:

1.語音助手

現在手機中常見的 Siri、Google Assistant 背後也都是靠著 ASR 技術來理解人們的口語指令,理解用戶的指令之後,完成設定鬧鐘、行事曆等任務。

隨著 ASR 愈發成熟,縣在各手機廠的語音助手能做到更多事情,幫忙回信、訂機票和設定導航等,讓人感覺真的有個「助手」幫你解決問題,本公司也正在努力研發當中,相信未來幾年的功能只會約發進步!

2.語音轉文字(會議紀錄/逐字稿)

這也是現在相當常見的功能,透過 ASR,我們便能快速升成會議記錄 or 演講逐字稿。結合 LLM 之後,還能做到錄音翻譯、錄音摘要的延伸功能,可謂相當方便。

常見的 ASR 模型

最常聽到的是 Whisper,由 OpenAI 推出的 ASR 模型。其他還有像 Meta 的 Wav2Vec 2.0、Mozilla 的 Deep Speeech,細節請看下方表格。

*整理 by ChatGPT

模型特點應用場景優勢限制
OpenAI Whisper– 支援多語言語音辨識- 高魯棒性,適應背景噪音- 支援語音翻譯功能- 訓練於多樣化語音數據– 多語言字幕生成- 語音翻譯與跨語言應用- 噪音環境下的語音轉文字– 表現穩定,適應不同語音情境- 跨語言處理能力強– 模型體積較大,對計算資源需求高
Meta Wav2Vec 2.0– 自監督學習方法,利用未標註語音數據- 對低資源語言有良好效果- 支援微調於特定任務– 語音助理與智慧家居- 多語言語音轉文字- 低資源語言應用– 高效訓練,適用於低資源場景- 模型結構靈活– 微調過程需要額外的專業數據集
Mozilla DeepSpeech– 基於 RNN 和 CTC 架構- 開源,支持多平台部署- 設計為輕量化模型,適合嵌入式應用– 離線語音轉文字- 語音驅動的嵌入式設備- 基於開源的應用開發– 開源社群支持強- 離線應用,無需依賴網路– 性能在大型數據集上可能不如最新深度學習模型

什麼是 Deffusion Models?

嚴格來說 Deffusion Models 我只知道其中一項,藉由寫這篇文章的時候好好study 了一下才發現,原來 Deffusion Model 是一種用於生成圖像(或其他數據類型,如音頻、視頻)的 生成式模型

我們現在看到的 AI 生圖、生成影片,其實背後都是靠著 Deffusion Model 為基礎。

Diffusion Models 如何用於 AI 生圖

以下段落是我請 ChatGPT 幫我寫的,但其實我看完之後還是一頭霧水:

Diffusion Models 的核心思想是學習數據的生成過程,通常包含以下兩個階段:

  1. 正向擴散(Forward Diffusion)將清晰的數據(如圖像)逐步加入噪聲,最終變成純隨機噪聲。
  2. 反向去噪(Reverse Diffusion)學習如何從噪聲逐步去噪,還原出清晰的圖像。

這種逐步去噪的特性,使得 Diffusion Models 可以從任意初始噪聲生成非常逼真的數據,應用於各種生成任務。

具體的技術細節,對於我這種技術門外漢確實有點困難了,於是我們轉而來看一下翻成白話文後,Deffusion 能達成什麼效果:

  • 高品質圖像生成:Diffusion Models 能生成具有細節和真實感的圖像,適合藝術創作、設計輔助等場景。
  • 文本到圖像生成(Text-to-Image Generation):通過結合自然語言處理(NLP),可以根據用戶的文本描述生成對應的圖像。

沒錯,就是用戶能透過指令來讓 AI 幫你生成一張逼真的圖片,這也是現在多數 AI 生圖工具的使用方式,而且隨著模型的優化和算力的提升,已經逐漸從很明顯能看出是 AI 生成的圖片,到現在逼真到難以區分。

常見的 Deffusion Models

我自己最常聽到的是 Stable Deffusion 和 MidJourney,和上面的段落一樣,我們來看看幾個現在主流的生圖模型:

模型特點應用場景優勢限制
Stable Diffusion– 基於潛在擴散模型(LDM),高效生成圖像- 支持文本到圖像(Text-to-Image)- 開源,可自訂微調– 藝術創作與數位設計- 遊戲與動畫開發- AI 輔助工具與研究– 開源社群支持強- 高效率,適合多樣化應用場景– 對硬件要求較高- 需要良好的提示語設計
DALL·E 2– 由 OpenAI 開發,專注於語意理解與高品質生成- 支持圖像到圖像(Image-to-Image)編輯功能– 高級藝術設計- 商業廣告與產品設計- 視覺故事創作– 生成圖像細節豐富,語意理解強- 支持複雜圖像操作– 計算資源需求高- 未完全開放,受限於平台
MidJourney– 強調藝術風格化生成,適合創意性設計- 基於 Discord 平台進行交互操作– 創意插畫與數字藝術- 品牌設計與廣告- 角色與場景概念設計– 藝術風格突出,適合視覺創意設計- 使用簡單方便– 不支持開源與自訂- 商業應用存在版權爭議

總結: 一步一步了解 AI 吧

身處 AI 時代,雖說充滿挑戰,但也正是因為科技的進步,讓我們能做到更多以前難以想像的事情。 AI 幫你生成文章、影音內容,幫你寫程式,甚至是能理解你嘴巴講出來的話…

這些放在 3、5 年前都是遙不可及的夢想,可現在卻都成為現實,逐步實現在我們的生活中。

我知道 AI 對多人來說是陌生的,光是會用 ChatGPT 就很了不起了,何況是一些更深入的知識。但我認為既然有這個機會出生在 AI 時代,這項劃時代的技術是值得花時間了解和學習的。

我很幸運能在手機品牌廠工作,所以有很多機會接觸到這些 AI 資訊。我想透過撰寫淺顯易懂的文章來讓更多人更了解 AI,這是我寫這篇文章的初衷。

所以這裡也給自己設個小目標,之後要陸續針對 AI 撰寫更有架構且老少咸宜的內容,讓大家能跟著我一起一步一步了解 AI!