5 分鐘看完 3 大 AI 模型：常見的 AI 模型有哪些?

這兩年大家一直強調 AI 時代已經來臨，但對於一般人來說，除了 ChatGPT 和 Google Gemini，多數人對 AI 這個詞都是似懂非懂。

要不是我自己在科技業工作，我肯定也不清楚現在市面上所說的 AI 功能，背後到底是怎麼做的。

今天這篇文章我會快速和大家分享，現在市面上所看到的 AI 功能，其實背後都是以 3 大 AI 模型為基礎所建立的，它們分別是: LLM、ASR 和 Diffusion Model。

快速導覽

什麼是 LLM?

這個應該是相對最多人聽過的 AI 模型了，LLM 的全名叫做 Large Language Model(大型語言模型)，是一個可以幫助機器理解並使用人類語言的 AI 模型，我們最常用的 ChatGPT 背後也是以 LLM 為基礎來回答大家的問題。

而之所以叫作大型語言模型是因為，他是透過大量文本資料的訓練，來學習人類的語言或其他類型的複雜資料，進一步實現辨識問題並從資料庫給出相對應答案的功能。

簡單來說，大家可以想成工程師們每天都丟幾百萬 GB 的論文和網路文章，讓 LLM 學習語言的組成和規則（機器學習），當人們向 LLM 提問時，他就會照著自己對文字的理解來回答問題。

LLM 可以實現哪些功能?

LLM 最主要被應用在以下幾種情境當中:

1. 智能客服

LLM 可用於客服或 IT 支援助理，提供即時解答與技術指導，減少人力成本並提高客戶滿意度，實現 24/7 全天候服務。

2. 內容創建與文案生成

LLM 能快速生成新聞稿、行銷文案或教學手冊，縮短內容製作時間，確保品牌調性一致，提升內容創作效率（對，你想的沒錯，這段也是我請 ChatGPT 寫的）

3. 醫療助理與健康諮詢

現在也陸續有醫院導入 AI，實現智能醫療助理的功能，LLM 能協助醫生整理病歷、生成診斷報告，或提供健康管理建議，減輕醫護文書負擔並提升患者對健康問題的了解。

4. 軟體開發與程式輔助

想必許多工程師 or 資工系學生這幾年都慢慢習慣讓 AI 來幫你產出程式碼，再以此為基礎作調整。甚至還可以請 AI 幫你 Debug，這些背後也是依靠 LLM 來實現。

常見的 LLM 模型有哪些?

大家最常聽到的大概有兩個，OpenAI 的 GPT 和 Meta 的 LLaMA，事實上也確實如此，大部分的品牌廠都有使用這兩個模型來打造自家的 AI 功能。

除此之外還有像 Google 的 Bard、Anthropic 的 Claude 以及微軟的 Azure，大家可以看下方這張簡表，基本上我覺得知道這 5 個就足夠了。

*整理 by ChatGPT

模型	特點	應用場景	優勢	限制
OpenAI GPT	– 基於深度學習的生成式預訓練模型- 多模態支持（GPT-4）- 支援多輪對話與指令優化	– 文本生成、內容創建- 語言翻譯- AI 助理與客服	– 自然語言生成能力強- 支持多語言與跨領域應用	– 計算資源需求高- 商用成本高
Meta LLaMA	– 高效設計，資源利用率高- LLaMA 2 支援商業應用- 專注開源與研究友好性	– 多語言處理- 自然語言生成- 學術研究與模型優化	– 高效能、靈活性強- 適合低資源環境	– 模型商用化限制（部分版本）
Anthropic Claude	– 強調安全性與倫理性- 對話能力自然，支持長文本處理- 偏向解釋性 AI 的開發	– 對話 AI- 知識管理- 敏感環境中的語言應用	– 強調安全與合規性- 適合企業使用	– 性能尚未超越 GPT- 部分場景功能有限
Microsoft Azure	– 集成 OpenAI GPT 模型- 與 Azure 平台緊密結合- 提供企業定制化選項	– 商務文件生成- 語言驅動的工作流- 數據分析與報告生成	– 雲端部署方便- 深度集成企業生態	– 高度依賴 Azure 生態- 價格偏高
Google Bard	– 基於 PaLM 2- 專注多語言處理與程式碼生成- 可提供即時資訊查詢	– 語言翻譯- 程式碼生成與除錯- 即時搜索輔助	– 數據訓練多樣化，適應性強- 結合 Google 搜索	– 性能在某些場景下不如 GPT- 多模態支持有限

什麼是 ASR?

ASR 的全名叫 Automatic Speech Recognition（中文語音識別），簡單來說，就是能識別人的語音內容，並將其轉成文字。現在市面上出現的能在錄音之後快速生成逐字稿，背後的 AI 模型就是 ASR。

其實 ASR 的訓練原理和 LLM 相同，只是 LLM 是餵文本資料，而 ASR 則是需要投入大量的語音數據來讓模型進行機器學習，才能實現較為精準的語音轉文字。

ASR 可實現哪些功能?

ASR 其實是個很實用但低調的功能，在我還不是手機 PM 的時候，我甚至不知道原來以下這兩項功能背後是靠這個模型來實現的，這裡快速分享給大家:

1.語音助手

現在手機中常見的 Siri、Google Assistant 背後也都是靠著 ASR 技術來理解人們的口語指令，理解用戶的指令之後，完成設定鬧鐘、行事曆等任務。

隨著 ASR 愈發成熟，縣在各手機廠的語音助手能做到更多事情，幫忙回信、訂機票和設定導航等，讓人感覺真的有個「助手」幫你解決問題，本公司也正在努力研發當中，相信未來幾年的功能只會約發進步!

2.語音轉文字（會議紀錄/逐字稿）

這也是現在相當常見的功能，透過 ASR，我們便能快速升成會議記錄 or 演講逐字稿。結合 LLM 之後，還能做到錄音翻譯、錄音摘要的延伸功能，可謂相當方便。

常見的 ASR 模型

最常聽到的是 Whisper，由 OpenAI 推出的 ASR 模型。其他還有像 Meta 的 Wav2Vec 2.0、Mozilla 的 Deep Speeech，細節請看下方表格。

*整理 by ChatGPT

模型	特點	應用場景	優勢	限制
OpenAI Whisper	– 支援多語言語音辨識- 高魯棒性，適應背景噪音- 支援語音翻譯功能- 訓練於多樣化語音數據	– 多語言字幕生成- 語音翻譯與跨語言應用- 噪音環境下的語音轉文字	– 表現穩定，適應不同語音情境- 跨語言處理能力強	– 模型體積較大，對計算資源需求高
Meta Wav2Vec 2.0	– 自監督學習方法，利用未標註語音數據- 對低資源語言有良好效果- 支援微調於特定任務	– 語音助理與智慧家居- 多語言語音轉文字- 低資源語言應用	– 高效訓練，適用於低資源場景- 模型結構靈活	– 微調過程需要額外的專業數據集
Mozilla DeepSpeech	– 基於 RNN 和 CTC 架構- 開源，支持多平台部署- 設計為輕量化模型，適合嵌入式應用	– 離線語音轉文字- 語音驅動的嵌入式設備- 基於開源的應用開發	– 開源社群支持強- 離線應用，無需依賴網路	– 性能在大型數據集上可能不如最新深度學習模型

什麼是 Deffusion Models?

嚴格來說 Deffusion Models 我只知道其中一項，藉由寫這篇文章的時候好好study 了一下才發現，原來 Deffusion Model 是一種用於生成圖像（或其他數據類型，如音頻、視頻）的生成式模型。

我們現在看到的 AI 生圖、生成影片，其實背後都是靠著 Deffusion Model 為基礎。

Diffusion Models 如何用於 AI 生圖

以下段落是我請 ChatGPT 幫我寫的，但其實我看完之後還是一頭霧水:

Diffusion Models 的核心思想是學習數據的生成過程，通常包含以下兩個階段：

正向擴散（Forward Diffusion）將清晰的數據（如圖像）逐步加入噪聲，最終變成純隨機噪聲。
反向去噪（Reverse Diffusion）學習如何從噪聲逐步去噪，還原出清晰的圖像。

這種逐步去噪的特性，使得 Diffusion Models 可以從任意初始噪聲生成非常逼真的數據，應用於各種生成任務。

具體的技術細節，對於我這種技術門外漢確實有點困難了，於是我們轉而來看一下翻成白話文後，Deffusion 能達成什麼效果:

高品質圖像生成：Diffusion Models 能生成具有細節和真實感的圖像，適合藝術創作、設計輔助等場景。
文本到圖像生成（Text-to-Image Generation）：通過結合自然語言處理（NLP），可以根據用戶的文本描述生成對應的圖像。

沒錯，就是用戶能透過指令來讓 AI 幫你生成一張逼真的圖片，這也是現在多數 AI 生圖工具的使用方式，而且隨著模型的優化和算力的提升，已經逐漸從很明顯能看出是 AI 生成的圖片，到現在逼真到難以區分。

常見的 Deffusion Models

我自己最常聽到的是 Stable Deffusion 和 MidJourney，和上面的段落一樣，我們來看看幾個現在主流的生圖模型:

模型	特點	應用場景	優勢	限制
Stable Diffusion	– 基於潛在擴散模型（LDM），高效生成圖像- 支持文本到圖像（Text-to-Image）- 開源，可自訂微調	– 藝術創作與數位設計- 遊戲與動畫開發- AI 輔助工具與研究	– 開源社群支持強- 高效率，適合多樣化應用場景	– 對硬件要求較高- 需要良好的提示語設計
DALL·E 2	– 由 OpenAI 開發，專注於語意理解與高品質生成- 支持圖像到圖像（Image-to-Image）編輯功能	– 高級藝術設計- 商業廣告與產品設計- 視覺故事創作	– 生成圖像細節豐富，語意理解強- 支持複雜圖像操作	– 計算資源需求高- 未完全開放，受限於平台
MidJourney	– 強調藝術風格化生成，適合創意性設計- 基於 Discord 平台進行交互操作	– 創意插畫與數字藝術- 品牌設計與廣告- 角色與場景概念設計	– 藝術風格突出，適合視覺創意設計- 使用簡單方便	– 不支持開源與自訂- 商業應用存在版權爭議

總結: 一步一步了解 AI 吧

身處 AI 時代，雖說充滿挑戰，但也正是因為科技的進步，讓我們能做到更多以前難以想像的事情。 AI 幫你生成文章、影音內容，幫你寫程式，甚至是能理解你嘴巴講出來的話…

這些放在 3、5 年前都是遙不可及的夢想，可現在卻都成為現實，逐步實現在我們的生活中。

我知道 AI 對多人來說是陌生的，光是會用 ChatGPT 就很了不起了，何況是一些更深入的知識。但我認為既然有這個機會出生在 AI 時代，這項劃時代的技術是值得花時間了解和學習的。

我很幸運能在手機品牌廠工作，所以有很多機會接觸到這些 AI 資訊。我想透過撰寫淺顯易懂的文章來讓更多人更了解 AI，這是我寫這篇文章的初衷。

所以這裡也給自己設個小目標，之後要陸續針對 AI 撰寫更有架構且老少咸宜的內容，讓大家能跟著我一起一步一步了解 AI!