這兩年大家一直強調 AI 時代已經來臨,但對於一般人來說,除了 ChatGPT 和 Google Gemini,多數人對 AI 這個詞都是似懂非懂。
要不是我自己在科技業工作,我肯定也不清楚現在市面上所說的 AI 功能,背後到底是怎麼做的。
今天這篇文章我會快速和大家分享,現在市面上所看到的 AI 功能,其實背後都是以 3 大 AI 模型為基礎所建立的,它們分別是: LLM、ASR 和 Diffusion Model。

什麼是 LLM?
這個應該是相對最多人聽過的 AI 模型了,LLM 的全名叫做 Large Language Model(大型語言模型),是一個可以幫助機器理解並使用人類語言的 AI 模型,我們最常用的 ChatGPT 背後也是以 LLM 為基礎來回答大家的問題。
而之所以叫作大型語言模型是因為,他是透過大量文本資料的訓練,來學習人類的語言或其他類型的複雜資料,進一步實現辨識問題並從資料庫給出相對應答案的功能。
簡單來說,大家可以想成工程師們每天都丟幾百萬 GB 的論文和網路文章,讓 LLM 學習語言的組成和規則(機器學習),當人們向 LLM 提問時,他就會照著自己對文字的理解來回答問題。
LLM 可以實現哪些功能?
LLM 最主要被應用在以下幾種情境當中:
1. 智能客服
LLM 可用於客服或 IT 支援助理,提供即時解答與技術指導,減少人力成本並提高客戶滿意度,實現 24/7 全天候服務。
2. 內容創建與文案生成
LLM 能快速生成新聞稿、行銷文案或教學手冊,縮短內容製作時間,確保品牌調性一致,提升內容創作效率(對,你想的沒錯,這段也是我請 ChatGPT 寫的)
3. 醫療助理與健康諮詢
現在也陸續有醫院導入 AI,實現智能醫療助理的功能,LLM 能協助醫生整理病歷、生成診斷報告,或提供健康管理建議,減輕醫護文書負擔並提升患者對健康問題的了解。
4. 軟體開發與程式輔助
想必許多工程師 or 資工系學生這幾年都慢慢習慣讓 AI 來幫你產出程式碼,再以此為基礎作調整。甚至還可以請 AI 幫你 Debug,這些背後也是依靠 LLM 來實現。
常見的 LLM 模型有哪些?
大家最常聽到的大概有兩個,OpenAI 的 GPT 和 Meta 的 LLaMA,事實上也確實如此,大部分的品牌廠都有使用這兩個模型來打造自家的 AI 功能。
除此之外還有像 Google 的 Bard、Anthropic 的 Claude 以及微軟的 Azure,大家可以看下方這張簡表,基本上我覺得知道這 5 個就足夠了。
*整理 by ChatGPT
模型 | 特點 | 應用場景 | 優勢 | 限制 |
---|---|---|---|---|
OpenAI GPT | – 基於深度學習的生成式預訓練模型- 多模態支持(GPT-4)- 支援多輪對話與指令優化 | – 文本生成、內容創建- 語言翻譯- AI 助理與客服 | – 自然語言生成能力強- 支持多語言與跨領域應用 | – 計算資源需求高- 商用成本高 |
Meta LLaMA | – 高效設計,資源利用率高- LLaMA 2 支援商業應用- 專注開源與研究友好性 | – 多語言處理- 自然語言生成- 學術研究與模型優化 | – 高效能、靈活性強- 適合低資源環境 | – 模型商用化限制(部分版本) |
Anthropic Claude | – 強調安全性與倫理性- 對話能力自然,支持長文本處理- 偏向解釋性 AI 的開發 | – 對話 AI- 知識管理- 敏感環境中的語言應用 | – 強調安全與合規性- 適合企業使用 | – 性能尚未超越 GPT- 部分場景功能有限 |
Microsoft Azure | – 集成 OpenAI GPT 模型- 與 Azure 平台緊密結合- 提供企業定制化選項 | – 商務文件生成- 語言驅動的工作流- 數據分析與報告生成 | – 雲端部署方便- 深度集成企業生態 | – 高度依賴 Azure 生態- 價格偏高 |
Google Bard | – 基於 PaLM 2- 專注多語言處理與程式碼生成- 可提供即時資訊查詢 | – 語言翻譯- 程式碼生成與除錯- 即時搜索輔助 | – 數據訓練多樣化,適應性強- 結合 Google 搜索 | – 性能在某些場景下不如 GPT- 多模態支持有限 |
什麼是 ASR?
ASR 的全名叫 Automatic Speech Recognition(中文語音識別),簡單來說,就是能識別人的語音內容,並將其轉成文字。現在市面上出現的能在錄音之後快速生成逐字稿,背後的 AI 模型就是 ASR。
其實 ASR 的訓練原理和 LLM 相同,只是 LLM 是餵文本資料,而 ASR 則是需要投入大量的語音數據來讓模型進行機器學習,才能實現較為精準的語音轉文字。
ASR 可實現哪些功能?
ASR 其實是個很實用但低調的功能,在我還不是手機 PM 的時候,我甚至不知道原來以下這兩項功能背後是靠這個模型來實現的,這裡快速分享給大家:
1.語音助手
現在手機中常見的 Siri、Google Assistant 背後也都是靠著 ASR 技術來理解人們的口語指令,理解用戶的指令之後,完成設定鬧鐘、行事曆等任務。
隨著 ASR 愈發成熟,縣在各手機廠的語音助手能做到更多事情,幫忙回信、訂機票和設定導航等,讓人感覺真的有個「助手」幫你解決問題,本公司也正在努力研發當中,相信未來幾年的功能只會約發進步!
2.語音轉文字(會議紀錄/逐字稿)
這也是現在相當常見的功能,透過 ASR,我們便能快速升成會議記錄 or 演講逐字稿。結合 LLM 之後,還能做到錄音翻譯、錄音摘要的延伸功能,可謂相當方便。
常見的 ASR 模型
最常聽到的是 Whisper,由 OpenAI 推出的 ASR 模型。其他還有像 Meta 的 Wav2Vec 2.0、Mozilla 的 Deep Speeech,細節請看下方表格。
*整理 by ChatGPT
模型 | 特點 | 應用場景 | 優勢 | 限制 |
---|---|---|---|---|
OpenAI Whisper | – 支援多語言語音辨識- 高魯棒性,適應背景噪音- 支援語音翻譯功能- 訓練於多樣化語音數據 | – 多語言字幕生成- 語音翻譯與跨語言應用- 噪音環境下的語音轉文字 | – 表現穩定,適應不同語音情境- 跨語言處理能力強 | – 模型體積較大,對計算資源需求高 |
Meta Wav2Vec 2.0 | – 自監督學習方法,利用未標註語音數據- 對低資源語言有良好效果- 支援微調於特定任務 | – 語音助理與智慧家居- 多語言語音轉文字- 低資源語言應用 | – 高效訓練,適用於低資源場景- 模型結構靈活 | – 微調過程需要額外的專業數據集 |
Mozilla DeepSpeech | – 基於 RNN 和 CTC 架構- 開源,支持多平台部署- 設計為輕量化模型,適合嵌入式應用 | – 離線語音轉文字- 語音驅動的嵌入式設備- 基於開源的應用開發 | – 開源社群支持強- 離線應用,無需依賴網路 | – 性能在大型數據集上可能不如最新深度學習模型 |
什麼是 Deffusion Models?
嚴格來說 Deffusion Models 我只知道其中一項,藉由寫這篇文章的時候好好study 了一下才發現,原來 Deffusion Model 是一種用於生成圖像(或其他數據類型,如音頻、視頻)的 生成式模型。
我們現在看到的 AI 生圖、生成影片,其實背後都是靠著 Deffusion Model 為基礎。
Diffusion Models 如何用於 AI 生圖
以下段落是我請 ChatGPT 幫我寫的,但其實我看完之後還是一頭霧水:
Diffusion Models 的核心思想是學習數據的生成過程,通常包含以下兩個階段:
- 正向擴散(Forward Diffusion)將清晰的數據(如圖像)逐步加入噪聲,最終變成純隨機噪聲。
- 反向去噪(Reverse Diffusion)學習如何從噪聲逐步去噪,還原出清晰的圖像。
這種逐步去噪的特性,使得 Diffusion Models 可以從任意初始噪聲生成非常逼真的數據,應用於各種生成任務。
具體的技術細節,對於我這種技術門外漢確實有點困難了,於是我們轉而來看一下翻成白話文後,Deffusion 能達成什麼效果:
- 高品質圖像生成:Diffusion Models 能生成具有細節和真實感的圖像,適合藝術創作、設計輔助等場景。
- 文本到圖像生成(Text-to-Image Generation):通過結合自然語言處理(NLP),可以根據用戶的文本描述生成對應的圖像。
沒錯,就是用戶能透過指令來讓 AI 幫你生成一張逼真的圖片,這也是現在多數 AI 生圖工具的使用方式,而且隨著模型的優化和算力的提升,已經逐漸從很明顯能看出是 AI 生成的圖片,到現在逼真到難以區分。
常見的 Deffusion Models
我自己最常聽到的是 Stable Deffusion 和 MidJourney,和上面的段落一樣,我們來看看幾個現在主流的生圖模型:
模型 | 特點 | 應用場景 | 優勢 | 限制 |
---|---|---|---|---|
Stable Diffusion | – 基於潛在擴散模型(LDM),高效生成圖像- 支持文本到圖像(Text-to-Image)- 開源,可自訂微調 | – 藝術創作與數位設計- 遊戲與動畫開發- AI 輔助工具與研究 | – 開源社群支持強- 高效率,適合多樣化應用場景 | – 對硬件要求較高- 需要良好的提示語設計 |
DALL·E 2 | – 由 OpenAI 開發,專注於語意理解與高品質生成- 支持圖像到圖像(Image-to-Image)編輯功能 | – 高級藝術設計- 商業廣告與產品設計- 視覺故事創作 | – 生成圖像細節豐富,語意理解強- 支持複雜圖像操作 | – 計算資源需求高- 未完全開放,受限於平台 |
MidJourney | – 強調藝術風格化生成,適合創意性設計- 基於 Discord 平台進行交互操作 | – 創意插畫與數字藝術- 品牌設計與廣告- 角色與場景概念設計 | – 藝術風格突出,適合視覺創意設計- 使用簡單方便 | – 不支持開源與自訂- 商業應用存在版權爭議 |
總結: 一步一步了解 AI 吧
身處 AI 時代,雖說充滿挑戰,但也正是因為科技的進步,讓我們能做到更多以前難以想像的事情。 AI 幫你生成文章、影音內容,幫你寫程式,甚至是能理解你嘴巴講出來的話…
這些放在 3、5 年前都是遙不可及的夢想,可現在卻都成為現實,逐步實現在我們的生活中。
我知道 AI 對多人來說是陌生的,光是會用 ChatGPT 就很了不起了,何況是一些更深入的知識。但我認為既然有這個機會出生在 AI 時代,這項劃時代的技術是值得花時間了解和學習的。
我很幸運能在手機品牌廠工作,所以有很多機會接觸到這些 AI 資訊。我想透過撰寫淺顯易懂的文章來讓更多人更了解 AI,這是我寫這篇文章的初衷。
所以這裡也給自己設個小目標,之後要陸續針對 AI 撰寫更有架構且老少咸宜的內容,讓大家能跟著我一起一步一步了解 AI!