【Google Data Analytics Certificate】筆記:數據分析的六大步驟

由於近期在 Coursera 上了一門 Google 的數據分析課程:Google Data Analytics Professional Certificate,內容相當紮實且乾貨滿滿,因此會在接下來的幾周,用 單元重點摘錄 的方式來和大家分享課程精華,同時也分享我的上課進度和規劃,讓對這門課有興趣的朋友可以參考。

由於我現在還沒上完,所以如果想知道更全面的課程分享的話,還請再等我一到兩個月,我預計年底可以把總時長約 60 小時的課完結,屆時再做一次更全面的分享!

而這篇文章,我主要會撰寫關於 Google Data Analytics Professional Certificate 的 Foundation 課程筆記基礎理論:數據分析的六大步驟。

何謂數據分析的六大步驟?

在這門課的最初,課程便透過影片告訴我們,當開始進行數據分析時,要先針對接下來的步驟進行切割和規劃,才能知道自己現在是在什麼位置?下一步該做些什麼?

雖然每間公司在數據分析上或許都有自己的流程,但在 Google,他們所採用的是「ask – prepare – process – analyze – share – act」這六個步驟進行。(應該不用翻譯吧)

所有和數據分析有關的專案、工作,都要用這套思考脈絡來進行規劃、蒐集數據與發表最後的成果,接下來我會一一針對這六個步驟,做進一步的說明。

Ask|透過問問題來釐清事情全貌

這是我個人對這個步驟的理解,如果有什麼奇怪之處也歡迎提出~

在我們接到數據分析的 assignment 後,先不要急著開始抓數據,而是要透過「問出關鍵問題」來釐清這個 assignment 的幾項重要資訊。

首先,我們要先「定義」這次想透過數據分析解決的問題是什麼?為什麼想蒐集這方面的數據?如果我們沒有先透過問問題來了解老闆、主管的想法,很有可能會搞錯重點,進而做白工或導致決策上的失誤。

再來,是要確認這個專案裡所有「利害關係人的期望」。利害關係人指的是,和這個專案有直接關係的幾個重要角色,可能是你的客戶、你的主管或跨部門合作的夥伴。每個人對於這次數據分析專案的期望都不一樣,而在我們開始之前,要先確認好所有利害關係人對這次專案的期望為何?如果無法達成或方向不對,都要即時的提出與溝通。

其他還有像是了解專案的時長有多久、手上有多少資源以及能取得多少數據的權限等等,在這個階段,掌握越多的關鍵資訊會對你接下來的工作更有幫助。

在這個階段,你可能會問自己下列幾個問題來幫助你了解現況:

  1. 利害關係人真正想解決的問題是什麼?
  2. 當我釐清了關鍵問題,我可以透過什麼方式來幫助利害關係人解決這個問題?

Prepare|準備要用的數據

這個部分就比較直白了。畢竟我們要做的是數據分析,最重要的當然就是要取得我們需要用到的數據。因此在我們定義完問題之後,接著就要去思考:「我需要那些數據來幫助我解決問題?」、「我可以透過什麼管道取得?」等等。

在這個階段,Google 建議我們可以先設立幾個驗證指標,並以此為基礎,到公司的資料庫抓取你需要的數據。這部分也可能需要透過和主管溝通、取得許可,以及項資訊部門取得數據許可權等等。

這部分會因公司的規模大小、資料庫建置的完善與否有些許差異,不過,設立指標並依循內容去取得相關的數據是個很實用的脈絡。

Process|清洗和整理資料

經過 Prepare 步驟蒐集好資料後,接著要做的,就是把這些數據進行整理,讓其能以方便我們分析的格式和樣式去做呈,這就是第三步驟:Process。

有接觸過大量數據的朋友都知道,亂碼、格式不符、跑版和數據缺漏是常有事情,所以在 Process 階段,我們要做的就是將這些錯誤去做更正或刪除。

如果是數量較大筆的資料,可以使用 SQL (資料庫查詢語言)來進行整理;而筆數較少的則可以使用 Excel, Spreadsheet 等工具去做調整。

【延伸閱讀】SQL 14 天入門課程筆記

這裡比較考驗的是 細心使用整理工具 的能力,在數據分析裡,這個步驟通常會花費很多時間。畢竟要找出錯誤、不合格式之處,並且對其進行調整其實相當費時且無聊,我先前在參與數據分析專案的時候,就在這個階段被折騰了很久。

不過,將數據進行有條理的整理和清洗,是數據分析中很重要的基礎。如果這部分沒有做好,在接下來的 Analyze 階段就會屢屢出錯。所以,大家還是要靜下心,把 Process 步驟做好喔!

你可以透過這些問題來檢核 Process 步驟:

  1. 什麼樣的錯誤會讓我接下來的分析出現偏誤?
  2. 我可以如何整理我的數據,讓其變得更加容易分析?

Analyze|針對數據去做分析

這個步驟就是大家在聽到「數據分析」時,腦海中那些數據分析師應該要做的事:針對數據進行分析。這時,你需要針對在最初的 ask 階段提出的指標去進行數據分析,找出相關性、未來趨勢、歷史走向等和核心問題相關的指標。

這時候你可以透過公式、函市、不同筆資料的比較、樞紐分析等技巧來得出你需要的數據結果。並將其記錄下來,已留到後續步驟使用。

這部分我先不提太多方法,在這裡提供一些這階段可以問自己的問題:

  1. 這些數據背後有著什麼樣的故事?
  2. 這些分析結果可以如何幫助我解決問題?

Share|分享你的分析結果給利害關係人

在這個步驟,每個人都會有自己對數據的解讀,這部分取決於你想用什麼工具、什麼敘事邏輯來進行。這裡比較常見的工具有表格、資訊圖表和 dashboard(數據化圖表)等呈現方式,再搭配簡報去想利害關係人進行解果的匯報,最好能在最後附上你的建議和洞見。

這個步驟考驗的是統整、視覺化呈現和簡報表達上的能力,要如何將前四個步驟的過程和精華呈現給你的主管、客戶理解,是很重要的一環。這可以讓這些利害關係人更好的針對這些結果去下決策,也能夠因為你清楚的呈現而和你進行更深入的討論。

這裡也提供幾個在準備發表時可以問自己的問題:

  1. 我該如何規劃內容以讓聽眾可以更容易理解?更投入簡報中?
  2. 如果我是聽眾,什麼樣的敘述方式可以讓我更容易理解?

Act|針對分析結果採取行動

我們做數據分析的原因是要解決問題,因此,在得出分析的結果之後,接著就要針對這些趨勢、分析結果做出行動,去解決這個問題。

這時侯,數據分析師可以提出自己的建議和洞見,並將決策權交由專案負責人、主管或老闆來決定,而我們也可以在做出決定並採取行動後,去追蹤數據的變化,看看這個方式成效如何?如果行不通,那是否要再進一步做分析?

小結

以上就是在我們開始做數據分析時,Google 建議我們可以採取的六大步驟,讓我們更有架構的去完成不同階段的任務,產出嚴謹、具有邏輯性的分析結果。

圖片來源:課程教案

Unit 1:Foundation 課程心得

在這個 Google Data Analytics Professional Certificate 的課程中,一共有 8 個單元,分別針對不同階段所需要的軟硬實力來做授課。我在這篇文章分享的,是這個課程的第一單元:Foundations: Data, Data, Everywhere 的重點整理。

Foundations: Data, Data, Everywhere 大綱

這個章節主要就是針對最基礎的數據分析概念作說明,包含身為一個數據分析師,要知道數據能帶來什麼樣的商業價值;同時也針對後續幾個章節要上的內容做了摘要性的介紹:包含後續會教 Spreadsheet, SQL, R , 視覺化工具以及簡報呈現等內容,讓我們對這個課程有更多的認識。

個人進度安排(建議)

大約花了 5~6 天將第一階段的課程上完,雖說 Coursera 有幫忙規劃進度,但我覺得那實在是有些沒效率(排了 5 週),於是從一開始就是照著我個人的步調來進行。

我主要是以「學習時間」作為規劃的依據,每天大約都上 2 小時的課,當天進度到哪我其實不太在意,重點是我花了多少時間在學習上。

平均一天 1~2 小時

Unit 1 & 2 皆是基礎

我會上這麼快還有一個原因,因為這個課程的前兩個單元基本上都是在講很基礎的概念和操作,有些已經有不錯數據分析底子的人甚至會直接跳過,透過參加跳級測驗的方式直接進到第三章。

而我雖然有相關的經歷,但仍然想從頭將基礎觀念學好,並且先適應這個課程的編排方式,所以仍然從頭開始參與課程。我個人覺得還挺不錯的,畢竟是全英文授課,如果一開始就從自己沒學過、內容篇艱澀的地方開始學起的話,我可能會學得蠻痛苦的。

但因為我是從基礎開始,所以很輕易的就能理解教案、影片裡的內容,這對學習信心來說也是很不錯的一項提升。

我會建議,如果時間不趕的話,可以都從頭開始學習。真正有效率的學習者,其實可以像我一樣,花個一到兩週熟悉課程模式和英文教案,之後碰到較為困難的單元時再將步調放緩。

整體來說,上到目前我覺得還挺順暢的,我也即將在這週把第二單元的課程上完,預計下周差不多的時間也會寫一篇重點摘要和進度分享的文章,大家若有興趣,也可以繼續往下看喔!

收到更多巫師札記的內容

總算在今年做出新嘗試啦!目前還是試營運版本的電子報!每個月我至少會寄出一篇關於我當月文章的摘要與重點整理,你可以針對有興趣的主題來閱讀!除此之外,我也會不定期的寫信分享近期的學習點和心得,也希望透過電子報來和大家有更緊密的互動!

只要訂閱巫師札記電子報,我就會免費寄出一份關於「如何提升閱讀效率」的電子書,幫助大家更有系統的吸收與學習書上的知識。日後也會持續分享有意義的內容,請大家多多支持!