【Google Data Analytics Certificate】筆記:認識 Kaggle & BigQuery

來到 Google Data Analytics 課程筆記 的第三篇,從第三單元開始,這堂課開始進到比較實務上的能力教學。當然,也還是有許多觀念上的培養,像是道德上、隱私權等基本素養,在第三單元的末端也有不少篇幅。

【推薦閱讀】【Google Data Analytics Certificate】筆記:精準提問的技巧

不過,在今天的這篇文章中,我想分享的是比較新的東西(對我來說拉),主要會以 KaggleBigQuery 這兩個我在這單元學到的平台操作來跟大家分享,再稍微帶過一點觀念,讓大家更深入了解數據分析相當常用這兩個工具。

Kaggle:最大的資料科學社群

其實在上這門課之前,我就有聽過 Kaggle 的大名,可惜一直沒有機會接觸,在這次教案的安排下,我開始了 Kaggle 的探索之旅,相當新鮮!

【補充】註冊流程

Kaggle 的註冊其實相當簡單,只需用 Google 帳戶登入,並且針對信箱或手機號碼進行驗證即可。

Kaggle 簡介

如標題所述,Kaggle 是全世界最大的資料科學社群,你可以在上面看到很多大神、資料分析師做的分析或 side project,而在這個平台上也經常會舉辦配有高額獎金的資料分析比賽,因此會吸引到很多厲害的資料科學家前來參加。這也讓我們可以旁觀這些大神的思路和解題脈絡,是個非常好的學習地點。

當然,這也要建立在你有些許數據分析、資料科學的基礎,去看這些文件才會有所啟發。如果像我一樣還只是個初學者的話,不妨先看一些教學文件,把觀念建立好之後再去觀摩也不遲。

公開的資料庫

Kaggle 除了可以觀摩其他人的文件之外,還有一個對數據分析師相當友善的 Datasets 區塊,讓我們可以直接拿這些資料來進行分析,對於缺乏練習數據的新手來說,這可是相當寶貴的資源。

教案在這裡讓我們在搜尋欄位 key 入 Animal Crossing,並選取 Animal Crossing New Horizons Catalog 的文件,點選之後你會看到下方的頁面。

在 Discussion 這個區塊你會看到,大部分會來看這個文件的,都是選修這門課程的學生,莫名有種親切感 XD。

進來之後你可以稍微瀏覽一下這份文件,裏頭包含了這個資料庫介紹、用了哪些檔案以及一些圖表的預覽。在 Metadata 的部分,也可以看到更詳細的說明。

Data Explorer

在頁面的右手邊(介面沒改的話)有一個 Data Explorer 的欄位,下方有條列出一長串的資料庫。點選每個資料庫都會跑出相對應的數據,而如果我們想擷取特定的幾個檔案來分析的話,選取之後再按 Download 就可以了,是個相當好用的功能(拿到整理過又可使用的資料)

你如果想要找其他的資料也可以在上面多加瀏覽,都有相當充足的資料可以使用!缺乏數據的時候來上面逛一逛,會有不錯的收穫喔~下方的影片有針對 Kaggle 入門做詳細的介紹,蠻推薦大家去看一下!

BigQuery:地表最強資料分析工具

接著要提的是 BigQuery 這個資料分析工具,它可以用來查詢、篩選數據量龐大的資料庫,並且對其進行一些較複雜的操作。大家經常聽到的 SQL 語法,也是在使用 BigQuery 時不可或缺的工具。

註冊 BigQuery

在註冊與使用 BigQuery 上,我個人覺得有些許複雜,首先,我們進到 Google Cloud 的 sandbox 介面,在介面中點選「Go to BigQuery」,之後跟隨指示,用你的 Google 帳號進行驗證即可。

進來之後,我們要先建立一個新專案,應該在你剛進到介面的時候,會出現一個「my first project」的抬頭,就像下方這張圖片。

再來,如果想開始操作,我們先點選 my-first-project 旁邊的三個點,選取「建立資料集」

接著把這個資料集命名,並點擊建立,建立完之後你會在旁邊的欄位上,看到你新命名的這個資料庫。

接著,我們再點擊新資料庫旁邊的三個小點,選取建立資料表,進到頁面之後,以上傳電腦中的 csv 檔案為例,我將資料來源選擇為「上傳」,並且在選取檔案的欄位選擇我預先準備好的 csv 檔,檔案格式選取 csv,再將此資料表命名(我取名為 mobile-analysis),最後勾選下方結構定義的「自動偵測」,並點擊建立資料表就完成了。

使用 SQL 進行分析

前面有提到,在 BigQuery 上我們會使用資料庫查詢語言 SQL,如果不知道甚麼是 SQL 的,可以去看我先前寫的這篇文章。總之,利用簡單的 SELECT, FROM, WHERE,我們便可以調出想要的資料,並加以分析。

例如,我簡單在編輯區撰寫了 SELECT * FROM mobile-analysis 的語法,下方就會跑出 mobile-analysis 這個資料庫裡面的所有資料,SQL 可以說是使用資料庫必備的技能,推薦大家可以找個課程、書籍或簡單的教學文章來學習,對於資料分析相當有幫助。

BigQuery 的優勢

在這部分,由於我本身也是新手,因此我摘錄了一篇我覺得相當不錯的文章,裡面對於 BigQuery 優點地描述:

1️⃣ 免費而且不需要花費太多時間安裝,可以馬上就進入最重要的學習環節:SQL 查詢

  • 只要有 Google 帳號就可以使用,每個人都有免費的額度可以使用,登入只需要 3 分鐘就搞定
  • 不需要下載、安裝任何軟體,在網頁版就可以操作

2️⃣ Google 在以 SQL 處理資料時的速度好快、錯誤提示 (Error) 也很明顯,很適合新手

  • 錯誤提示在執行 (Run) 資料之前就會顯示,不會浪費計算空間去跑一段錯誤的程式碼

3️⃣ 可以以 Excel CSV 檔案、Google Sheet 檔案,匯入資料作為查詢表(Table)

  • 在學習 SQL 的時候,我們常常只能用他人提供的資料庫來學習,因為在其他工具中 (不論是線上工具、或是 MySQL),要匯入自己的查詢表 (Table) 真的太麻煩了!!耗時費力!對於新手來說也比較困難 (匯入 Table 在公司是專業的資料工程師在做的,一般人初學時期,其實不需要學到)
  • 除此之外,Google BigQuery 可以直接應用自己手上的資料 (例如自架部落格的網站資料、自己的財務資料、自己開的電商店舖的訂單資料都可以),只要將資料儲存為 CSV、或是將資料貼到 Google Sheet 上,匯入成為查詢表 (Table),就可以用 SQL 做資料處理或是計算了
    • 可以引用 Google API 串的公開資料、也可以上傳 Excel、或是直接連結 Google Drive 裡 Google Sheet 的資料

4️⃣ Google BigQuery 的介面清楚、好看、簡單!

【資料來源】Google BigQuery 教學:3 分鐘完成資料匯入跟 SQL 查詢

總結:數據分析之路才剛開始

隨著我學到更多新的領域知識,我發現我對於數據分析、資料科學的了解還遠遠不足。即使註冊了這兩個平台,也試著在上面進行簡單的操作,但我知道,距離獨力完成一次分析,或撰寫相關的文件,這些都是現階段的我還做不到的事。

目前我還是會先將 Google 這門課給修完,之後再針對資料視覺化、資料庫使用等更加深入的技能去做學習,一步一步來吧。

第三單元學習計畫分享

其實和前兩個單元一樣,我在第三單元的規劃一樣是每天大約兩小時。不過,其實嚴格來說,大概是 1.5 小,雖然時間變少了一些,但在進度上並沒有落下太多,花了大約一週的時間就完成了這門課。

這個單元的重點在 Week2~Week3 的部分,其他三週(教案安排的進度)我認為都是較簡單的概念。我會建議把重心放在 Kaggle 和 BigQuery 的操作上,可以參考中文的教材,像是 IThome、部落客和 Medium 的文章,可以找到很多更詳細的教學與使用方式,我也是花了不少時間在這兩個工具的學習上。

學習心得分享

到了第三週,開始有我相對陌生的內容,不管是 Kaggle 還是 BigQuery,我都花了不少時間才能理解使用方式,過程中當然會覺得有些挫折,尤其是看到我離那些大神還有如此大的差距之後,真的會有種我還要繼續下去嗎地感受。

不過,萬丈高樓平地起,我也不是甚麼千年難得一見的天才,剛開始學自然會和已經在此道浸淫許久的前輩們有落差,這是很正常的事情。但只要我持之以恆的學習,把重要的觀念和技能一步步學起,久而久之,我也會摸索出我自己的一套公式,在數據分析這條路上走得更遠。

在這裡想勉勵自己,還有其他和我一樣正努力往數據分析學習的你們,這條路很長、很無聊而且不好走,但堅持下去,終將獲得豐厚的成果,一起努力學習吧!

收到更多巫師札記的內容

總算在今年做出新嘗試啦!目前還是試營運版本的電子報!每個月我至少會寄出一篇關於我當月文章的摘要與重點整理,你可以針對有興趣的主題來閱讀!除此之外,我也會不定期的寫信分享近期的學習點和心得,也希望透過電子報來和大家有更緊密的互動!

只要訂閱巫師札記電子報,我就會免費寄出一份關於「如何提升閱讀效率」的電子書,幫助大家更有系統的吸收與學習書上的知識。日後也會持續分享有意義的內容,請大家多多支持!