資料科學的前世今生

The sexiest job in the 21st century is data scientist.

Harvard Business Review

從 2012 年哈佛商業評論拋出資料科學家(Data Scientist)是 21 世紀最性感的職業那刻起,資料科學(Data Science)從美國向世界捲起瘋狂的浪潮,一直延續到 2017 年 Deep Mind 團隊的 Alpha Go;資料科學、大數據、人工智慧、機器學習與深度學習等字彙從報章雜誌與社群媒體向我們大量放送。

從新創團隊、軟體公司、金融業、顧問業與製造業開始重新思索資料驅動(data-driven)的策略制定,進而期望招募更多同時具備軟體工程與統計學兩個領域專長的資料科學家,造成就業市場的需求量大增,進而驅動了資料科學家的年薪接近 14 萬美金,一躍而成矽谷最具吸引力的職缺。

橫空出世的職業

電視喜劇六人行(Friends)

資料科學家並不是一個橫空出世的職業,90 年代風靡全美的電視喜劇六人行(Friends),其中一個主角 Chandler Bing(由 Matthew Perry 飾演),在劇中有一個設定非常有趣,那就是他的好朋友們永遠都記不住他從事什麼樣的工作。在某一集,他告訴老婆 Monica Geller(由 Courtney Cox 飾演),為了家庭收入著想他要回去做他原本的工作,這時 Monica 跟他說:

I want you to do something you like, not statistical analysis and data reconfiguration.

Monica Geller

如果 Chandler 晚 20 年從事他原本的工作,那麼職稱多半就是資料科學家,頂著這個最性感職業的光環,也許這位有點膚淺又憤世嫉俗的傢伙就不會這麼討厭他的工作了吧?

資料科學家的日常

那麼究竟資料科學家的工作職責是什麼?資料科學家面對的專案可能會包含下列這些工作內容:使用者的需求發想、與使用者討論需求規格,取得測試資料、載入環境、整理資料、使用圖形探索資料、利用模型預測、部署專案到正式環境最後是將專案的內容以淺顯易懂的方式與組織內部其他的團隊溝通及分享。暸解資料科學家的職責後,接下來我們會分不同章節介紹資料科學家如何利用 Python 與 R 這兩個資料科學領域最火紅的程式語言完成這些工作內容。

首先是如何獲取資料系列,會將常見檔案格式、資料庫管理系統或網頁中的資料,透過各式模組、套件載入 Python 與 R 語言,完成資料科學的第一個里程碑;在順利取得資料之後,在如何掌控資料系列,透過對資料結構的認知將原型資料(raw data)清理整併為緊實乾淨的形式(tidy data),這樣一致且通用的資料樣式能夠讓資料科學團隊集中精力處理資料探索和資料預測相關的應用;一旦有了緊實整潔的資料,在如何探索資料系列,將透過利用視覺化模組和套件進行探索性資料分析,適當的探索性資料分析可以讓資料科學團隊挖掘潛藏的特徵,進而延展專案的範疇與洞見;在如何預測資料系列,簡介機器學習這個資料科學中最吸引人、加值程度最大的過程,在定義精確的問題下,演算法可以訓練已知資料來作為未知資料預測的依據;資料科學的最後一步是溝通,這是專案的關鍵部分,如果能夠有效地向合作部門(像是產品、行銷與管理團隊等)精準地傳達分析結果,將能顯著為資料科學專案的成果加值,提升資料科學團隊在組織內的價值。

小結

在這個章節中我們透過描述資料科學家的工作內容,預告在本書後面內容會如何將資料科學家的技能與知識跟讀者一起實作。

延伸閱讀