關於

進擊的資料科學:從如何獲取、掌控、探索、預測與溝通資料認識現代資料科學應用

「進擊的資料科學:從如何獲取、掌控、探索、預測與溝通資料認識現代資料科學應用」將教您從如何獲取、掌控、探索、預測與溝通資料認識現代資料科學應用,並且以 Python 和 R 語言作為程式語言主軸。

您將學習載入常見檔案格式、向資料庫查詢、擷取網頁內容、認識常見資料結構、資料框的操作技巧、關於文字、基礎視覺化、視覺化中的元件、其他視覺化類型、尋找迴歸模型的係數、迴歸模型的評估、尋找羅吉斯迴歸的係數、分類模型的評估、輕量級標記式語言、互動式圖表及 R 語言與互動式圖表及 Python。

在這裡您將找到用 Python 和 R 語言實踐前述這些迷人資料科學應用場景的實作範例,若您是已經具備 Python 或 R 語言基礎程式設計能力的讀者,這是為您們量身打造的一本進階應用書。

誰是本書的目標讀者

  1. 已經能嫻熟使用 Python 或 R 語言基本程式設計的使用者
  2. 想學習 Python 或 R 語言資料科學應用的使用者

能嫻熟使用 Python 或 R 語言的定義因人而異,以書中的應用範例來說,能掌握下列幾個主題就適合閱讀這本書:

  • 變數型別
  • 流程控制
  • 資料結構
  • 迴圈
  • 函數
  • 模組或套件

除了程式設計基礎以外,具備高中以上的數學及英文能力更好,但並不是必要的條件。

誰可能不是本書的目標讀者

這是一本資料科學進階應用書,它可能不適合這些人閱讀:

  1. 從未接觸過 Python 或 R 語言的初學者
  2. 已經嫻熟資料科學應用領域實作的高階使用者

程式區塊

本書內容所附的程式區塊具有兩種特性:自我包含(Self-contained)與自我解釋(Self-explanatory),這裡所謂的自我包含所指的是每一個程式區塊都可以獨立執行,不需要倚賴其他的程式區塊,這也是為什麼您可能會看到很多相同的程式一直重複出現,因為我希望讓讀者能夠在任何地方中斷閱讀,也能夠在任何地方繼續閱讀。

而這裡所謂的自我解釋所指的是每一個程式區塊都是在解釋(或示範)前後文的描述,因為我相信在程式語言的學習上,千言萬語的文字敘述,往往不如一行程式與它所執行的結果還能夠清楚表達一個觀念。

環境與版本

這本書使用 Anaconda 撰寫 Python,詳細版本資訊為:

conda info
1
##     active environment : None
##       user config file : /Users/kuoyaojen/.condarc
## populated config files : /Users/kuoyaojen/.condarc
##          conda version : 4.5.11
##    conda-build version : not installed
##         python version : 3.6.0.final.0
##       base environment : /Users/kuoyaojen/anaconda3  (writable)
##           channel URLs : https://repo.anaconda.com/pkgs/main/osx-64
##                          https://repo.anaconda.com/pkgs/main/noarch
##                          https://repo.anaconda.com/pkgs/free/osx-64
##                          https://repo.anaconda.com/pkgs/free/noarch
##                          https://repo.anaconda.com/pkgs/r/osx-64
##                          https://repo.anaconda.com/pkgs/r/noarch
##                          https://repo.anaconda.com/pkgs/pro/osx-64
##                          https://repo.anaconda.com/pkgs/pro/noarch
##          package cache : /Users/kuoyaojen/anaconda3/pkgs
##                          /Users/kuoyaojen/.conda/pkgs
##       envs directories : /Users/kuoyaojen/anaconda3/envs
##                          /Users/kuoyaojen/.conda/envs
##               platform : osx-64
##             user-agent : conda/4.5.11 requests/2.18.4 CPython/3.6.0 Darwin/18.0.0 OSX/10.14
##                UID:GID : 501:20
##             netrc file : /Users/kuoyaojen/.netrc
##           offline mode : False
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24

使用 R/RStudio 撰寫 R,詳細版本資訊為:

sessionInfo()
1
## R version 3.4.4 (2018-03-15)
## Platform: x86_64-apple-darwin15.6.0 (64-bit)
## Running under: macOS  10.14
## 
## Matrix products: default
## BLAS: /System/Library/Frameworks/Accelerate.framework/Versions/A/Frameworks/vecLib.framework/Versions/A/libBLAS.dylib
## LAPACK: /Library/Frameworks/R.framework/Versions/3.4/Resources/lib/libRlapack.dylib
## 
## locale:
## [1] en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8
## 
## attached base packages:
## [1] stats     graphics  grDevices utils     datasets  methods   base     
## 
## loaded via a namespace (and not attached):
## [1] compiler_3.4.4 tools_3.4.4    yaml_2.1.19
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

書籍資訊

這本書是用 Markdown 撰寫,並透過 pandoc 引擎輸出;網站由 VuePress 引擎驅動,可以免費使用,並根據 MIT 授權條款(The MIT License)進行授權。如果您想要實體書籍,可以從博客來、天瓏書局訂購,她預計由碁峰出版社於 2018 年 12 月出版。