“Talk is cheap. Show me the code.”
― Linus Torvalds

老子第41章
上德若谷
大白若辱
大方無隅
大器晚成
大音希聲
大象無形
道隱無名

拳打千遍, 身法自然

本系列文章之連結

  • Python程式與數據資料分析1 link
  • Python程式與數據資料分析1.1 Kaggle站免費教學的路徑圖 link
  • Python 與數據資料分析2-資料視覺化-Matplotlib.pyplot 入門 link
  • Python 與數據資料分析3.1-資料視覺化-基本圖表類型 link
  • Python 與數據資料分析3.2-資料視覺化-從 seabon 的函數分類來看 link
  • Python與資料分析3.3-資料視覺化-seaborn 補充 link
  • Python與資料分析4-資料視覺化-鳶尾花 link
  • Python與資料分析 5-入門級競賽分析-鐵達尼號 link

文章目录

  • 本系列文章之連結
  • 110_1_高中週期性課程: Python程式入門與資料分析初探
  • 本系列目錄
  • 資料分析的學習過程
  • 資料分析的流程圖
    • 人工智能 機器學習 類神經網路 深度學習之包含圖
  • 與資料分析相關之 Python, NumPy, Pandas, Matplotlib, seaborn 入門
    • Python, NumPy, Pandas, Matplotlib, seaborn 的安裝或線上使用
    • Python 入門
    • NumPy 入門
    • Matplotlib 入門
    • Pandas 入門
    • seaborn 入門
  • Reference

110_1_高中週期性課程: Python程式入門與資料分析初探

預定之進度:

  • Python與資料分析1-與資料分析相關之Python, NumPy, Pandas入門

  • Python 與數據資料分析2-資料視覺化-Matplotlib.pyplot 入門 link

  • Python 與數據資料分析3-資料視覺化-基本圖表類型 link

    • Sec 2.5 數據可視化的基本圖表
      2.5.1 原始數據繪圖
      2.5.2 簡單統計值描繪
      2.5.3 多視圖協調關聯
      ch 3 時間數據可視化
      ch 4 比例數據可視化
      ch 5 關係數據可視化
      ch 6 文本數據可視化
      ch 7 複雜數據可視化
      ch 8 交互式數據可視化

Ref: 姜楓, 許桂秋, 大數據可視化技術, Sec 2.5, 人民郵電, 2019.

3.1 數據的直觀印象
3.2 如何獲得單變量特徵的直觀印象
3.3 如何獲得多變量聯合分布的直觀印象
3.4 如何獲得變量間相關性的直觀印象
Ref 薛薇, R 語言數據挖掘, 電子工業.

Ref: Data Visualization 資料視覺化教學, Kaggle 的網頁上的教學, https://www.kaggle.com/learn/data-visualization link

  • Python與資料分析4-例子-資料視覺化-鳶尾花, 鐵達尼號
  • Python與資料分析5-監督學習-回歸分析
  • Python與資料分析6-監督學習-決策樹
  • Python與資料分析7-非監督學習-K-means

本系列目錄

  • Python與資料分析1-與資料分析相關之Python, NumPy, Pandas入門

  • Python 與數據資料分析2-資料視覺化-Matplotlib.pyplot 入門 link

  • Python 與數據資料分析3-資料視覺化-基本圖表類型 link

  • Python與資料分析4-例子-資料視覺化-鳶尾花與鐵達尼號

  • Python與資料分析5-監督學習-回歸分析

  • Python與資料分析6-監督學習-決策樹

  • Python與資料分析7-非監督學習-K-means

資料分析的學習過程

在剛學資料分析時, 會被眼花撩亂的圖表及各種花俏的呈現方式弄得見樹不見林, 抓不到適當的起始之入口及學習路徑, 且網路上更會參雜進各種機器學習, 人工智能, 大數據等相關的學習路徑, 讓人莫衷一是, 更增焦慮感.

其實機器學習, 人工智能, 大數據跟資料分析有關, 但是都不是資料分析, 資料分析只是很基本的, 例如從全班的微積分成績, 分析同學學習微積分的狀況, 從大學入學名單及新生個人資料分析本屆招生狀況, 進而推估下一屆新生之潛在落點, 當資料量很大, 大到類似亞馬遜書店這樣的客戶資料, 就叫做大數據, 如果想要讓分析流程形成自動化, 就進入
機器學習與人工智能的領域.

一開始不用好高騖遠,

  • 可以先把基本的各種統計圖表及視覺化的方式作一全面的了解,
  • 再利用 Kaggle 站上很多優秀的例子及講義, 也是照著走, 邊模仿邊學, 全盤照著走一遍.
    例如, Kaggle 的網頁上的教學: Python教學 link
    有鐵達尼號資料的分析的教學:
    Titanic Tutorial, https://www.kaggle.com/alexisbcook/titanic-tutorial link
    例如: 用鳶尾花的例子展示如何以Python進行資料視覺化的初步分析, Kaggle 此處的常被引用的教學: Data Visualization 資料視覺化教學, https://www.kaggle.com/learn/data-visualization link

後續的學習, 我們參考網路上報導許多位17歲之前就就自學, 到17歲成為 Kaggle Grand Master 的報導, 仔細梳理他們從對資料分析一片空白到成為頂尖高手的過程, 大致可以總結為

  • 再利用 Kaggle 站上的入門級的競賽例子, 逐步加深加廣, 所有參賽者的程式碼都是可以複製學習, 還有很多熱心網友的入門到進階的教學講義, 等於是一個匯聚很多高手的免費資料分析補習班:
    例如這篇文章
    Kaggle入门,看这一篇就够了 link
    介紹的三個入門級競賽例子:
    里面手把手的教了大家入門级的三个經典練習項目,供大家学習。
  1. Titanic(泰坦尼克之灾)
    中文教程: 机器学习系列(3)_逻辑回归应用之Kaggle泰坦尼克之灾 https://blog.csdn.net/han_xiaoyang/article/details/49797143 link
    英文教程:An Interactive Data Science Tutorial-Based on the Titanic competition on Kaggle
    https://www.kaggle.com/helgejo/an-interactive-data-science-tutorial link

  2. House Prices: Advanced Regression Techniques(房价预测)
    中文教程:每日一课 Kaggle 练习讲解 https://zhuanlan.zhihu.com/p/74474886 link
    英文教程:How to get to TOP 25% with Simple Model using sklearn link

  3. Digital Recognition(数字识别)
    中文教程:大数据竞赛平台—Kaggle 入门 https://blog.csdn.net/u012162613/article/details/41929171 link
    英文教程:Interactive Intro to Dimensionality Reduction link

  • 再參加 Kaggle 站上的跟自己專業或能力較接近的競賽, 與各家交流學習(通常他們都會找到幾位網路上的夥伴一起參加競賽, 互相砥礪)

Ref:
高中生自學成為 Kaggle Master
17岁!Kaggle史上最年轻Grandmaster诞生:高中自学3年登顶, https://www.sohu.com/a/251612669_473283 link
This high school kid taught himself to be an AI wizard, https://mashable.com/article/16-year-old-ai-genius link
這個高中生僅靠在線學習成為Kaggle AI大牛,引起Google注意, 原文網址:https://kknews.cc/tech/bqme52m.html link

00后学霸获5金9银3铜,华人高中生在Kaggle取得大师称号!他是怎么做到的?| 独家专访, 作者:DeepTech深科技, 链接:https://xueqiu.com/5983518614/132545068 link

00后再夺冠!中国高中生10个月拿下Kaggle Master, https://posts.careerengine.us/p/5d2d2bd79aad47269c232d25 link

資料分析的流程圖

  • 我們借用網路上較簡單的一幅圖:

Ref: 張裕宇, 大數據分析架構及流程, link

  • 或是

Ref: 軟妹, 資料分析師必須掌握的6種方法論和8種思路, https://www.finereport.com/tw/data-analysis/6-ways.html link

  • CRISP-DM 的流程
    共有 6 步:
  1. 了解業務的內容及目標 Business understanding
  2. 了解資料集 Data understanding
  3. 資料前置處理(資料清洗, 轉換等) Data preparation
  4. 建模 Modeling
  5. 評估模型 Evaluation
  6. 佈署 Deployment


Ref: What is the CRISP-DM methodology? https://www.sv-europe.com/crisp-dm-methodology/ link

  • 數據資料的準備與處理, 可以再細分為清理, 轉換等:

Ref: 一張圖解讀清楚:最完整的資料分析流程, https://medium.com/%E6%95%B8%E6%93%9A%E5%88%86%E6%9E%90%E9%82%A3%E4%BA%9B%E4%BA%8B/%E4%B8%80%E5%BC%B5%E5%9C%96%E8%A7%A3%E8%AE%80%E6%B8%85%E6%A5%9A-%E6%9C%80%E5%AE%8C%E6%95%B4%E7%9A%84%E8%B3%87%E6%96%99%E5%88%86%E6%9E%90%E6%B5%81%E7%A8%8B-b66befbe59c8 link

  • 較詳細的圖:

    Ref: 資料建模講解和案例分析, https://www.itread01.com/content/1547057717.html link

人工智能 機器學習 類神經網路 深度學習之包含圖

我們在網路上常看到 資料分析, 人工智能, 機器學習, 類神經網路, 深度學習, 演化式計算, 智能計算, 商業智能, 柔性計算, 演算法等等,
這些主題, 會覺得類似, 但又不同, 底下我們先看一下 人工智能 機器學習 類神經網路 深度學習 的涵攝關係:

Ref: C站最全Python机器学习、深度学习库总结(内含大量示例,建议收藏), https://blog.csdn.net/LOVEmy134611/article/details/118761423 link.

資料分析 與 人工智能的關係, 可以視其交集是 機器學習, 而資料分析還是有很大一部分, 屬於前置處理階段, 含有較多的傳統統計分析及資料視覺化的部分, 是依賴工作人員的操作跟判斷, 無法完全自動化, 進入後段的處理, 才是, 較多機器學習的部分, 可視為人工智能的一部分, 機器學習是強調可以透過建立穩固的模型與適當演算法, 讓程序自動從資料中取的有價值的資訊, 故此部分可視為人工智能的一部分.

與資料分析相關之 Python, NumPy, Pandas, Matplotlib, seaborn 入門

Python安裝之後並沒有 NumPy, Pandas, 他們是額外加裝在 Python 上的程式庫,
Python, NumPy, Pandas 夠成資料分析所需的基本套件
(另外一個資料分析的有名程式語言是使用 R 語言),
所以 入門資料分析, 需先稍微了解一下 Python, NumPy, Pandas 等的語法指令,
但是可以把範圍最小化在只學資料分析要用到的最基本語法指令,
這也是本課程要介紹的, 只介紹資料分析要用到的最基本語法指令,
同學在入門後, 後續延伸的部分, 同學可以自己再自學擴展.

Python, NumPy, Pandas, Matplotlib, seaborn 的安裝或線上使用

  • 安裝Python
    請參考本人的另一篇
    https://blog.csdn.net/m0_47985483/article/details/109522800
    安裝Python 那節
    link

  • 安裝 NumPy, SciPy, Pandas, Matplotlib 等
    Python安裝之後並沒有 NumPy, SciPy, Pandas, Matplotlib 等, 他們是額外加裝在 Python 上的程式庫,
    在 Windows 下, 打開 “命令提示字元” 的視窗, 輸入

>> pip install numpy
>> pip install scipy
>> pip install pandas
>> pip install seaborn
等等

  • 或是使用 Anaconda, 安裝好之後, 最重要的程式庫都已裝好,
    Anaconda + Jupyter Notebook 會自動安裝好所需的科學計算或大數據的程式庫 (or Anaconda + Spyder or Anaconda + PyCharm 等),

  • 線上使用可以用 Google Colab, 也會自動安裝好所需的科學計算或大數據的程式庫.

Python 入門

Python 的基本指令與最基本的用法, 請參考本人另一篇:
從turtle海龜動畫 學習 Python - 高中彈性課程系列 3 烏龜繪圖 所需之Python基礎, https://blog.csdn.net/m0_47985483/article/details/109522858?spm=1001.2014.3001.5501 link

NumPy 入門

請參考本人的文章:
用 Python+Numpy+scipy 執行 Matlab 的矩陣計算 2 產生 numpy 的 數組, 矩陣點乘 等,
https://blog.csdn.net/m0_47985483/article/details/111745673, link

Matplotlib 入門

請參考作者下一篇: Python與資料分析2-資料視覺化-基本圖表類型-Matplotlib, seaborn, link

Pandas 入門

Pandas 的資料型態主要有 1D 的 Series, 及2D 的 DataFrame, 在處理資料庫相關的資料, 使用Pandas 的資料型態, 會比直接操作 NumPy 的 array 或 matrix 更方便.
Pandas 入門 的說明, 可以看 Kaggle 上的網頁講義, 或搜尋網路上的網誌也是滿山滿谷, https://www.kaggle.com/learn/pandas link.

seaborn 入門

用 Matplotlib 會太精細繁瑣, 大多數時候統計繪圖可以使用 seaborn, 減輕初學的困難.

“Seaborn其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn就能做出很具有吸引力的图,而使用matplotlib能制作具有更多特色的图。应该把Seaborn视为matplotlib的补充,而不是替代物。
seaborns是针对统计绘图的,方便啊。”

seaborn 入門 的說明, 可以看 Kaggle 上的網頁講義, 或搜尋網路上的網誌也是滿山滿谷,
https://www.kaggle.com/learn/data-visualization link

Ref: seaborn 的詳細介紹可以參考此篇: herr_kun, python-seaborn画图-(matploytlib)更高级的数据绘图工具, https://blog.csdn.net/herr_kun/article/details/87697639?utm_term=python%E7%94%BB%E5%9B%BE%E5%BA%93seaborn&utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2allsobaiduweb~default-6-87697639&spm=3001.4430 link

Reference

高中生自學成為 Kaggle Master

  • 17岁!Kaggle史上最年轻Grandmaster诞生:高中自学3年登顶, https://www.sohu.com/a/251612669_473283 link,
    This high school kid taught himself to be an AI wizard, https://mashable.com/article/16-year-old-ai-genius link,
    這個高中生僅靠在線學習成為Kaggle AI大牛,引起Google注意, 原文網址:https://kknews.cc/tech/bqme52m.html link.

  • 00后学霸获5金9银3铜,华人高中生在Kaggle取得大师称号!他是怎么做到的?| 独家专访, 作者:DeepTech深科技, 链接:https://xueqiu.com/5983518614/132545068 link

  • 00后再夺冠!中国高中生10个月拿下Kaggle Master, https://posts.careerengine.us/p/5d2d2bd79aad47269c232d25 link

流程圖:

  • 流程: 張裕宇, 大數據分析架構及流程, https://www.aikernels.com/%E5%A4%A7%E6%95%B8%E6%93%9A%E5%88%86%E6%9E%90%E6%9E%B6%E6%A7%8B%E5%8F%8A%E6%B5%81%E7%A8%8B/ link

  • 軟妹, 資料分析師必須掌握的6種方法論和8種思路, https://www.finereport.com/tw/data-analysis/6-ways.html link

  • 一張圖解讀清楚:最完整的資料分析流程, https://medium.com/%E6%95%B8%E6%93%9A%E5%88%86%E6%9E%90%E9%82%A3%E4%BA%9B%E4%BA%8B/%E4%B8%80%E5%BC%B5%E5%9C%96%E8%A7%A3%E8%AE%80%E6%B8%85%E6%A5%9A-%E6%9C%80%E5%AE%8C%E6%95%B4%E7%9A%84%E8%B3%87%E6%96%99%E5%88%86%E6%9E%90%E6%B5%81%E7%A8%8B-b66befbe59c8 link

  • 資料建模講解和案例分析, https://www.itread01.com/content/1547057717.html link

  • C站最全Python机器学习、深度学习库总结(内含大量示例,建议收藏)
    https://blog.csdn.net/LOVEmy134611/article/details/118761423 link.

  • What is the CRISP-DM methodology? https://www.sv-europe.com/crisp-dm-methodology/ link

安裝Python等:

  • 安裝Python: 請參考本人的另一篇 https://blog.csdn.net/m0_47985483/article/details/109522800
    安裝Python 那節 link

網頁上的教學:

  • Python 入門: Python 的基本指令與最基本的用法, 請參考本人另一篇:
    從turtle海龜動畫 學習 Python - 高中彈性課程系列 3 烏龜繪圖 所需之Python基礎, https://blog.csdn.net/m0_47985483/article/details/109522858?spm=1001.2014.3001.5501 link

  • NumPy 入門: 用 Python+Numpy+scipy 執行 Matlab 的矩陣計算 2 產生 numpy 的 數組, 矩陣點乘 等,
    https://blog.csdn.net/m0_47985483/article/details/111745673, link

  • Matplotlib 入門: 請參考作者下一篇: Python與資料分析2-資料視覺化-基本圖表類型-Matplotlib, seaborn, link

  • Kaggle 的網頁上的教學: Python教學, https://www.kaggle.com/learn/python link
    有鐵達尼號資料的分析的教學:
    Titanic Tutorial, https://www.kaggle.com/alexisbcook/titanic-tutorial link

  • Kaggle 的網頁上的教學: Pandas教學, https://www.kaggle.com/learn/pandas link

  • Kaggle 的網頁上的教學: 機器學習初階 Intro to Machine Learning , https://www.kaggle.com/learn/intro-to-machine-learning link

  • Kaggle 的網頁上的教學: 機器學習中階 Intermediate Machine Learning, https://www.kaggle.com/learn/intermediate-machine-learning link

  • 姜楓, 許桂秋, 大數據可視化技術, Sec 2.5, 人民郵電, 2019.

  • 薛薇, R 語言數據挖掘, 電子工業.

  • 3.1 數據的直觀印象
    3.2 如何獲得單變量特徵的直觀印象
    3.3 如何獲得多變量聯合分布的直觀印象
    3.4 如何獲得變量間相關性的直觀印象

  • python数据分析_3步搞懂Python数据分析关键点, https://blog.csdn.net/weixin_39646725/article/details/109752069?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_title-3&spm=1001.2101.3001.4242 link

seaborn

  • seaborn 的詳細介紹可以參考此篇: herr_kun, python-seaborn画图-(matploytlib)更高级的数据绘图工具, https://blog.csdn.net/herr_kun/article/details/87697639?utm_term=python%E7%94%BB%E5%9B%BE%E5%BA%93seaborn&utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2allsobaiduweb~default-6-87697639&spm=3001.4430 link

  • Kaggle 此處的教學就是使用 seaborn: Data Visualization 資料視覺化教學, https://www.kaggle.com/learn/data-visualization link

三個入門級競賽例子:

  • Kaggle入门,看这一篇就够了, https://zhuanlan.zhihu.com/p/25686876 link
  1. Titanic(泰坦尼克之灾)
    中文教程: 机器学习系列(3)_逻辑回归应用之Kaggle泰坦尼克之灾 https://blog.csdn.net/han_xiaoyang/article/details/49797143 link
    英文教程:An Interactive Data Science Tutorial-Based on the Titanic competition on Kaggle
    https://www.kaggle.com/helgejo/an-interactive-data-science-tutorial link

  2. House Prices: Advanced Regression Techniques(房价预测)
    中文教程:每日一课 Kaggle 练习讲解 https://zhuanlan.zhihu.com/p/74474886 link
    英文教程:How to get to TOP 25% with Simple Model using sklearn link

  3. Digital Recognition(数字识别)
    中文教程:大数据竞赛平台—Kaggle 入门 https://blog.csdn.net/u012162613/article/details/41929171 link
    英文教程:Interactive Intro to Dimensionality Reduction link

Python程式與數據資料分析1相关推荐

  1. Python 與數據資料分析2-Matplotlib.pyplot入門

    "Talk is cheap. Show me the code." ― Linus Torvalds 老子第41章 上德若谷 大白若辱 大方無隅 大器晚成 大音希聲 大象無形 道 ...

  2. Python 與數據資料分析3.1-資料視覺化-基本圖表類型

    "Talk is cheap. Show me the code." ― Linus Torvalds 老子第41章 上德若谷 大白若辱 大方無隅 大器晚成 大音希聲 大象無形 道 ...

  3. 分區策略與數據傾斜處理策略的區別

    策略 目的 數據傾斜處理策略 taskmanager減緩/避免數據傾斜, 發揮集羣並行性能. 分區策略策略 sink的partition中的數據存放均衡 所以,兩者的主要區別是在於數據所處的階段不同, ...

  4. 5月8号粉笔資料分析2

    一.是几倍和增长率 二.成数和番数  三.增幅.降幅.变化幅度 四.百分数与百分点(知道现期求基期,高减低加)

  5. 實戰案例 - 微信平台與自有產品資料對接 (2)

    前面瞭解過程式的背景需求和基本架構之後,接著就來看整個開發工作是靠哪些原始碼兜起來的.因為兩個 WinForm 的原始碼骨架都差不多,所以這邊就拿 SybaseUtility 專案當範例. Servi ...

  6. SQL Server 的分散式資料複寫技術

    作者:楊先民 本頁內容 前言 資料庫複寫(Replication)的介紹與使用時機 如何建置資料庫複寫 複寫代理程式 (Replication Agent) 的功能 複寫的種類與使用的時機 設計一個安 ...

  7. 新技術讓大數據“看得見”

    隨著全球社會活動日益呈現數字化,大數據的增長速度正在顯著加快.從電子郵件和協作,到社交媒體網站.圖片站點和視頻網站以及採購交易記錄等大量來源,每天生成的數據預計達到250萬億字節.這標志著數據和新的計 ...

  8. struts數據庫訪問

    來源:http://big5.webasp.net/article/18/17813.htm Struts HOW-TO 系列 ++怎樣訪問數據庫++ [訪問一個數據庫] 在一個其於Struts的應用 ...

  9. FMDB與SQLite 數據庫應用示範:打做一隻簡單的電影資料庫 App

    原文:http://www.appcoda.com/fmdb-sqlite-database/ 作者:GABRIEL THEODOROPOULOS 譯者:kmyhy 通常在 App 中使用數據庫并處理 ...

最新文章

  1. ItemsControl 解析
  2. javascript 复习内容
  3. 四驱麦克纳姆轮运行原理
  4. 流控制传输协议 SCTP
  5. java 遍历写什么_Java文件遍历及文件读写
  6. 专题解读 |「知识图谱」领域近期值得读的 6 篇顶会论文
  7. 太骚了!Python模型完美切换SAS,还能这么玩。。
  8. Codeforces Round #734 (Div. 3) 题解
  9. 看电影也花屏,谁是幕后元凶
  10. post多个参数_关于HTTP GET和POST的区别
  11. pytorch查缺补漏
  12. javascript实现简体与繁体的转换(可下载)
  13. 软考网络工程师备考经验分享
  14. JavaWeb框架学习文章索引
  15. matlab绘制二元一次函数图像_如何用matlab数据拟合函数?用matlab求解多元线性方程...
  16. 正则表达式 java 截取指定字符中间的字符串
  17. lede固件_开源路由器固件OPENWRT/LEDE出现远程代码执行漏洞请尽快升级
  18. 续:~英语 1038个词根 217个后缀!
  19. openwrt-wps功能的实现(一)
  20. (基础知识)单反镜头的参数辨别

热门文章

  1. 劳易测光通迅DDLS 508 120.3的微调
  2. Go【No-14】错误与异常
  3. n1_日语能力考N1-N5代表怎样的语言水平?
  4. 独立站网红营销怎么做
  5. matebook13linux双系统,华为MateBook 13笔记本装win10系统及BIOS设置的方法
  6. pjsip海思平台编译
  7. Vue入门基础(一)
  8. php2物镜和ph物镜,奥林巴斯IX53研究级倒置生物荧光显微镜_景通仪器
  9. Gibbs 采样基本原理和仿真
  10. Swift - 一个纯代码实现的登录界面(带猫头鹰动画效果)