了解大數(shù)據(jù)
Spark概述
Python概述
PySpark概述
使用彈性分布式數(shù)據(jù)集框架分發(fā)數(shù)據(jù)
使用Spark API運(yùn)算符分布計(jì)算
設(shè)置Python和Spark
設(shè)置PySpark
針對(duì)Spark使用Amazon Web Services(AWS)EC2實(shí)例
設(shè)置數(shù)據(jù)塊
設(shè)置AWS EMR集群
學(xué)習(xí)Python編程的基礎(chǔ)知識(shí)
Python入門
使用Jupyter Notebook
使用變量和簡單的數(shù)據(jù)類型
使用列表
使用 if 語句
使用用戶輸入
處理while循環(huán)
實(shí)現(xiàn)函數(shù)
使用類
處理文件和異常
處理項(xiàng)目、數(shù)據(jù)、API
學(xué)習(xí)Spark DataFrame的基礎(chǔ)知識(shí)
Spark DataFrames入門
用Spark實(shí)現(xiàn)基本操作
使用Groupby和聚合操作
使用時(shí)間戳和日期
進(jìn)行Spark DataFrame項(xiàng)目練習(xí)
了解用MLlib進(jìn)行機(jī)器學(xué)習(xí)
使用MLlib、Spark和Python進(jìn)行機(jī)器學(xué)習(xí)
了解回歸
學(xué)習(xí)線性回歸理論
實(shí)現(xiàn)回歸評(píng)估代碼
進(jìn)行線性回歸示例練習(xí)
學(xué)習(xí)Logistic回歸理論
實(shí)現(xiàn)一個(gè)Logistic回歸代碼
進(jìn)行Logistic回歸示例練習(xí)
了解隨機(jī)森林(Random Forests)和決策樹(Decision Trees)
學(xué)習(xí)樹方法論(Tree Methods Theory)
實(shí)現(xiàn)決策樹和隨機(jī)森林代碼
進(jìn)行隨機(jī)森林分類示例練習(xí)
使用K均值聚類
了解K均值聚類理論
實(shí)現(xiàn)K均值聚類代碼
進(jìn)行群集示例練習(xí)
使用推薦系統(tǒng)
實(shí)現(xiàn)自然語言處理
理解自然語言處理(NLP)
NLP工具概述
進(jìn)行NLP示例練習(xí)
在Python中用Spark進(jìn)行流式處理
用Spark進(jìn)行流式處理概述 |