
R語言數據挖掘實戰培訓
第1節
R語言數據對象概要
通過創建不同的對象(數據對象、圖形對象、模型對象、自定義方程)詳細介紹了在R語言中萬物皆對象的說法,通過實際案例演示了如何創建向量、矩陣、數組、數據框和列表等數據對象。
學員學習完本小節的內容,懂得R語言中的常用數據對象創建、判斷和轉換的方法,為以后的數據分析和處理打下堅實的基礎。
第2節
R語言數據導入概要
R語言沒有提供圖形化的數據導入界面,本小節利用RStuido導入外部的txt、csv文件;也介紹了利用read.table函數導入txt、csv文件數據;讓學員對外部文本文件數據導入到R有基本的能力。
第3節
距離計算及數據標準化處理
本小節介紹了連續型變量間距離的計算方式;介紹了數據標準化處理的基本原理;并利用了caret擴展包中的preProcess函數快速實現數據的標準化處理,通過例子演示了利用preProcess函數和其他函數實現標準化和歸一化處理的結果。
第4節
常用聚類算法原理及R語言實現
常用聚類算法介紹,并對K均值聚類及層次聚類算法原理的詳細講解;后介紹了不同聚類算法在R語言中對應的函數實現。
第5節
聚類分析案例演示
利用K-Means聚類對Vehicle數據集進行聚類分群,并通過汽車類型指標查看聚類效果;利用cluster函數對洛杉磯街區數據進行層次聚類,并繪制聚類系譜樹圖,并利用聚類結果對街區進行分群標識,在經緯度圖上把街區數據展現出來;后利用cluster函數對mtcars數據集進行層次聚類,并對結果進行詳細解讀。
第6節
關聯規則案例演示
簡單介紹了關聯規則的基本原理,并詳細介紹了R語言關聯規則的實現及其他相關函數;介紹了關聯規則可視化包arulesViz;后通過超市購物數據進行事務型數據的探索,利用as函數進行數據格式轉換,利用itemFrequency函數查看包含該商品的交易比例;通過arules函數構建關聯規則模型,并對關聯規則進行排序和篩選。
第7節
KNN算法原理及R語言實現
詳細講解了KNN近鄰算法思想,KNN算法流程,如何對數據進行標準化以及呀變量處理;以及KNN算法的R語言實現。
第8節
KNN算法案例詳解
利用KNN算法對鳶尾花數據集iris建立分類器,并利用混淆矩陣查看預測誤差率,其中利用caret包的creatDataPartition函數對數據進行分區,并通過自定義函數ceshi讓學員清楚KNN近鄰算法的實現步驟。后利用KNN算法對乳腺癌數據識別患者,對汽車類型進行識別等。
第9節
決策樹算法基本原理及R語言實現
介紹了決策樹的基本思想以及其優缺點。我們從理論上概述決策樹的構建過程,這一過程包括如下四個步驟。1、決策樹的生成;2、生成樹的剪枝;3、生成規則;4、模型性能和預測。
詳細介紹了C5.0、CART算法的R語言實現,并利用不同的決策樹算法對汽車類型進行識別。
第10節
條件推理算法決策樹的案例演示
R語言中的party包主要用于實現條件推理決策樹,介紹了ctree函數的參數設置。通過運用條件推理決策樹算法對汽車類型進行識別,并繪制決策樹圖進行直觀展示。
第11節
五折交叉驗證方法及其他機器學習算法R語言實現
介紹了評估和選擇合適的模型和算法:五折交叉驗證的方法。并介紹了組合算法、隨機森林、人工神經網絡、支持向量機算法的R語言實現。
第12節
利用其他機器學習算法對cars數據集進行預測
利用數據集cars作為案例演示:介紹了構建五折交叉驗證下標的代碼,并通過for循環構建五折交叉驗證,通過對訓練集和測試集進行預測,利用平均誤差率小原則,選擇優模型對其他樣本進行預測。
第13節
rattle的使用
介紹了R語言數據挖掘可視化工具—Rattle的主要功能。包括:數據導入、數據探索、數據可視化、數據建模及模型評估等操作。讓學員能利用rattle工具快速完成數據挖掘工作的目的。