BD231:大數據挖掘與分析

開班計劃時間:24 小時
上課地點 上課方式 預計上課時間
北京 線下面授
2020/1/4、5、11、12
廣州 線下面授
2020/3/14、15、21、22
深圳 線下面授
2020/3/19、20、21、22
預約試聽 馬上咨詢
課程介紹
適用對象:對大數分布式存分析等感興趣的朋友; Java/python/c等任意一門編程語言的開發者; 大型網電商網站等運維人員; 大數據從業者; 熟悉Hadoop生態體系,想了解和學習Hadoop與Spark整合在企業應用實戰案例的朋友; 系統架構系統分析高級程序資深開發人員; 牽涉到大數據處理的數據中心運規設計負責人; 政府機關,金融保移動互聯網等大數據單位的負責人; 高科研院所大數據研究人員,涉及到大數據與分布式數據處理的人員; 數據倉庫管理人建模人員,分析和開發人系統管理人數據庫管理人員以及對數據倉庫感興趣的其他人員;
學習收獲:(1)全面介紹了數據挖掘的標準流程,數據預處理,數據挖掘方法,數據挖掘模型,模型評估,模型參數優化,等等,使得學員掌握數據挖掘的方模工具。 (2)通過本課程的學習,達到如下目的: (3)了解數據分析與數據挖掘的基本知識,理解大數據思維方式。 (4)掌握數據挖掘的基本過程和步驟,掌握數據挖掘的思路和框架。 (5)能夠理解分析模型原理,掌握模型應用場景,能夠利用模型解決復雜的商業問題。 (6)掌握常用的數據模型,能夠根據商業問題選擇合適的分析模型。 (7)熟悉SPSS基本操作,掌握分析操作,能夠解讀分析結果,并轉化為業務。
詳細大綱
1 大數據基礎與基本平臺介紹
1.1 大數據技術背景
1.1.1 大數據問題的提出
1.1.2 大數據的解決方案
1.1.3 數據治理
1.1.4 Hadoop簡介
1.2 hadoop大數據平臺搭建
1.2.1 Hadoop集群原理
1.2.2 單節點集群的搭建
1.2.3 多節點集群
1.3 使用HDFS
1.3.1 HDFS WEB后臺
1.3.2 Hadoop shell指令
1.3.3 HDFS開發接口
1.3.4 WEB HDFS接口
1.4 MapReduce計算框架
1.4.1 MapReduce編程模型
1.4.2 WordCount實驗
1.4.3 MapReduce應用案例
1.4.4 使用YARN計算管理框架
2 大數據的數據倉庫
2.1 數據倉庫的建立
2.1.1 數據倉庫與業務模型的關系
2.1.2 數據導入工具
2.1.3 關系數據庫導入
2.1.4 非關系型數據導入
2.1.5 Hive簡介
2.1.6 Hbase簡介
2.2 導入工具Flume
2.2.1 數據導入環境配置
2.2.2 使用二級代理導入
2.3 導入工具Sqoop
2.3.1 關系數據庫準備
2.3.2 使用sqoop導入HDFS
2.4 日常數據分析
2.4.1 配置Hive服務器
2.4.2 創建Hive表
2.4.3 使用Hive分析數據
2.5 Hbase
2.5.1 Hbase服務器配置
2.5.2 Hbase數據表建立
2.5.3 Hbase數據錄入和更新
2.5.4 Hbase開發接口
3 數據分析
3.1 數據清洗
3.1.1 數據清洗的必要性
3.1.2 數據清洗的工具
3.2 Python編程基礎
3.2.1 Python語言特點
3.2.2 python的數據結構
3.2.3 字符串處理函數
3.2.4 正則表達式
3.2.5 匿名函數
3.3 數據分析基礎
3.3.1 使用python實現MapReduce
3.3.2 Pandas庫的使用
3.3.3 Numpy擴展數學功能
3.3.4 基本分析方法
3.3.5 數據導出
3.4 回歸分析(預測分析)
3.4.1 商業問題:如何預測未來的銷售量(定量分析)?
3.4.2 回歸分析概述
3.4.3 回歸分析適用場景
3.4.4 回歸分析擬合度檢驗
3.4.5 解讀回歸分析結果
3.5 邏輯回歸分析(預測分析)
3.5.1 商業問題:如果評估用戶購買某產品的概率?
3.5.2 邏輯回歸分析原理
3.5.3 邏輯回歸分析的適用場景
3.6 【案例】:客戶購買預測分析
3.7 【案例】:品牌選擇預測分析
4 大數據挖掘與機器學習
4.1 大數據的數據挖掘基礎
4.1.1 一般實施步驟
4.1.2 數據挖掘方法論
4.1.3 數值類型數據挖掘
4.1.4 文本類型數據挖掘
4.1.5 圖形、視頻數據挖掘
4.2 Spark的機器學習函數庫
4.2.1 Spark腳本入門
4.2.2 使用RDD和DataSet
4.2.3 數據變換
4.2.4 SparkML庫概覽
4.3 客戶價值評估RFM模型
4.3.1 商業問題:如何評估客戶的價值?不同價值客戶的營銷策略有什么區別?
4.3.2 RFM模型介紹
4.3.3 RFM模型用戶分類與業務策略
4.3.4 RFM與客戶活躍度分析
4.3.5 【案例】:客戶價值如何評估
4.4 聚類分析(Clustering)
4.4.1 商業問題:我們的客戶有幾類?各類特征是什么?
4.4.2 聚類方法原理介紹
4.4.3 聚類方法適用場景
4.4.4 系統聚類(層次聚類)算法原理
4.4.5 如何判定最佳聚類類別數量
4.4.6 K均值聚類(快速聚類)算法原理
4.5 決策樹分類分析(Classification)
4.5.1 商業問題:這類客戶有什么特征?有什么潛在銷售機會?
4.5.2 決策樹原理介紹
4.5.3 構建決策樹
4.5.4 如何評估分類性能
4.6 關聯分析(Association)
4.6.1 商業問題:購買A產品的顧客還常常要購買其他什么產品?
4.6.2 關聯規則原理介紹
4.6.3 關聯規則的兩個關鍵參數
4.6.4 Apriori算法介紹
4.6.5 FP-Growth算法介紹
4.6.6 關聯規則適用場景
4.6.7 【案例】:商品套餐設商品交叉銷售
課程評價

課程評價({{EvaluationTotal}})

課程滿意度

評價

您還沒有給課程評分哦

滿意度

    追加評價:

課程咨詢
內容:

您還沒有填寫內容!

暫無問答,趕緊去提問吧
{{item.AnswerState==1?"已解決":"未解決"}}
{{item.Content}}
{{item.StudentAskTime}}
{{itemanswer.UserName}}
{{itemanswer.Content}}
{{itemanswer.StudentAskTime}}
同類課程推薦 more
嘉為大講堂 more
原創文章 more

您好! 歡迎來到學領未來 !

學領未來提供線上及線下的學習服務,根據您的位置,為您推薦最近的線下培訓地點 分站,你選擇:

广东十一选五技巧规律