主題 |
授課內容 |
Hadoop數(shù)據(jù)倉庫概述 |
1.hadoop數(shù)據(jù)倉庫與傳統(tǒng)倉庫區(qū)別
2. hadoop數(shù)據(jù)倉庫架構
3. hadoop數(shù)據(jù)倉庫關鍵模塊
數(shù)據(jù)接入與存儲、數(shù)據(jù)加工,數(shù)據(jù)建模,數(shù)據(jù)分析及可視化等模塊?
4. hadoop倉庫關鍵點
數(shù)據(jù)質量把控
數(shù)據(jù)模型選擇
OLAP引擎選擇 |
Hadoop數(shù)據(jù)倉庫:數(shù)據(jù)接入與存儲模塊 |
1.?數(shù)據(jù)接入模塊關鍵技術
講解sqoop,flume,kafka以及databus等常用開源技術以及它們對應的應用場景
2.?數(shù)據(jù)存儲模塊關鍵技術
講解hdfs(不同存儲格式及壓縮格式對性能的影響)、hbase、kudu、hive等開源技術以及它們對應的應用場景 |
Hadoop數(shù)據(jù)倉庫:數(shù)據(jù)加工模塊 |
數(shù)據(jù)加工模塊關鍵技術
講解spark/hive及spark streaming相關技術以及對應應用場景 |
Hadoop數(shù)據(jù)倉庫:數(shù)據(jù)建模 |
1.?1. Hadoop數(shù)據(jù)模型
涉及原始表,聚集表以及cube等
涉及元信息管理系統(tǒng)hive metastore
2.?數(shù)據(jù)模型選擇原則 |
Hadoop數(shù)據(jù)倉庫:數(shù)據(jù)分析 |
計算引擎的分類及對應應用場景
涉及hive,presto/impala以及kylin三類系統(tǒng)以及對應應用場景 |
Hadoop數(shù)據(jù)倉庫:數(shù)據(jù)可視化 |
1.?自研系統(tǒng)
C3,Echarts等
2.?商業(yè)系統(tǒng)
tableau等 |
Hadoop數(shù)據(jù)倉庫實例:某互聯(lián)網公司TB及數(shù)據(jù)倉庫構建案例 |
1.?項目背景
2.?系統(tǒng)架構
3.?關鍵技術點和特色
4.?經驗分享 |