教學(xué)優(yōu)勢
曙海教育的課程培養(yǎng)了大批受企業(yè)歡迎的工程師。大批企業(yè)和曙海
建立了良好的合作關(guān)系。曙海集團的課程在業(yè)內(nèi)有著廣泛的美譽度和響亮的知名度。
秉承二十幾年積累的教學(xué)品質(zhì),本課程以真實項目實戰(zhàn)為導(dǎo)向,授課工程師將會與您分享設(shè)計的全流程及工具的綜合使用技巧、經(jīng)驗。
主題1:大數(shù)據(jù)平臺方案與實施 ·?大數(shù)據(jù)基礎(chǔ)與發(fā)展過程 ·?傳統(tǒng)大規(guī)模數(shù)據(jù)處理與分析存在的問題 ·?大數(shù)據(jù)計算框架 o?離線計算框架 o?流式計算框架 o?內(nèi)存計算框架 ·?大數(shù)據(jù)平臺方案 o?Apache Hadoop方案 §?核心組件 §?Hadoop 1.0與2.0版本關(guān)聯(lián)與區(qū)別 §?Hadoop生態(tài)系統(tǒng) o?國外主流大數(shù)據(jù)平臺方案 §?CDH?、Hortonworks、MapR §?傳統(tǒng)IT公司方案:Oracle Exadata,SAP HANA o?國內(nèi)主流大數(shù)據(jù)平臺方案與廠商 o?大數(shù)據(jù)平臺方案比較 ·?大數(shù)據(jù)的行業(yè)應(yīng)用 ·?大數(shù)據(jù)的落地實施挑戰(zhàn) ? 主題2:大數(shù)據(jù)計算模型(一)–批處理MapReduce ·?MapReduce編程模型 o?Map處理 o?Reduce處理 o?MapReduce主程序設(shè)置 ·?MapReduce處理流程 o?數(shù)據(jù)讀取collect o?中間數(shù)據(jù)sort o?中間數(shù)據(jù)spill o?中間數(shù)據(jù)shuffle o?聚合分析reduce ·?MapReduce開發(fā)高級應(yīng)用 o?Combiner技術(shù)與應(yīng)用場景 o?Partitioner技術(shù)與應(yīng)用場景 o?多Reducers應(yīng)用 ·?MapReduce開發(fā)與應(yīng)用實踐 o?Hadoop平臺搭建與運行 o?MapReduce安裝與部署 o?應(yīng)用案例:基于HDFS+MapReduce集成的服務(wù)器日志分析采集、存儲與分析MapReduce程序?qū)嵗_發(fā)與運行 ? 主題3:大數(shù)據(jù)存儲系統(tǒng) ·?HDFS分布式文件系統(tǒng) o?HDFS系統(tǒng)架構(gòu)與原理 o?NameNode功能詳解 §?fsimage和editslog o?DataNode功能詳解 §?block的備份策略 o?HDFS讀寫機制 o?HDFS高可用方案 §?NameNode單點故障解決方案 §?NFS冷備份 ? |
? |
主題4:Hadoop軟件框架與優(yōu)化 ·?Hadoop1.0框架 o?Hadoop JobTracker o?Hadoop TaskTracker ·?Hadoop 2.0?框架 o?ResourceManager組件 o?NodeManager組件 o?ApplicationMaster組件 o?YARN組件 ·?Hadoop 2.0?資源調(diào)度優(yōu)化 o?YARN調(diào)度原理 o?CapacityScheduler o?FairScheduler ·?Hadoop框架組件調(diào)優(yōu) o?慢啟動優(yōu)化 o?心跳優(yōu)化 o?容錯優(yōu)化 o?MR計算框架參數(shù)調(diào)優(yōu) ·?HDFS調(diào)優(yōu) o?RPC線程調(diào)優(yōu) o?本地文件系統(tǒng)調(diào)優(yōu) o?RAID與卷管理調(diào)優(yōu) o?小文件優(yōu)化 ? 主題5:大數(shù)據(jù)計算模型(二)實時交互計算– Spark ·?Spark編程模型 o?Scala:面向函數(shù)的編程 o?Scala常見函數(shù)與開發(fā) o?Scala編譯和運行 ·?Spark RDD開發(fā)模型 o?Spark RDD運行機制 o?Spark RDD主要Transformation §?map §?flatmap §?filter §?union §?reduceByKey §?groupByKey o?Spark RDD主要Action §?count §?collect §?saveAsTextFile o?Spark RDD依賴關(guān)系 §?寬依賴 §?窄依賴 ·?Spark集群架構(gòu)與關(guān)鍵組件 ·?Spark作業(yè)運行機制 o?執(zhí)行DAG圖 o?任務(wù)集 o?executor執(zhí)行模型 ·?Spark開發(fā)與應(yīng)用實踐 o?Spark運行環(huán)境搭建與部署 o?應(yīng)用案例 §?基于HDFS+Flume+Spark的服務(wù)器運行日志實時分析Spark程序?qū)嵗_發(fā)與運行 ? ? 主題6:SQL on Hadoop大數(shù)據(jù)查詢 ·?基于MapReduce的大數(shù)據(jù)查詢Hive o?Hive架構(gòu)與工作原理 o?Hive數(shù)據(jù)加載 o?Hive內(nèi)部表和外部表 o?Hive分區(qū)表和分通表 o?Hive的存儲方式 §?列存儲和行存儲 o?Hive SQL基本操作 ·?基于Spark的大數(shù)據(jù)查詢SparkSQL o?SparkSQL工作原理與執(zhí)行機制 o?SparkSQL數(shù)據(jù)模型DataFrame o?SparkSQL數(shù)據(jù)讀取與結(jié)果保存 §?json §?Hive table §?Parquet file §?RDD o?SparkSQL和Hive的區(qū)別與聯(lián)系 o?實踐SparkSQL操作 §?數(shù)據(jù)表讀取、查詢與結(jié)果保存 ? |
? |
主題7:大數(shù)據(jù)計算模型(三) 流計算 ·?流數(shù)據(jù)處理應(yīng)用場景 o?流數(shù)據(jù)處理特點 o?流計算系統(tǒng):SparkStreaming,Storm對比 ·?流數(shù)據(jù)計算框架:Spark Streaming o?Spark Streaming基本概念 o?Spark Streaming數(shù)據(jù)模型DStream o?Spark Streaming架構(gòu)與工作機制 o?Spark Streaming數(shù)據(jù)源操作 o?Spark Streaming開發(fā)示例 §?基于文件流的SparkStraeming程序 §?基于socket流的SparkStraeming程序 ·?流數(shù)據(jù)計算框架:Storm o?Storm基本概念 o?Storm編程模型 §?Spout,Bolt, Topology o?數(shù)據(jù)流分組 o?并發(fā)度設(shè)置 o?容錯機制 ? 主題8:NoSQL數(shù)據(jù)庫 ·?NoSQL數(shù)據(jù)庫 o?關(guān)系型數(shù)據(jù)庫瓶頸 o?NoSQL數(shù)據(jù)庫概念,分類與適用場景 §?HBase,MongoDB,Redis ·?列存儲NoSQL數(shù)據(jù)庫HBase o?Hbase原理與數(shù)據(jù)模型 §?行、列簇、時間戳 o?HBase系統(tǒng)架構(gòu) §?Hmaster §?RegionServer §?Zookeeper o?HBase的讀寫機制 §?LSM結(jié)構(gòu)的數(shù)據(jù)組織與讀寫 o?Hbase表的設(shè)計原則 §?高表與寬表 §?rowkey設(shè)計 o?Hbase適用場景 ? 主題9:大數(shù)據(jù)采集 ·?RDBMS與Hadoop數(shù)據(jù)轉(zhuǎn)換工具Sqoop o?Sqoop工作原理 ·?文件采集工具Flume o?Flume組件與運行 o?Flume常用配置 ·?Kafka o?Kafka基本概念: producer, broker, consumer o?Kafka集群架構(gòu) o?Kafka運行機制 o?Kafka應(yīng)用場景 ? |
? |
?