北京大數(shù)據(jù)基礎(chǔ)課程培訓(xùn) 2021-04-15 14:04:11
本課程以Java語(yǔ)言為基礎(chǔ),從大數(shù)據(jù)的概念開始,講解大數(shù)據(jù)中常用的組件,HDFS數(shù)據(jù)存儲(chǔ),ElasticSearch分布式全文檢索,Redis內(nèi)存數(shù)據(jù)庫(kù)。
孕睫術(shù)培訓(xùn)
一、 學(xué)員基礎(chǔ):
1.有Java編程語(yǔ)言基礎(chǔ)
2.有數(shù)據(jù)庫(kù)基礎(chǔ)
3.了解計(jì)算機(jī)基本操作,掌握一般文字輸入和處理的基礎(chǔ)知識(shí);
二、 課程目標(biāo):
了解大數(shù)據(jù)業(yè)內(nèi)最新發(fā)展趨勢(shì),深入掌握Hadoop的原理,Hadoop生態(tài)系統(tǒng)
深入學(xué)習(xí)yarn框架下的MapReduce,掌握MapReduce研發(fā)
掌握HDFS開發(fā)
了解Hadoop集群規(guī)劃,應(yīng)用案例解析
列式數(shù)據(jù)庫(kù)HBase的基本原理,應(yīng)用場(chǎng)景,掌握基本的編程技巧
掌握主流的實(shí)時(shí)處理引擎Flink
學(xué)習(xí)掌握Hive工具,分布式協(xié)調(diào)系統(tǒng)Zookeeper的基本原理,應(yīng)用場(chǎng)景,掌握基本的編程技
深入掌握Spark
三、課程大綱:
時(shí) 間 |
主要授課內(nèi)容 |
大數(shù)據(jù)技術(shù)基礎(chǔ) |
內(nèi)容一:大數(shù)據(jù)基礎(chǔ) 1.什么是大數(shù)據(jù) 2.大數(shù)據(jù)技術(shù)的產(chǎn)生背景 3.大數(shù)據(jù)應(yīng)用場(chǎng)景 4.大數(shù)據(jù)思維 5.大數(shù)據(jù)產(chǎn)業(yè)鏈 6.大數(shù)據(jù)是如何變革各行業(yè)的技術(shù)架構(gòu)、商業(yè)模式 7.國(guó)內(nèi)外主流的大數(shù)據(jù)解決方案介紹 8.當(dāng)前大數(shù)據(jù)解決方案與傳統(tǒng)數(shù)據(jù)庫(kù)方案的剖析比較 9.開源的大數(shù)據(jù)生態(tài)系統(tǒng)平臺(tái)剖析 內(nèi)容二:Linux集群 1. Linux操作系統(tǒng)知識(shí) 2. Linux網(wǎng)絡(luò)配置管理 3. Linux的x86服務(wù)器集群管理 內(nèi)容三:Hadoop大數(shù)據(jù)平臺(tái) 1.Hadoop的發(fā)展歷程以及產(chǎn)業(yè)界的實(shí)際應(yīng)用介紹 2.Hadoop大數(shù)據(jù)平臺(tái)架構(gòu) 3.基于Hadoop平臺(tái)的PB級(jí)大數(shù)據(jù)存儲(chǔ)管理 4.分析處理的工作原理與機(jī)制 5.Hadoop的核心組件剖析 |
HDFS |
內(nèi)容一:HDFS 1.分布式文件系統(tǒng)HDFS的簡(jiǎn)介 2.HDFS系統(tǒng)的主從式平臺(tái)架構(gòu)和工作原理 3.HDFS核心組件技術(shù)講解 4.HDFS NameNode的工作機(jī)制和元數(shù)據(jù)管理設(shè)計(jì) 5.HDFS DataNode的數(shù)據(jù)存儲(chǔ)機(jī)制設(shè)計(jì) 6.HDFS的副本機(jī)制設(shè)計(jì) 7.HDFS的可靠性機(jī)制設(shè)計(jì) 8.HDFS的I/O存取技術(shù)應(yīng)用 9.基于HDFS的大型存儲(chǔ)系統(tǒng)應(yīng)用開發(fā)實(shí)戰(zhàn) 10.HDFS集群的安裝、部署、配置與性能優(yōu)化實(shí)踐 11.分布式鍵值存儲(chǔ)系統(tǒng)的平臺(tái)架構(gòu)、核心技術(shù)以及應(yīng)用開發(fā) 12.PB及大數(shù)據(jù)存儲(chǔ)系統(tǒng)的項(xiàng)目案例分析 |
MapReduce與Yarn、ZooKeeper |
內(nèi)容一:MapReduce與Yarn技術(shù)實(shí)踐 1.MapReduce并行計(jì)算模型 2.MapReduce作業(yè)執(zhí)行與調(diào)度技術(shù) 3.第二代大數(shù)據(jù)處理框架Yarn的并行處理實(shí)戰(zhàn) 4.MapReduce應(yīng)用開發(fā)環(huán)境的部署,以及大數(shù)據(jù)并行處理應(yīng)用程序開發(fā) 5.MapReduceLevel 5編程技巧與性能優(yōu)化實(shí)踐 6.MapReduce與Yarn大數(shù)據(jù)分析處理案例分析 內(nèi)容二:ZooKeeper分布式協(xié)調(diào)服務(wù) 1.ZooKeeper分布式協(xié)調(diào)服務(wù)系統(tǒng)的工作原理、平臺(tái)架構(gòu)、集群部署應(yīng)用實(shí)戰(zhàn) 2.ZooKeeper集群的原理架構(gòu),以及應(yīng)用配置 3.部署與配置ZooKeeper分布式集群 |
Hbase |
內(nèi)容:Hbase 4.NoSQL數(shù)據(jù)庫(kù)與NewSQL數(shù)據(jù)庫(kù)技術(shù)概述 5.HBase分布式數(shù)據(jù)庫(kù)簡(jiǎn)介 6.HBase分布式數(shù)據(jù)庫(kù)集群的主從式平臺(tái)架構(gòu)和關(guān)鍵技術(shù)剖析 7.HBase偽分布式和物理集群分布式的控制與運(yùn)行配置 8.HBase的邏輯數(shù)據(jù)模型,HBase的表、行、列族、列、單元格、版本、row key排序 9.HBase的物理模型,命名空間(表空間)、表模式(Schema)的設(shè)計(jì)法則 10.HBase 主節(jié)點(diǎn)HMaster的工作原理,HMaster的高可用配置,以及性能調(diào)優(yōu) 11.HBase 從節(jié)點(diǎn)RegionServer(分區(qū)服務(wù)節(jié)點(diǎn))的工作原理,表分區(qū)及存儲(chǔ)I/O高并發(fā)配置,以及性能調(diào)優(yōu) 12.HBase的存儲(chǔ)引擎工作原理,以及HBase表數(shù)據(jù)的鍵值存儲(chǔ)結(jié)構(gòu),以及HFile存儲(chǔ)結(jié)構(gòu) 13.HBase表設(shè)計(jì)與數(shù)據(jù)操作以及數(shù)據(jù)管理操作 14.HBase集群安裝部署、參數(shù)配置和性能優(yōu)化 15.HBase的元數(shù)據(jù)管理,以及與ZooKeeper的交互機(jī)制 16.HBase集群的運(yùn)維與監(jiān)控管理,以及常見故障的解決之道 |
大型數(shù)據(jù)倉(cāng)庫(kù)Hive集群平臺(tái) |
內(nèi)容:Hive 1.?dāng)?shù)據(jù)倉(cāng)庫(kù)概述 2.Hive大數(shù)據(jù)倉(cāng)庫(kù)簡(jiǎn)介以及應(yīng)用介紹 3.Hive Server的工作原理、機(jī)制與應(yīng)用 4.Hive數(shù)據(jù)倉(cāng)庫(kù)集群的安裝部署與配置優(yōu)化 5.Hive應(yīng)用開發(fā)技巧 6.Hive SQL剖析與應(yīng)用實(shí)踐 7.Hive數(shù)據(jù)倉(cāng)庫(kù)表與表分區(qū)、表操作、數(shù)據(jù)導(dǎo)入導(dǎo)出、客戶端操作技巧 8.Hive數(shù)據(jù)倉(cāng)庫(kù)報(bào)表設(shè)計(jì) |
Scala |
內(nèi)容:Scala應(yīng)用基礎(chǔ) 1.Scala基礎(chǔ)語(yǔ)法 2.?dāng)?shù)據(jù)類型 3.變量 4.循環(huán) 5.函數(shù) 6.?dāng)?shù)組 7.類和對(duì)象 8.模式匹配 文件讀寫 |
Spark大數(shù)據(jù)實(shí)時(shí)處理 |
內(nèi)容一:Spark大數(shù)據(jù)實(shí)時(shí)處理平臺(tái)剖析 1.Spark的發(fā)展歷程以及業(yè)界的實(shí)際應(yīng)用介紹 2.Spark實(shí)時(shí)大數(shù)據(jù)處理平臺(tái)架構(gòu) 3.Spark RDD內(nèi)存彈性分布式數(shù)據(jù)集的工作原理與機(jī)制 4.Spark的核心組件剖析 5.基于Spark的應(yīng)用實(shí)踐案例 內(nèi)容二:Spark應(yīng)用基礎(chǔ) 1.Spark的實(shí)時(shí)處理基礎(chǔ)知識(shí) 2.Spark生態(tài)系統(tǒng)概述以及發(fā)展歷程 3.Spark在處理實(shí)時(shí)數(shù)據(jù)場(chǎng)景下的優(yōu)勢(shì)和處理模式 4.Spark內(nèi)存計(jì)算編程框架 5.Spark Core的基礎(chǔ)原理 6.Spark SQL的基礎(chǔ)原理 7.Spark Streaming的基礎(chǔ)原理 8.Spark在業(yè)界的實(shí)際應(yīng)用場(chǎng)景與相關(guān)案例簡(jiǎn)介 |
Flume和sqooq |
內(nèi)容一:Flume海量日志聚合 1.Flume簡(jiǎn)介及架構(gòu) 2.Flume關(guān)鍵特性介紹 3.Flume應(yīng)用 內(nèi)容二:sqooq數(shù)據(jù)轉(zhuǎn)換 1.sqooq簡(jiǎn)介 2.sqooq作業(yè)管理 3.sqooq應(yīng)用 內(nèi)容三:Oozie 4.Oozie簡(jiǎn)介及架構(gòu) 5.Oozie工作流 6.Oozie應(yīng)用 |
Kafka |
內(nèi)容:Kafka分布式消息訂閱系統(tǒng) 1.Kafka簡(jiǎn)介 2.Kafka架構(gòu)與功能 3.Kafka關(guān)鍵流程 4.Kafka應(yīng)用 |
Flink流處理引擎 |
內(nèi)容:Flink實(shí)時(shí)處理 1.Flink原理架構(gòu) 2.Flink的Time和Window機(jī)制 3.Flink的Watermark機(jī)制 4.Flink的容錯(cuò)與狀態(tài)管理 |
ElasticSearch 和Redis |
內(nèi)容一: ElasticSearch分布式全文檢索 1.ElasticSearch簡(jiǎn)介 2.ElasticSearch系統(tǒng)架構(gòu) 3.ElasticSearch關(guān)鍵特性 內(nèi)容二:Redis內(nèi)存數(shù)據(jù)庫(kù) 1.Redis應(yīng)用場(chǎng)景 2.Redis業(yè)務(wù)流程 3.Redis特性及數(shù)據(jù)類型 4.Redis的優(yōu)化 5.Redis案例應(yīng)用 |