當(dāng)下是大數(shù)據(jù)時代,為構(gòu)建大數(shù)據(jù)平臺,技術(shù)人員需要對分布式計算平臺有一定深入的理解和應(yīng)用。Apache Spark 作為MapReduce的新一代繼承者。 是對map reduce從性能,易用性和復(fù)雜分析優(yōu)化的強大的開源數(shù)據(jù)處理引擎。Spark框架支持流式數(shù)據(jù)處理, 復(fù)雜迭代算法,比傳統(tǒng)Hadoop?MapReduce 程序快100倍。
Python語言時當(dāng)下數(shù)據(jù)領(lǐng)域的瑞士軍刀,但是作為一門腳本語言python先天只能在一臺機器上發(fā)展,不適合分析大數(shù)據(jù),因此需要其他大數(shù)據(jù)軟件來處理,Spark雖然是由Scala編寫,但也提供了Pyspark,讓熟悉Python者能夠輕易熟悉操作大數(shù)據(jù)。
第一部份.spark介紹
hadoop、spark集群環(huán)境搭建
pyspark開發(fā)環(huán)境搭建
spark 1.x和2.x的對比
第二部份.pySpark核心編程模型
RDD、transformation、action
第三部份.pySpark核心編程實戰(zhàn)
lineage、容錯處理、寬依賴與窄依賴
第四部份.Spark內(nèi)核詳解剖析
Spark術(shù)語解釋、集群概覽、核心組件、數(shù)據(jù)本地性
第五部份.spark任務(wù)調(diào)度詳解
RDD任務(wù)調(diào)度(DAGScheduler ,TaskScheduler)、Task細節(jié)、廣播變量、累加器
第六部份.spark工程經(jīng)驗和性能調(diào)優(yōu)
第七部份.spark SQL 詳解
DataFrame、外部數(shù)據(jù)源API、與Spark其他組件的交互、
第八部份.spark sql編程實戰(zhàn)
Catalyst查詢優(yōu)化器 、Tungsten 優(yōu)化
第九部份.spark streaming 開發(fā)
Dstream、數(shù)據(jù)源、 容錯
第十部份.spark運維技能
|