DataFrame是一種以RDD為基礎(chǔ)的分布式數(shù)據(jù)集,因此DataFrame可以完成RDD的絕大多數(shù)功能,在開發(fā)使用時(shí),也可以調(diào)用方法將RDD和DataFrame進(jìn)行相互轉(zhuǎn)換。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-03-23 |傳智教育 |DataFrame是什么,SchemaRDD,DataFrame與RDD區(qū)別
Spark作為開源項(xiàng)目,外部開發(fā)人員可以針對(duì)項(xiàng)目需求自行擴(kuò)展Catalyst優(yōu)化器的功能。要想很好地支持SQL,就需要完成解析(Parser)、優(yōu)化(Optimizer)、執(zhí)行(Execution)三大過程。Catalyst優(yōu)化器在執(zhí)行計(jì)劃生成和優(yōu)化的工作時(shí)候,它離不開自己內(nèi)部的五大組件,具體介紹如下所示。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-03-23 |傳智播客 |Spark SQL,Spark SQL架構(gòu)的工作原理和工作流程,Catalyst優(yōu)化器
掌握了YARN的體系結(jié)構(gòu)后,接下來看一下YARN的工作流程,具體如下: 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-03-12 |傳智教育 |YARN的體系結(jié)構(gòu)
在數(shù)據(jù)科學(xué)應(yīng)用中,數(shù)據(jù)工程師可以利用Spark進(jìn)行數(shù)據(jù)分析與建模,由于Spark具有良好的易用性,數(shù)據(jù)工程師只需要具備一定的SQL語言基礎(chǔ)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)等方面的經(jīng)驗(yàn),以及使用Python、Matlab或者R語言的基礎(chǔ)編程能力,就可以使用Spark進(jìn)行上述工作。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-03-12 |傳智教育 |Spark,大數(shù)據(jù),數(shù)據(jù)處理
同一個(gè)事件類型在不同的連接狀態(tài)中代表的含義有所不同,當(dāng)客戶端斷開連接,這時(shí)客戶端和服務(wù)器的連接就是Disconnected狀態(tài),說明連接失敗;當(dāng)客戶端和服務(wù)器的某一個(gè)節(jié)點(diǎn)建立連接,并完成一次version、zxid的同步,這時(shí)客戶端和服務(wù)器的連接狀態(tài)就是SyncConnected,說明連接成功; 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-03-11 |傳智教育 |Watch機(jī)制的通知狀態(tài)與事件類型簡介
Hadoop可以存儲(chǔ)多種文件格式。在存儲(chǔ)結(jié)構(gòu)上,SequenceFile主要由一個(gè)Header后跟多條Record組成,Header主要包含了Key classname,value classname,存儲(chǔ)壓縮算法,用戶自定義元數(shù)據(jù)等信息。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-03-11 |傳智教育 |Sequence File
隨著Hadoop的不斷發(fā)展,Hadoop生態(tài)體系越來越完善,現(xiàn)如今已經(jīng)發(fā)展成一個(gè)龐大的生態(tài)體系,Hadoop生態(tài)體系包含了很多子系統(tǒng),下面介紹一些常見的子系統(tǒng),具體如下: 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-03-11 |傳智教育 |Hadoop生態(tài)圈子系統(tǒng)
在Scala中,它和Java一樣也是擁有方法和函數(shù)。Scala的方法是類的一部分,而函數(shù)是一個(gè)對(duì)象可以賦值給一個(gè)變量。換句話來說,在類中定義的函數(shù)即是方法。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-03-08 |傳智教育 |Scala的方法和函數(shù)
北京校區(qū)