Cloudera Manager是用于管理CDH群集的端到端應(yīng)用程序。Cloudera Manager通過對(duì)CDH集群的每個(gè)部分提供細(xì)粒度的可視性和控制來設(shè)置企業(yè)部署的標(biāo)準(zhǔn),使運(yùn)營商能夠提高性能,提高服務(wù)質(zhì)量,提高合規(guī)性并降低管理成本... 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-12-08 |傳智教育 |ClouderaManager
ReduceTask的工作過程主要經(jīng)歷了5個(gè)階段,分別是Copy階段、Merge階段、Sort階段、Reduce階段和Write階段,如下圖所示。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-12-06 |傳智教育 |ReduceTask工作機(jī)制
什么是冪等性?用http舉例來說,一次或多次請(qǐng)求,得到地響應(yīng)是一致的(網(wǎng)絡(luò)超時(shí)等問題除外)就是冪等性,換句話說,就是執(zhí)行多次操作與執(zhí)行一次操作的影響是一樣的。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-12-06 |傳智教育 |Kafka怎樣實(shí)現(xiàn)生產(chǎn)者冪等性
MapReduce是一種編程模型,用于處理大規(guī)模數(shù)據(jù)集的并行運(yùn)算。使用MapReduce執(zhí)行計(jì)算任務(wù)的時(shí)候,每個(gè)任務(wù)的執(zhí)行過程都會(huì)被分為兩個(gè)階段,分別是Map和Reduce,其中Map階段用于對(duì)原始數(shù)據(jù)進(jìn)行處理,Reduce階段用于對(duì)Map階段的結(jié)果進(jìn)行匯總,得到最終結(jié)果,這兩個(gè)階段的模型如下圖所示。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-12-06 |傳智教育 |MapReduce編程模型
Flume的核心角色是Agent,通過Agent可以從其他服務(wù)中采集數(shù)據(jù),并通過內(nèi)部event流的形式傳輸?shù)絊ink,并根據(jù)需求最終向下一個(gè)Agent傳輸或者進(jìn)行集中式存儲(chǔ)。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-12-01 |傳智教育 |Flume日志采集系統(tǒng)結(jié)構(gòu)圖
爬取網(wǎng)頁其實(shí)就是通過URL獲取網(wǎng)頁信息,網(wǎng)頁信息的實(shí)質(zhì)是一段添加了JavaScript和CSS的HTML代碼。Python提供了一個(gè)抓取網(wǎng)頁信息的第三方模塊requests,requests模塊自稱“HTTP for Humans”,直譯過來的意思是專門為人類而設(shè)計(jì)的HTTP模塊,該模塊支持發(fā)送請(qǐng)求,也支持獲取響應(yīng)。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-11-19 |傳智教育 |使用requests模塊抓取網(wǎng)頁
利用json模塊的dumps()函數(shù)和loads()函數(shù)可以實(shí)現(xiàn)Python對(duì)象和JSON數(shù)據(jù)之間的轉(zhuǎn)換,下面來分別演示兩種函數(shù)的用法 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-11-18 |傳智教育 |利用函數(shù)實(shí)現(xiàn)Pytho對(duì)象和JSON數(shù)據(jù)的相互轉(zhuǎn)換
程序中與數(shù)據(jù)相關(guān)的操作分為數(shù)據(jù)的存儲(chǔ)與讀寫。下面將對(duì)如何存儲(chǔ)與讀寫不同維度的數(shù)據(jù)進(jìn)行講解。1.數(shù)據(jù)存儲(chǔ)數(shù)據(jù)通常存儲(chǔ)在文件之中,為了方便后續(xù)的讀寫操作,數(shù)據(jù)通常需要按照約定的組織方式進(jìn)行存儲(chǔ)。一維數(shù)據(jù)呈線性排列,一般用特殊字符分隔,具體示例如下。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-11-18 |黑馬程序員 |存儲(chǔ)與讀寫不同維度的數(shù)據(jù)
北京校區(qū)