目前比較流行的ETL工具有Pantlo Kertle、Howk、lormi PowerCene及DataStage,對這些工具的介紹如下。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-06-08 |傳智教育 |Pantlo Kertle、Howk、lormi PowerCene及DataStage
數(shù)據(jù)的加載是ETL的最后一個階段,它的主要任務是將數(shù)據(jù)從臨時數(shù)據(jù)表或文件中加載到指定的數(shù)據(jù)倉庫中。-般來說,可以通過編寫sQL語句和利用加載工具將數(shù)據(jù)加載到數(shù)據(jù)倉庫中。ETL的數(shù)據(jù)加載和數(shù)據(jù)抽取類似,將數(shù)據(jù)加載到目標數(shù)據(jù)表或者數(shù)據(jù)倉庫的過程中可分為全量加載、增量加載以及批量加載。下面詳細介紹一下ETL的全量加載、增量加載以及批量加載。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-06-08 |傳智教育 |ETL的全量加載、增量加載以及批量加載
數(shù)據(jù)的清洗轉(zhuǎn)換是指將抽取到的數(shù)據(jù)源表中的數(shù)據(jù),根據(jù)數(shù)據(jù)倉庫系統(tǒng)模型的要求進行數(shù)據(jù)的清洗、轉(zhuǎn)換等操作,保證來自不同系統(tǒng)、不同格式數(shù)據(jù)的一致性和完整性,并且要按照業(yè)務要求加載到目標表。數(shù)據(jù)的清洗轉(zhuǎn)換是ETL中最復雜的部分,主要任務是過濾掉不符合要求的數(shù)據(jù)。不符合要求的數(shù)據(jù)主要是有不完整的數(shù)據(jù)、錯誤的數(shù)據(jù)、重復的數(shù)據(jù)三大類。下面針對不符合要求的三大類數(shù)據(jù)進行詳細介紹。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-06-08 |傳智教育 |數(shù)據(jù)的清洗轉(zhuǎn)換
瀏覽器通過 WSGI 請求動態(tài)資源的過程可分為以下7個步驟: 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-06-04 |傳智教育 |瀏覽器通過WSGI請求動態(tài)資源的過程
在ETL的使用過程中,數(shù)據(jù)的增量抽取比數(shù)據(jù)的全量抽取應用更廣泛。要實現(xiàn)增量抽取,就要準確地捕獲到數(shù)據(jù)庫中數(shù)據(jù)源表數(shù)據(jù)的變化,因此捕獲變化的數(shù)據(jù)是增量抽取的關(guān)鍵。數(shù)據(jù)的增量抽取有4種方式,具體如下。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-06-04 |傳智教育 |ETL數(shù)據(jù)抽取的四種方式
作為數(shù)據(jù)倉庫和ETL的開發(fā)者,如果只想把時間用在創(chuàng)建BI解決方案上,那么任何用于軟件安裝和配置的時間都是一-種浪費。例如,為了創(chuàng)建數(shù)據(jù)庫連接,很多與Kettle類似的工具都要求用戶手工輸入數(shù)據(jù)庫驅(qū)動的類名和JDBCURL連接串,雖然用戶可以通過互聯(lián)網(wǎng)搜索到這些信息,但這明顯把用戶的注意力轉(zhuǎn)移到了技術(shù)方面,并非業(yè)務方面,而Kettle就是盡量避免這類問題出現(xiàn)。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-06-04 |傳智教育 |Kettle的設計原則
Redis是鍵值對的數(shù)據(jù)庫,有5種主要數(shù)據(jù)類型字符串類型(string),散列類型(hash),列表類型(list),集合類型(set),有序集合類型(zset),下面就來具體介紹下這5種數(shù)據(jù)類型。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-06-04 |傳智教育 |Redis的基本數(shù)據(jù)類型
ETL是英文Extract-Transform-Load的縮寫,用來描述將數(shù)據(jù)從源端經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程,它能夠?qū)Ω鞣N分布的、異構(gòu)的源數(shù)據(jù)(如關(guān)系數(shù)據(jù))進行抽取,按照預先設計的規(guī)則將不完整數(shù)據(jù)、重復數(shù)據(jù)以及錯誤數(shù)據(jù)等“臟"數(shù)據(jù)內(nèi)容進行清洗,得到符合要求的“干凈”數(shù)據(jù),并加載到數(shù)據(jù)倉庫中進行存儲,這些“干凈”數(shù)據(jù)就成為了數(shù)據(jù)分析、數(shù)據(jù)挖掘的基石。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-06-04 |傳智教育 |ETL什么意思