教育行業(yè)A股IPO第一股(股票代碼 003032)

全國咨詢/投訴熱線:400-618-4000

數(shù)據清洗轉換是什么意思?

更新時間:2022年08月12日11時01分 來源:傳智教育 瀏覽次數(shù):

好口碑IT培訓

  在Python工作中,我們經常要對數(shù)據進行清洗與轉換。數(shù)據的清洗轉換是指將抽取到的數(shù)據源表中的數(shù)據,根據數(shù)據倉庫系統(tǒng)模型的要求進行數(shù)據的清洗、轉換等操作,保證來自不同系統(tǒng)、不同格式數(shù)據的一致性和完整性,并且要按照業(yè)務要求加載到目標表中。

  數(shù)據的清洗轉換是ETL中最為復雜的篇章,主要的任務是過濾掉不符合要求的數(shù)據。不符合要求的數(shù)據主要是有不完整的數(shù)據、錯誤的數(shù)據、重復的數(shù)據三大類。下面針對不符合要求的三大類數(shù)據進行詳細介紹。

  1.不完整的數(shù)據

  數(shù)據上報、接口調用時都會產生大量的不完整數(shù)據,不完整數(shù)據的產生是不可避免的現(xiàn)象,而不完整的數(shù)據對大數(shù)據環(huán)境下的決策具有一定的影響。不完整數(shù)據主要包括缺失部分信息的數(shù)據。檢測不完整數(shù)據的方法具體如下。

  缺失部分或全部內容的數(shù)據主要是采用計算機和人工相結合的方法進行查找,并對缺失的內容進行填充處理。不完整數(shù)據的清洗流程如圖2-2所示。

不完整的數(shù)據清洗流程

  圖2-2 不完整數(shù)據的清洗流程

  在圖2-2中,不完整數(shù)據的清洗流程主要分為3個步驟,具體如下。

  (1)對獲得的數(shù)據源進行不完整數(shù)據檢測,為后續(xù)的數(shù)據處理提供所需的數(shù)據。

  (2)對檢測出來的不完整數(shù)據進行處理,如修復缺失部分或全部內容的數(shù)據。

  (3)輸出處理后的符合要求的完整數(shù)據。

  2.錯誤的數(shù)據

  大數(shù)據環(huán)境下數(shù)據量的劇增使得獲取到的數(shù)據源會由于各種原因存在大量的錯誤數(shù)據。

  錯誤數(shù)據產生的原因是業(yè)務系統(tǒng)不夠健全,在接收輸入數(shù)據后沒有進行過濾判斷,而是直接將數(shù)據寫入后臺數(shù)據庫造成的,如數(shù)值數(shù)據輸成全角數(shù)字字符、字符串數(shù)據后面出現(xiàn)一個回車操作、日期格式不正確、日期越界等錯誤。錯誤數(shù)據的清洗流程如圖2-3所示。

錯誤數(shù)據的清洗流程

  圖2-3 錯誤數(shù)據的清洗流程

  在圖2-3中,錯誤數(shù)據的清洗流程主要分為3個步驟,具體如下。

  (1)將數(shù)據源按照規(guī)定的數(shù)據格式進行檢測,并執(zhí)行數(shù)據預處理,為后續(xù)的處理步驟做準備。

  (2)對預處理后的數(shù)據進行一致性檢測,如果預處理后的數(shù)據與原始數(shù)據存在完整性不一致的問題,則通過數(shù)據修改過程使數(shù)據統(tǒng)一。為避免再次出現(xiàn)該問題,應重復進行檢測與修改過程,直到符合要求為止。

  (3)輸出修改后的數(shù)據

0 分享到:
和我們在線交談!