教育行業(yè)A股IPO第一股(股票代碼 003032)

全國咨詢/投訴熱線:400-618-4000

Python培訓:怎樣理解遷移學習?

更新時間:2022年10月14日18時25分 來源:傳智教育 瀏覽次數(shù):

預訓練模型(Pretrained model):

一般情況下預訓練模型都是大型模型,具備復雜的網絡結構,眾多的參數(shù)量,以及在足夠大的數(shù)據(jù)集下進行訓練而產生的模型. 在NLP領域,預訓練模型往往是語言模型,因為語言模型的訓練是無監(jiān)督的,可以獲得大規(guī)模語料,同時語言模型又是許多典型NLP任務的基礎,如機器翻譯,文本生成,閱讀理解等,常見的預訓練模型有BERT, GPT, roBERTa, transformer-XL等.

微調(Fine-tuning):

根據(jù)給定的預訓練模型,改變它的部分參數(shù)或者為其新增部分輸出結構后,通過在小部分數(shù)據(jù)集上訓練,來使整個模型更好的適應特定任務.

微調腳本(Fine-tuning script):

實現(xiàn)微調過程的代碼文件。這些腳本文件中,應包括對預訓練模型的調用,對微調參數(shù)的選定以及對微調結構的更改等,同時,因為微調是一個訓練過程,它同樣需要一些超參數(shù)的設定,以及損失函數(shù)和優(yōu)化器的選取等, 因此微調腳本往往也包含了整個遷移學習的過程.

關于微調腳本的說明:

一般情況下,微調腳本應該由不同的任務類型開發(fā)者自己編寫,但是由于目前研究的NLP任務類型(分類,提取,生成)以及對應的微調輸出結構都是有限的,有些微調方式已經在很多數(shù)據(jù)集上被驗證是有效的,因此微調腳本也可以使用已經完成的規(guī)范腳本.

兩種遷移方式:

直接使用預訓練模型,進行相同任務的處理,不需要調整參數(shù)或模型結構,這些模型開箱即用。但是這種情況一般只適用于普適任務, 如:fasttest工具包中預訓練的詞向量模型。另外,很多預訓練模型開發(fā)者為了達到開箱即用的效果,將模型結構分各個部分保存為不同的預訓練模型,提供對應的加載方法來完成特定目標.

更加主流的遷移學習方式是發(fā)揮預訓練模型特征抽象的能力,然后再通過微調的方式,通過訓練更新小部分參數(shù)以此來適應不同的任務。這種遷移方式需要提供小部分的標注數(shù)據(jù)來進行監(jiān)督學習.

關于遷移方式的說明:

直接使用預訓練模型的方式, 已經在fasttext的詞向量遷移中學習. 接下來的遷移學習實踐將主要講解通過微調的方式進行遷移學習.

0 分享到:
和我們在線交談!