模型訓練方法及裝置與流程

文檔序號：40655609發(fā)布日期：2025-01-10 19:06閱讀：2來源：國知局

本技術涉及機器學習領域，尤其涉及一種模型訓練方法及裝置。

背景技術：

1、深度學習作為目前機器學習領域的主流方法，已經(jīng)在自然語言處理、計算機視覺以及搜索推薦等多個領域取得了廣泛的應用。伴隨著深度學習技術的發(fā)展，模型的表現(xiàn)越來越優(yōu)，但同時模型的參數(shù)規(guī)模也從數(shù)百萬增加到數(shù)十億甚至數(shù)千億，因此訓練模型的計算量極大，這就為模型的訓練帶來了極大的時間要求及資源需求。

2、為了加速模型的訓練過程，現(xiàn)有技術中可以采用在先構建一個參數(shù)較少的初始模型，并對該初始模型進行訓練。由于參數(shù)較少，因此訓練該模型時所需的計算量也較少。接下來在訓練的過程中，分階段逐步擴增模型，最終訓練出符合使用需求的模型。

3、那么，在采用在構建初始模型然后分階段逐步擴增模型的這種方式來訓練模型的過程中，如何進一步提高模型訓練的效率，這是目前需要解決的問題。

技術實現(xiàn)思路

1、本技術提供一種模型訓練方法及裝置，用于提高模型訓練的效率。

2、第一方面，提供一種模型訓練方法，包括：訓練第一模型。監(jiān)測第一模型的損失函數(shù)值。在確定第一模型的損失函數(shù)值滿足預設條件后，對第一模型進行擴增，得到第二模型。其中，第二模型中擴增的參數(shù)為對第一模型中的參數(shù)進行復制得到的。訓練第二模型。

3、上述方法中，在采用分階段逐步擴增模型的方式進行模型訓練的場景下，該方法可以在對需要擴增的模型(該需要擴增的模型可以為初始模型或者訓練過程中任意中間階段的模型。為便于區(qū)分，下文中稱之為“第一模型”)進行訓練的過程中，監(jiān)測第一模型的損失函數(shù)值(可以簡稱為loss值)，并在確定第一模型的loss值滿足預設條件后，對第一模型進行擴增得到第二模型。其中，第二模型中擴增的參數(shù)為對第一模型中的參數(shù)進行復制得到的(例如，第一模型中包括x個編碼層，第二模型中包括2x個編碼層，則第二模型中第1至x個編碼層中的參數(shù)以及第(x+1)至2x個編碼層中的參數(shù)，分別是對第一模型中x個編碼層中的參數(shù)進行復制得到的)。然后再對第二模型進行訓練。同理對于第二模型以及第二模型擴增得到的后續(xù)模型，也可以采用上文類似方式確定擴增的時機(即在確定模型的損失函數(shù)值滿足預設條件后擴增)。這樣一來，便可以在不需要多次試驗的情況下，快速確定出合適的擴增時機。

4、在一種實現(xiàn)方式中，訓練第二模型，包括：獲取利用預設學習率對所述第二模型進行訓練時所述第二模型的第一損失函數(shù)值。根據(jù)對所述第一模型進行訓練的過程中學習率和損失函數(shù)值的對應關系，確定所述第一損失函數(shù)值對應的第一學習率。將所述第一學習率作為初始學習率，訓練所述第二模型。

5、通過上述實現(xiàn)方式，本技術能夠自適應的確定出與當前模型相匹配的初始學習率，并采用該初始學習率對擴增模型進行訓練，則可以達到提高模型的收斂速度、節(jié)省模型訓練開銷的效果。

6、在一種實現(xiàn)方式中，該方法還包括：在學習率與迭代次數(shù)的預設對應關系中，確定目標迭代次數(shù)對應的所述預設學習率；所述目標迭代次數(shù)為截止對所述第一模型進行擴增得到所述第二模型時已經(jīng)進行過的模型迭代次數(shù)。

7、在一種實現(xiàn)方式中，上述預設條件包括：在連續(xù)多個滑動窗口中監(jiān)測到所述第一模型的損失函數(shù)值的變化幅度小于幅度閾值?；蛘撸鲱A設條件包括：在連續(xù)p個滑動窗口內(nèi)，監(jiān)測到所述第一模型的損失函數(shù)值的變化幅度小于幅度閾值的滑動窗口的個數(shù)超過個數(shù)閾值q。

8、上述實現(xiàn)方式中，一方面可以確定出當前模型是否達到合適的收斂程度；另一方面，可以避免不穩(wěn)定因素對判斷結果的干擾。

9、在一種實現(xiàn)方式中，第一模型中包括采用堆疊方式構建的n個編碼層，n為正整數(shù)。所述在確定所述第一模型的損失函數(shù)值滿足預設條件后，對所述第一模型進行擴增，得到第二模型包括：在確定所述第一模型的損失函數(shù)值滿足預設條件后，在所述第一模型所包括所述n個編碼層的靠近解碼端的一端，增加m個編碼層，得到所述第二模型；所述m個編碼層中的參數(shù)是對所述n個編碼層中靠近解碼端的m個編碼層中的參數(shù)，按照從淺到深的方向復制得到，m為小于等于n的正整數(shù)。

10、在一種實現(xiàn)方式中，該方法還包括：獲取目標模型的編碼層個數(shù)l，以及模型訓練過程中的階段數(shù)量s。根據(jù)所述編碼層個數(shù)l以及所述階段數(shù)量s，確定所述第一模型的編碼層個數(shù)n。

11、在一種實現(xiàn)方式中，在確定所述第一模型的損失函數(shù)值滿足預設條件后，對所述第一模型進行擴增，得到第二模型，包括：在確定所述第一模型的損失函數(shù)值滿足預設條件后，對所述第一模型進行寬度擴增，得到第二模型。

12、在一種實現(xiàn)方式中，在確定所述第一模型的損失函數(shù)值滿足預設條件后，對所述第一模型進行擴增，得到第二模型，包括：在確定所述第一模型的損失函數(shù)值滿足預設條件后，對所述第一模型進行數(shù)據(jù)擴增，得到第二模型。

13、第二方面，提供一種模型訓練裝置，包括：訓練單元，用于訓練第一模型。監(jiān)測單元，用于監(jiān)測所述第一模型的損失函數(shù)值；擴增單元，用于在確定所述第一模型的損失函數(shù)值滿足預設條件后，對所述第一模型進行擴增，得到第二模型；其中，所述第二模型中擴增的參數(shù)為對所述第一模型中的參數(shù)進行復制得到的；所述訓練單元，還用于訓練所述第二模型。

14、在一種實現(xiàn)方式中，所述訓練單元，還用于訓練第二模型，包括：訓練單元，具體用于獲取利用預設學習率對所述第二模型進行訓練時所述第二模型的第一損失函數(shù)值；訓練單元，具體用于根據(jù)對所述第一模型進行訓練的過程中學習率和損失函數(shù)值的對應關系，確定所述第一損失函數(shù)值對應的第一學習率；訓練單元，具體用于將所述第一學習率作為初始學習率，訓練所述第二模型。

15、在一種實現(xiàn)方式中，訓練單元，還用于在學習率與迭代次數(shù)的預設對應關系中，確定目標迭代次數(shù)對應的所述預設學習率；所述目標迭代次數(shù)為截止對所述第一模型進行擴增得到所述第二模型時已經(jīng)進行過的模型迭代次數(shù)。

16、在一種實現(xiàn)方式中，預設條件包括：在連續(xù)多個滑動窗口中監(jiān)測到所述第一模型的損失函數(shù)值的變化幅度小于幅度閾值?；蛘?，所述預設條件包括：在連續(xù)p個滑動窗口內(nèi)，監(jiān)測到所述第一模型的損失函數(shù)值的變化幅度小于幅度閾值的滑動窗口的個數(shù)超過個數(shù)閾值q。

17、在一種實現(xiàn)方式中，第一模型中包括采用堆疊方式構建的n個編碼層，n為正整數(shù)。

18、擴增單元，用于在確定所述第一模型的損失函數(shù)值滿足預設條件后，對所述第一模型進行擴增，得到第二模型包括：擴增單元，用于在確定所述第一模型的損失函數(shù)值滿足預設條件后，在所述第一模型所包括所述n個編碼層的靠近解碼端的一端，增加m個編碼層，得到所述第二模型；所述m個編碼層中的參數(shù)是對所述n個編碼層中靠近解碼端的m個編碼層中的參數(shù)，按照從淺到深的方向復制得到，m為小于等于n的正整數(shù)。

19、在一種實現(xiàn)方式中，訓練單元，還用于獲取目標模型的編碼層個數(shù)l，以及模型訓練過程中的階段數(shù)量s。訓練單元，還用于根據(jù)所述編碼層個數(shù)l以及所述階段數(shù)量s，確定所述第一模型的編碼層個數(shù)n。

20、在一種實現(xiàn)方式中，擴增單元，用于在確定所述第一模型的損失函數(shù)值滿足預設條件后，對所述第一模型進行擴增，得到第二模型，包括：擴增單元，用于在確定所述第一模型的損失函數(shù)值滿足預設條件后，對所述第一模型進行寬度擴增，得到第二模型。

21、在一種實現(xiàn)方式中，擴增單元，用于在確定所述第一模型的損失函數(shù)值滿足預設條件后，對所述第一模型進行擴增，得到第二模型，包括：擴增單元，用于在確定所述第一模型的損失函數(shù)值滿足預設條件后，對所述第一模型進行數(shù)據(jù)擴增，得到第二模型。

22、第三方面，提供一種模型訓練裝置，包括：包括存儲器和處理器，所述存儲器用于存儲計算機指令，所述處理器用于從所述存儲器中調(diào)用并運行所述計算機指令，以實現(xiàn)如上述第一方面或第一方面中任一實現(xiàn)方式的方法。

23、第四方面，提供一種計算機可讀存儲介質(zhì)，所述計算機可讀存儲介質(zhì)中存儲有指令，當所述指令在處理器上運行時，以實現(xiàn)如上述第一方面或第一方面中任一實現(xiàn)方式的方法。

24、第五方面，提供一種計算機程序產(chǎn)品，所述計算機程序產(chǎn)品包括指令，當所述指令在處理器上運行時，以實現(xiàn)如上述第一方面或第一方面中任一實現(xiàn)方式的方法。

25、上述第二方面至第五方面以及各方面中任一實現(xiàn)方式所產(chǎn)生的技術效果可參照上述第一方面以及第一方面中對應的實現(xiàn)方式，重復之處在此不做贅述。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：韓興佳,鮑翔,張夢陽,鐘保權
技術所有人：華為技術有限公司
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

模型訓練方法及裝置與流程