算法求職簡歷該怎么寫大模型微調
結合最近輔助修改的簡歷及項目,老師總結了部分大模型微調簡歷的踩雷點。
???♂?錯誤示范:在 x任務中,獲取 xxx 條數(shù)據(jù),通過規(guī)則 or 腳本清洗出 x 條數(shù)據(jù),然后微調 y 大模型,在業(yè)務上提升 x 個點。
???原因:大模型微調的平臺是現(xiàn)成的,基模是現(xiàn)成的,體現(xiàn)不出核心能力。
?應該怎么寫?
首先介紹業(yè)務背景:
業(yè)務是一個銷售對話業(yè)務,機器人是銷售,代替真人,直接面對用戶。我們會給模型設定任務,任務是 prompt 。
步驟1??.提取訓練數(shù)據(jù)
問題:
1.真人通話每通電話任務是未知的,我們
訓練數(shù)據(jù)是任務+通話的 pair 對。
2.真人通話很亂,與客戶的對話是各種交
叉的,導致 asr 后并不是一人一輪。
解決方案:
1.首先通過大模型 prompt 對該通電話提取任務,得到任務+ pair 對。需要用到 cot + reflection +多 Ilm 一致性+ debating 的模式。
2.使用大模型根據(jù)以上任務和真人對話,
讓大模型編寫出通話內容。提問,為什么要編寫而不是直接用?
步驟2??.制定訓練數(shù)據(jù)集
問題:
1、正常的對話內容,前面幾句和后面幾句基本上一致的。都是問候和拜拜,但是也有一些差異。
2、因為都是相似場景,雖然任務不同,但是很多場景語義很相似。
解決方案:
1、基于輪次的權重采樣:通過輪次設定權重進行 weighting sample 。解決問候和拜拜的高占比問題。
2、基于語義的采樣:使用 bert 對對話內容進行 embedding ,然后使用層次聚類通過調節(jié)閾值聚類出相似語義的類。對一個類里的樣本進行隨機采樣,提問,為什么要對重復語義的數(shù)據(jù)進行下采樣?
3、基于客戶類型和產(chǎn)品的采樣,因為很多產(chǎn)品是熱品,導致對話內容有偏,用戶類型一樣,需按照類型調整整體比例采樣。提問,為什么要這么采樣?
步驟3??.制定訓練數(shù)據(jù)集
我們直接把輸出當作 target 進行訓練。使用的 lora 訓練,但是 lora alpha 設定成為4倍的時候達到了比較好的效果,經(jīng)驗值不同任務不一樣,提問,在各種情況下要怎么調?
步驟4??.dpo訓練
問題:v1版本訓練時,很多輸出內容是對的,但是輸出的語氣不太像真人,機器人味還是很嚴重。
解決方案:由于訓練本身是有 ground truth 的,因此使用v1訓練的模型,預測訓練集,使用大模型對比兩者語氣不符合訓練集的拿出來,使用訓練集的 ground truth 和模型的預測數(shù)據(jù)作為 dpo 訓練對,對v1版本模型重新訓練。
??這里老師只是簡要進行概括解答,具體情況和詳細解答可以咨詢輔導,如果想了解項目輔導,提升面試能力,歡迎后臺聯(lián)系。
#算法# #簡歷中的項目經(jīng)歷要怎么寫# #算法崗面試# #互聯(lián)網(wǎng)大廠招聘#
???♂?錯誤示范:在 x任務中,獲取 xxx 條數(shù)據(jù),通過規(guī)則 or 腳本清洗出 x 條數(shù)據(jù),然后微調 y 大模型,在業(yè)務上提升 x 個點。
???原因:大模型微調的平臺是現(xiàn)成的,基模是現(xiàn)成的,體現(xiàn)不出核心能力。
?應該怎么寫?
首先介紹業(yè)務背景:
業(yè)務是一個銷售對話業(yè)務,機器人是銷售,代替真人,直接面對用戶。我們會給模型設定任務,任務是 prompt 。
步驟1??.提取訓練數(shù)據(jù)
問題:
1.真人通話每通電話任務是未知的,我們
訓練數(shù)據(jù)是任務+通話的 pair 對。
2.真人通話很亂,與客戶的對話是各種交
叉的,導致 asr 后并不是一人一輪。
解決方案:
1.首先通過大模型 prompt 對該通電話提取任務,得到任務+ pair 對。需要用到 cot + reflection +多 Ilm 一致性+ debating 的模式。
2.使用大模型根據(jù)以上任務和真人對話,
讓大模型編寫出通話內容。提問,為什么要編寫而不是直接用?
步驟2??.制定訓練數(shù)據(jù)集
問題:
1、正常的對話內容,前面幾句和后面幾句基本上一致的。都是問候和拜拜,但是也有一些差異。
2、因為都是相似場景,雖然任務不同,但是很多場景語義很相似。
解決方案:
1、基于輪次的權重采樣:通過輪次設定權重進行 weighting sample 。解決問候和拜拜的高占比問題。
2、基于語義的采樣:使用 bert 對對話內容進行 embedding ,然后使用層次聚類通過調節(jié)閾值聚類出相似語義的類。對一個類里的樣本進行隨機采樣,提問,為什么要對重復語義的數(shù)據(jù)進行下采樣?
3、基于客戶類型和產(chǎn)品的采樣,因為很多產(chǎn)品是熱品,導致對話內容有偏,用戶類型一樣,需按照類型調整整體比例采樣。提問,為什么要這么采樣?
步驟3??.制定訓練數(shù)據(jù)集
我們直接把輸出當作 target 進行訓練。使用的 lora 訓練,但是 lora alpha 設定成為4倍的時候達到了比較好的效果,經(jīng)驗值不同任務不一樣,提問,在各種情況下要怎么調?
步驟4??.dpo訓練
問題:v1版本訓練時,很多輸出內容是對的,但是輸出的語氣不太像真人,機器人味還是很嚴重。
解決方案:由于訓練本身是有 ground truth 的,因此使用v1訓練的模型,預測訓練集,使用大模型對比兩者語氣不符合訓練集的拿出來,使用訓練集的 ground truth 和模型的預測數(shù)據(jù)作為 dpo 訓練對,對v1版本模型重新訓練。
??這里老師只是簡要進行概括解答,具體情況和詳細解答可以咨詢輔導,如果想了解項目輔導,提升面試能力,歡迎后臺聯(lián)系。
#算法# #簡歷中的項目經(jīng)歷要怎么寫# #算法崗面試# #互聯(lián)網(wǎng)大廠招聘#
全部評論
相關推薦
點贊 評論 收藏
分享