上海人工智能實驗室大模型算法實習面經
問的很細很深,狠狠拷打了80分鐘,這個組做LLM pretrain的,我主要會rl,nlp缺乏點,一面涼
- 自我介紹
- 項目
- 微調模型訓練數據來源?
- LORA的理解
- Ptuning和全量微調對比
- RLHF全流程
- 寫出RLHF的優(yōu)化目標公式
- 目標公式中衰減因子的作用,取大取小有什么影響?
- RLHF的目標公式可以加入什么其他的項?
- 熵正則項是如何加入的?
- KL散度理解?
- RLHF中PPO算比率相對什么來算?
- 其中對數概率的作用?
- 馬爾科夫決策過程的定義,有哪些參數變量需要考慮?
- Reward model 訓練的loss是什么?
- 模型為什么會胡言亂語?根源在哪?可以考慮如何解決?
- 模型微調會性能下降為什么還需要這一步?
- 文本數據處理到進入模型的整個過程?
- 分詞和向量化的過程?
- 模型微調過程中的調參?
- 1.8b和7b使用中的區(qū)別?選擇?
- Recall,Precision的計算
- 訓練數據量級?
- 如何把控數據質量?
- 場景題,在處理數據的時候面對有違規(guī)的語料(如黃暴內容)如何平衡Recall,Precision指標
- 對大模型整個發(fā)展趨勢如何理解?
- 你認為LLM的數據質量的關鍵在于什么?
- 算法題一,easy 考察正則表達式
- 算法題二,dp ,medium?*********
- 算法題三,棧,easy?**********