大廠面經(jīng)|字節(jié)大模型算法崗
?一面
1??深挖多模態(tài)論文
2??介紹transformer架構(gòu)
3??詳細(xì)說一下Decoder的因果注意力 QKV分別來自哪
4??Attention為什么要做scaled 不做會怎么樣 為什么用根號d_k
5??Transformer怎么做加速訓(xùn)練(KV緩存) 訓(xùn)練和推理有什么區(qū)別(并行化)
6??深挖多模態(tài)大模型論文用的video-llama 講一下大模型的結(jié)構(gòu)
7??論文用了CoT講一下論文的CoT是怎么樣的
8??微調(diào)用的LoRA介紹一下LoRA
9??LoRA初始化怎么做的,用的秩是多少,為什么不選其他的數(shù)
1??0??知道deepspeed和megatron嗎?分別介紹一下
1??1??論文用的deepspeed詳細(xì)講了一下三個stage分別是什么
?二面
1??深挖多模態(tài)和大模型的論文
2??Decoder文本生成有哪幾種方法
3??還知道哪些多模態(tài)大模型
4??介紹一下ALBEF、BLIP
5??BLIP2的結(jié)構(gòu)是什么 兩階段怎么訓(xùn)練的 有哪些損失
6??知道PEFT嗎 講一下LoRA
7??還有什么微調(diào)方法 -> prefix-tuning和P-tuning 兩者分別是怎么做的 為了解決什么提出的
8??后面就是一些場景題
?三面
1??深挖論文
2??講一下multi-head attention 用pytorch手撕一下 要可以實現(xiàn)cross attention的
3??講一下你用的大模型是什么結(jié)構(gòu) 特征是怎么喂給大模型的
4??大模型訓(xùn)練為什么不用SFT
5??LoRA是什么?有什么好處
6??知道RLHF嗎?講一下訓(xùn)練流程
7??接下來就是好幾個場景題,電商相關(guān)的,用大模型解決prompt應(yīng)該怎么設(shè)計,怎么處理prompt的輸出,怎么過濾錯誤格式的輸出
??對于想求職算法崗的同學(xué),如果想?yún)⒓痈哔|(zhì)量項目輔導(dǎo),提升面試能力,歡迎后臺聯(lián)系。
1??深挖多模態(tài)論文
2??介紹transformer架構(gòu)
3??詳細(xì)說一下Decoder的因果注意力 QKV分別來自哪
4??Attention為什么要做scaled 不做會怎么樣 為什么用根號d_k
5??Transformer怎么做加速訓(xùn)練(KV緩存) 訓(xùn)練和推理有什么區(qū)別(并行化)
6??深挖多模態(tài)大模型論文用的video-llama 講一下大模型的結(jié)構(gòu)
7??論文用了CoT講一下論文的CoT是怎么樣的
8??微調(diào)用的LoRA介紹一下LoRA
9??LoRA初始化怎么做的,用的秩是多少,為什么不選其他的數(shù)
1??0??知道deepspeed和megatron嗎?分別介紹一下
1??1??論文用的deepspeed詳細(xì)講了一下三個stage分別是什么
?二面
1??深挖多模態(tài)和大模型的論文
2??Decoder文本生成有哪幾種方法
3??還知道哪些多模態(tài)大模型
4??介紹一下ALBEF、BLIP
5??BLIP2的結(jié)構(gòu)是什么 兩階段怎么訓(xùn)練的 有哪些損失
6??知道PEFT嗎 講一下LoRA
7??還有什么微調(diào)方法 -> prefix-tuning和P-tuning 兩者分別是怎么做的 為了解決什么提出的
8??后面就是一些場景題
?三面
1??深挖論文
2??講一下multi-head attention 用pytorch手撕一下 要可以實現(xiàn)cross attention的
3??講一下你用的大模型是什么結(jié)構(gòu) 特征是怎么喂給大模型的
4??大模型訓(xùn)練為什么不用SFT
5??LoRA是什么?有什么好處
6??知道RLHF嗎?講一下訓(xùn)練流程
7??接下來就是好幾個場景題,電商相關(guān)的,用大模型解決prompt應(yīng)該怎么設(shè)計,怎么處理prompt的輸出,怎么過濾錯誤格式的輸出
??對于想求職算法崗的同學(xué),如果想?yún)⒓痈哔|(zhì)量項目輔導(dǎo),提升面試能力,歡迎后臺聯(lián)系。
全部評論
相關(guān)推薦
點贊 評論 收藏
分享