作業(yè)幫提前批 解題方向 二面面經(jīng)
1.自我介紹
2.拷打?qū)嵙?xí)
3.給一個(gè)huggingface的模型的config算一下我下載下來需要多少磁盤空間(就是假設(shè)一下模型的結(jié)構(gòu),層數(shù),維度什么的都用參數(shù)代替,算一下參數(shù)量,再轉(zhuǎn)實(shí)際大?。?br />4.前向推理的時(shí)候,attention的計(jì)算量/時(shí)間復(fù)雜度(簡(jiǎn)單的給分析了一下,算了個(gè)大概)
5.softmax的時(shí)間復(fù)雜度
6.flash attention計(jì)算的時(shí)候?yàn)槭裁疵總€(gè)塊都要減去最大值(這塊答的不太對(duì),我確實(shí)沒仔細(xì)思考過這個(gè)問題
)
7.實(shí)習(xí)有沒有做LLM 強(qiáng)化學(xué)習(xí)的研究/實(shí)驗(yàn)(答基本上研究DPO系列了,比較方便應(yīng)用,學(xué)校項(xiàng)目訓(xùn)練過RM)
8.手撕 給定嚴(yán)格遞增序列,求最大斐波那契子序列的長(zhǎng)度
面試官感覺水平挺高的,今天感覺回答的不是很好,整體有點(diǎn)磕絆,希望能過吧,孩子真的很需要第一個(gè)offer


-------------
更新,剛寫完這篇打電話約HR面了,我去第一次秒過!
2.拷打?qū)嵙?xí)
3.給一個(gè)huggingface的模型的config算一下我下載下來需要多少磁盤空間(就是假設(shè)一下模型的結(jié)構(gòu),層數(shù),維度什么的都用參數(shù)代替,算一下參數(shù)量,再轉(zhuǎn)實(shí)際大?。?br />4.前向推理的時(shí)候,attention的計(jì)算量/時(shí)間復(fù)雜度(簡(jiǎn)單的給分析了一下,算了個(gè)大概)
5.softmax的時(shí)間復(fù)雜度
6.flash attention計(jì)算的時(shí)候?yàn)槭裁疵總€(gè)塊都要減去最大值(這塊答的不太對(duì),我確實(shí)沒仔細(xì)思考過這個(gè)問題
7.實(shí)習(xí)有沒有做LLM 強(qiáng)化學(xué)習(xí)的研究/實(shí)驗(yàn)(答基本上研究DPO系列了,比較方便應(yīng)用,學(xué)校項(xiàng)目訓(xùn)練過RM)
8.手撕 給定嚴(yán)格遞增序列,求最大斐波那契子序列的長(zhǎng)度
面試官感覺水平挺高的,今天感覺回答的不是很好,整體有點(diǎn)磕絆,希望能過吧,孩子真的很需要第一個(gè)offer
-------------
更新,剛寫完這篇打電話約HR面了,我去第一次秒過!
全部評(píng)論
校友贏麻了

問 flash att 是因?yàn)楹?jiǎn)歷上有嗎? 我都沒咋復(fù)習(xí)過推理訓(xùn)練框架相關(guān)的東西。今天剛作業(yè)幫 HR 面完。

我超,***了,經(jīng)提醒,才發(fā)現(xiàn)面試官其實(shí)就是想問為什么softmax要減去最大值,為了防止值溢出,確實(shí)是常規(guī)softmax實(shí)現(xiàn)的時(shí)候都操作

,我一直在想為什么flash attention要這樣操作,淦!
相關(guān)推薦
點(diǎn)贊 評(píng)論 收藏
分享
點(diǎn)贊 評(píng)論 收藏
分享