淘天一面 暑期 一面已過
簡歷掛了三個部門(阿里和團(tuán)子,太狠了),自己在??驼胰?,又給撈起來了。
面試官人不錯,樂樂呵呵的。
先自我介紹了一下,自我介紹的面試官真不多。
稍微問了下項目,有沒有遇到什么問題等等。
DPO loss 公式?手寫。這里忘寫出sigmiod,然后ref model的位置記混了,也給過了。
logits = (policy_good_logps - reference_good_logps) - (policy_bad_logps - reference_bad_logps) loss = -F.logsigmoid(beta * logits).mean()
DPO 和 PPO 的區(qū)別?
T1:
找到有序數(shù)組中的最左邊的target 的index,二分。[1,2,2,3,4] 這樣,result_index=1.
T2:
nums 所有的子集。
回溯即可。
都不用運行,但是代碼留備份了。(QwQ)
概率題:
一個篩子,出現(xiàn)全部的六個面,需要投擲幾次?
反問:
推薦系統(tǒng)已經(jīng)很發(fā)達(dá)了,現(xiàn)在還能干啥?(技術(shù)紅利巴巴,總會有技術(shù)紅利的巴巴。)
推薦大模型是啥?(淘寶公眾號有,自己看。)大概就是輸入用戶的文本描述prompt,輸出item文本。
有什么建議?打了個哈哈,問下實習(xí)多久,說挺好的。沒啥建議。
我進(jìn)去后干啥?AIGC相關(guān),淘寶的圖像視頻生成,怎么吸引顧客。
問了有幾面,說兩輪技術(shù),一輪hr。(最好是,別整三輪技術(shù)了真的。)
最后許愿字節(jié)oc!