6.26一面:1.自我介紹2.介紹論文(數(shù)據(jù)集,輸入,輸出,模型架構(gòu),評測指標(biāo),創(chuàng)新點,motivation)3.transformer比rnn/lstm這些有什么好處?除了并行計算還有呢4. decoder和encoder有什么區(qū)別5. QKV怎么來的,除了selfattention還有什么attention?4.prompt為什么在大模型中起作用5.手撕:查找有序數(shù)組中小于k的最大索引(k=2, [0,1,2,3,4,5]=>result=1)6.28二面:1. 兩個地點,有一些位置和名稱還有其他信息,設(shè)計模型(模型架構(gòu)+損失函數(shù)+訓(xùn)練方法)來判斷是否它倆的距離遠(yuǎn)近2. (x,y)地點位置怎么embedding?3.歸一化有哪幾種?為什么要歸一化4.sigmoid進(jìn)入飽和區(qū)梯度變化值小,怎么解決5.多標(biāo)簽分類任務(wù)的損失函數(shù)怎么設(shè)計?6.手撕:字符串的排列發(fā)面經(jīng) dream一個oc更新一下:7.3催了一下 7.4部門面試官發(fā)了offer message ?加了微信 7.6正式郵件offer啦#滴滴#