大模型暑期實習(xí)面經(jīng)|騰訊音樂娛樂集團 技術(shù)研究—自然語言處理
- 部門:QQ音樂
- base地:深圳
- 流程:一面+二面+三面+HR面
- 推進(jìn)速度:非??欤恳幻嬖谝恍r內(nèi)出結(jié)果
一面 50min
- 自我介紹
- 論文介紹
- 什么是MHA
- Attention運算公式
- 為什么除以根號dk
- 介紹現(xiàn)有相對位置編碼和絕對位置編碼的異同點,都有哪些結(jié)構(gòu)
- RoPE的結(jié)構(gòu)
- RoPE相比于絕對位置編碼的優(yōu)勢是什么?為什么外推性更好?
- 為什么RoPE理論上可以無限外推?
- RoPE為什么可以利用絕對位置和相對位置的優(yōu)勢?
- 介紹RAG項目(基座模型是什么?幾b ?全參微調(diào)用了多少卡?數(shù)據(jù)多大?問答對的形式有圖片嗎?
- 對RAG的理解是什么?為什么要用RAG?
- BGE模型的結(jié)構(gòu)
- 什么是LoRA?有個兩層神經(jīng)網(wǎng)絡(luò),參數(shù)1萬*一萬,低秩r =100, LoRA參數(shù)量是多少?
- 為什么用KV Cache?
- KV Cache有哪些優(yōu)化方法?
- 文生圖/圖生文結(jié)構(gòu)了解嗎?文生圖的怎么解碼的
- CLIP了解嗎?
- Deepseek MOE架構(gòu)路由機制的細(xì)節(jié)
- 場景題
- 手撕:快速排序
- 反問
二面 60min
- 自我介紹
- 論文拷打,提出質(zhì)疑
- RAG項目介紹
- 分塊的策略是什么
- PDF的表格和圖片怎么解析的?圖片和表格的信息丟失了怎么辦?
- RAG的關(guān)鍵詞檢索和重排細(xì)節(jié)
- 異構(gòu)圖方式和傳統(tǒng)的多模態(tài)拼接方式有什么性能上的改進(jìn)嗎?
- 多模態(tài)之間的特征的對齊你是怎么做的?現(xiàn)有工作怎么做的
- Prompt有什么系統(tǒng)性優(yōu)化的方法?
- 代碼:199: 二叉樹右視圖
- 簡單介紹一下Prefix Cache ? Deepseek 是怎么開啟Prefix Cache的?
- 位置編碼的作用的實現(xiàn)方式有哪些?
- LLM推理部署的時候,會用vLLM, 這主要從哪些方面提升?怎么提升的推理速度?
- 文本生成解碼策略,貪心搜索和束搜索的優(yōu)劣是什么?
- 實習(xí)時間,反問
三面 50min
- 自我介紹
- 論文拷打,細(xì)到實驗結(jié)果數(shù)據(jù)
- RAG項目400萬文字怎么分塊,索引,embedding的
- 微調(diào)的指標(biāo)和RAG的指標(biāo)是什么?ROUGE指標(biāo)怎么計算
- 評估方式是不是太簡單了,對SFT的指標(biāo)還有沒有更好的
- 項目中負(fù)責(zé)的部分
- 用的最多的GPU時間是多少
- 有做過多機多卡訓(xùn)練嗎
- 為什么去前端實習(xí)了后又轉(zhuǎn)算法
- 對未來的規(guī)劃是什么,想做什么技術(shù)
- 實驗室的方向是什么
- 大模型的預(yù)訓(xùn)練和SFT的不同是什么
- 限制大模型輸入長度的因素有哪些?
- 目前的大模型如何解決長上下文?
HR面 30min
主要問項目、規(guī)劃等,氛圍比較輕松
#大模型算法工程師##NLP##大模型##騰訊音樂26屆實習(xí)#