大模型面經(jīng)每日總結(jié)
BP16 和 FP16 在存儲結(jié)構(gòu)、精度表現(xiàn)、數(shù)值范圍以及適用場景方面有什么不同?
- 訓(xùn)練時使用bf16更穩(wěn)定,表示范圍大,并且自帶隱式正則化buffer;
- 推理時使用fp16比bf16更好,因為fp16表示精度高。 https://www.zhihu.com/question/616600181/answer/3194881239
怎么解決訓(xùn)練使用float16導(dǎo)致溢出的問題?
- 使用 縮放因子 trick
- 混合精度訓(xùn)練
kv-cache的作用
- 一種緩存技術(shù),通過存儲鍵值對的形式來復(fù)用計算結(jié)果,以達到提高性能和降低內(nèi)存消耗
量化方法的分類
- 按量化對象分:KV Cache量化、模型權(quán)重量化、激活值量化-按量化階段分:
- 量化感知訓(xùn)練(QAT)、量化感知微調(diào)(QAF)、訓(xùn)練后量化(PTQ)【大模型常用】
AWQ 量化和 KV Cache量化 有什么不同
- AWQ 更側(cè)重于在模型權(quán)重存儲和計算中
- KV Cache量化 更適用于長上下文推理和并發(fā)場景參考
https://blog.51cto.com/u_15912723/12361929
常見推理框架有哪些,有什么異同
- Slang,TensorRT,vLLM,LMDeploy 等可以從適用場景、生態(tài)、易用性,功能性進行對比 https://www.bentoml.com/blog/benchmarking-llm-inference-backends https://medium.com/better-programming/frameworks-for-serving-llms-60b7f7b23407 https://waytoagi.feishu.cn/wiki/RUI3wNlzeiF0SZkk5pWcdVfCnGc
日拱一卒~