欧美1区2区3区激情无套,两个女人互添下身视频在线观看,久久av无码精品人妻系列,久久精品噜噜噜成人,末发育娇小性色xxxx

大模型面經(jīng)每日總結(jié)

BP16 和 FP16 在存儲結(jié)構(gòu)、精度表現(xiàn)、數(shù)值范圍以及適用場景方面有什么不同?

  • 訓(xùn)練時使用bf16更穩(wěn)定,表示范圍大,并且自帶隱式正則化buffer;
  • 推理時使用fp16比bf16更好,因為fp16表示精度高。 https://www.zhihu.com/question/616600181/answer/3194881239

怎么解決訓(xùn)練使用float16導(dǎo)致溢出的問題?

  • 使用 縮放因子 trick
  • 混合精度訓(xùn)練

kv-cache的作用

  • 一種緩存技術(shù),通過存儲鍵值對的形式來復(fù)用計算結(jié)果,以達到提高性能和降低內(nèi)存消耗

量化方法的分類

  • 按量化對象分:KV Cache量化、模型權(quán)重量化、激活值量化-按量化階段分:
  • 量化感知訓(xùn)練(QAT)、量化感知微調(diào)(QAF)、訓(xùn)練后量化(PTQ)【大模型常用】

AWQ 量化和 KV Cache量化 有什么不同

  • AWQ 更側(cè)重于在模型權(quán)重存儲和計算中
  • KV Cache量化 更適用于長上下文推理和并發(fā)場景參考

https://blog.51cto.com/u_15912723/12361929

常見推理框架有哪些,有什么異同

  • Slang,TensorRT,vLLM,LMDeploy 等可以從適用場景、生態(tài)、易用性,功能性進行對比 https://www.bentoml.com/blog/benchmarking-llm-inference-backends https://medium.com/better-programming/frameworks-for-serving-llms-60b7f7b23407 https://waytoagi.feishu.cn/wiki/RUI3wNlzeiF0SZkk5pWcdVfCnGc

日拱一卒~

全部評論

相關(guān)推薦

點贊 評論 收藏
分享
評論
1
16
分享

創(chuàng)作者周榜

更多
??途W(wǎng)
牛客企業(yè)服務(wù)