聊聊怎樣通過實習(xí),直通多個“人才計劃”
背景:
樓主是25屆的應(yīng)屆生,國內(nèi)計算機(jī)985本碩,目前在可靈大模型團(tuán)隊的數(shù)字人小組實習(xí)。非常榮幸參與了前陣子爆爆爆火??的可控人像視頻生成開源項目LivePortrait。LivePortrait已經(jīng)在可控人像視頻生成與編輯子方向建立了良好的生態(tài),我陪伴了這個項目從發(fā)布,到現(xiàn)在取得HugginFace?? 150W+人次訪問、GitHub 1.2W??的成績,社區(qū)二次開發(fā)者貢獻(xiàn)了多個數(shù)百上千??的項目,引導(dǎo)了良好的社區(qū)生態(tài)發(fā)展,多家競品或者創(chuàng)業(yè)公司基于LivePortrait上線了一些業(yè)務(wù)或者做產(chǎn)品化。我也是借著本項目的“威風(fēng)”,在25屆秋招中拿到了多個人才計劃的入場券,在秋招路上一帆風(fēng)順。
LivePortrait的成功離不開團(tuán)隊的各位同學(xué)對AI技術(shù)的深刻思考,以及整個團(tuán)隊在維護(hù)本項目,提升用戶體驗上做出的努力,我將以一名實習(xí)同學(xué)的角度談?wù)勎以诒卷椖恐械睦斫馀c收獲,歡迎點贊、評論、收藏??。
思考與決策:
我的mentor是本項目的領(lǐng)導(dǎo)者和第一完成人?。ㄅ2慌?!你就說牛不牛?。?/span>
我非常佩服他敏銳的判斷與決策:目前在人像視頻生成領(lǐng)域,擴(kuò)散模型占據(jù)了主導(dǎo)地位,如騰訊的AniPortrait、字節(jié)的X-Portrait和曠視的MegActor等一系列工作都采用了類似的框架。我們認(rèn)為一項新技術(shù)脫穎而出的關(guān)鍵在于與其他已有技術(shù)的差異化,眾所周知,擴(kuò)散模型對計算資源有著較重的依賴,這個問題在視頻生成領(lǐng)域被嚴(yán)重放大。開源社區(qū)的絕大部分普通用戶沒有那么好的GPU,等待一個視頻生成的過程是痛苦且漫長的,甚至因為大顯存需求望而卻步。我們決定與當(dāng)前主流的擴(kuò)散模型方法背道而馳,探索基于隱式關(guān)鍵點GAN框架的潛力,以找到模型計算效率和可控性的平衡。
這個決策是絕對正確的,我們讓許多只有4G/8G顯存消費級顯卡的用戶也體驗到了視頻生成技術(shù),LivePortrait的部分支持者來自于這一群體。
技術(shù)要點:
LivePortrait選擇了著名的隱式關(guān)鍵點框架Face Vid2vid作為基礎(chǔ),在此之上做了一系列改進(jìn),在此我挑幾點做簡要介紹,歡迎感興趣的大佬到論文查詢更多細(xì)節(jié)。
第一階段訓(xùn)練框架
第一階段訓(xùn)練數(shù)據(jù)和訓(xùn)練策略:
LivePortrait的總訓(xùn)練數(shù)據(jù)有69M視頻幀,包含18.9K身份和60K靜態(tài)風(fēng)格化人像。其中包括公開視頻數(shù)據(jù)集Voxceleb,MEAD,RAVDESS和風(fēng)格化圖片數(shù)據(jù)集AAHQ、一個私有的數(shù)據(jù)集LightStage,以及一些風(fēng)格化的視頻和圖片。此外,還使用了200余小時的4K分辨率的人像視頻,其中包含不同的表情和姿態(tài)。我們將長視頻分割成少于30秒的片段,并確保每個片段只包含一個人。為了保證訓(xùn)練數(shù)據(jù)的質(zhì)量,我們使用了KVQ算法(快手自研的視頻質(zhì)量評估方法,能夠綜合感知視頻的質(zhì)量、內(nèi)容、場景、美學(xué)、編碼、音頻等特征,執(zhí)行多維度評價)來過濾低質(zhì)量的視頻片段。 ??
僅使用真人人像視頻訓(xùn)練的模型對于真人人像表現(xiàn)良好,但對風(fēng)格化人像(例如動漫)的泛化能力不足。風(fēng)格化視頻數(shù)據(jù)較為稀有,我們從不到100個身份中收集了僅約1.3K視頻片段,相比之下,高質(zhì)量的風(fēng)格化人像圖片更為豐富,我們收集了大約60K身份互異的圖片。為了利用這兩種數(shù)據(jù)類型,我們將每張圖片視為一幀視頻片段,并同時在視頻和圖片上訓(xùn)練模型。這種混合訓(xùn)練提升了模型的泛化能力。
第二階段貼合和重定向模塊訓(xùn)練:
我們將隱式關(guān)鍵點視為隱式變形組合,并發(fā)現(xiàn)這種組合可以通過一個輕量級的 MLP 進(jìn)行有效學(xué)習(xí)。為滿足實際需求,我們設(shè)計了貼合、眼部重定向和嘴部重定向模塊。貼合模塊用于避免裁切圖像反貼回原始空間時的像素錯位問題,如肩膀區(qū)域錯位。這樣,LivePortrait 能夠驅(qū)動更大尺寸的圖片或多人合照。眼部重定向模塊解決了跨身份驅(qū)動時眼睛閉合不完全的問題,尤其是小眼睛驅(qū)動大眼睛時。嘴部重定向模塊的設(shè)計與眼部類似。
第二階段訓(xùn)練框架
在訓(xùn)練時我們跨身份訓(xùn)練貼合模塊,以提高泛化性,并在反貼過程中保持像素一致性,尤其是肩膀區(qū)域。眼部和嘴部重定向模塊根據(jù)輸入條件調(diào)整眼/嘴的張開程度,確保驅(qū)動過程中的視覺一致性,它們的變化量是獨立的,推理時可以結(jié)合并更新隱式關(guān)鍵點。
維護(hù):
我們一鍵三連地發(fā)布了論文、主頁和代碼后,短時間內(nèi)收到了用戶大量issues,郵箱處于爆炸的狀態(tài),我們非常耐心地復(fù)現(xiàn)著用戶提到的每一個bug,并做出禮貌又及時的回復(fù);我們嚴(yán)格把控每一次commit的質(zhì)量與規(guī)范,以及對社區(qū)開發(fā)者們的PR測試審查。
我們還建立了一個文檔,收集了用戶的高頻新功能需求,其中包括多操作系統(tǒng)支持、視頻編輯、一鍵整合包、支持動物編輯等等,我們對這些需求進(jìn)行優(yōu)先級排列,排好了日程表。我們常常為了一個新功能發(fā)布ddl在公司熬到凌晨,我們不斷兌現(xiàn)了一個又一個對用戶的承諾...
還記得有一次,我們收到了大量Windows用戶的錯誤反饋,以及對環(huán)境安裝成本過高的抱怨。因為手上沒有Windows的GPU機(jī)器,我的mentor二話不說拉上了小推車帶著我到別的辦公樓去借一臺高性能的Windows機(jī)器...不久后我們推出了傻瓜也會使用的Windows一鍵包,無需安裝任何環(huán)境雙擊即可運行項目,收到了用戶大量好評,國內(nèi)AI自媒體大V卡茲克也為此寫下了積極的評價。
未來計劃:
LivePortrait目前支持i2i/i2v/v2v多種驅(qū)動效果,我們注意到許多用戶對audio驅(qū)動能力的關(guān)注。其中Talking Head領(lǐng)域的一些方法,例如阿里的EMO和字節(jié)的Loopy等能夠?qū)崿F(xiàn)這個功能,我們目前也在探索并提升在LivePortrait框架下audio驅(qū)動效果,同時也歡迎各位對LivePortrait有興趣的大佬們來探索LivePortrait更多玩法,共建更好的生態(tài)。
我的分享到這里就結(jié)束了,最后,非常感謝我的mentor和我的團(tuán)隊帶我參與了這個項目,同時也非常歡迎各位對技術(shù)有熱情的同學(xué)加入快手,加入可靈大模型團(tuán)隊,得到歷練和成長,給大家附上我的內(nèi)推碼,內(nèi)推碼:RGrzyPsBE,專屬內(nèi)推鏈接:https://campus.kuaishou.cn/#/campus/jobs?code=RGrzyPsBE 祝大佬們秋招春招實習(xí)順利??!
#快手校招#