2024-11-07 21:17 已編輯北京理工大學(xué) 算法工程師發(fā)布于北京

關(guān)注

聊聊怎樣通過實習(xí)，直通多個“人才計劃”

背景：

樓主是25屆的應(yīng)屆生，國內(nèi)計算機(jī)985本碩，目前在可靈大模型團(tuán)隊的數(shù)字人小組實習(xí)。非常榮幸參與了前陣子爆爆爆火??的可控人像視頻生成開源項目LivePortrait。LivePortrait已經(jīng)在可控人像視頻生成與編輯子方向建立了良好的生態(tài)，我陪伴了這個項目從發(fā)布，到現(xiàn)在取得HugginFace?? 150W+人次訪問、GitHub 1.2W??的成績，社區(qū)二次開發(fā)者貢獻(xiàn)了多個數(shù)百上千??的項目，引導(dǎo)了良好的社區(qū)生態(tài)發(fā)展，多家競品或者創(chuàng)業(yè)公司基于LivePortrait上線了一些業(yè)務(wù)或者做產(chǎn)品化。我也是借著本項目的“威風(fēng)”，在25屆秋招中拿到了多個人才計劃的入場券，在秋招路上一帆風(fēng)順。

LivePortrait的成功離不開團(tuán)隊的各位同學(xué)對AI技術(shù)的深刻思考，以及整個團(tuán)隊在維護(hù)本項目，提升用戶體驗上做出的努力，我將以一名實習(xí)同學(xué)的角度談?wù)勎以诒卷椖恐械睦斫馀c收獲，歡迎點贊、評論、收藏??。

思考與決策：

我的mentor是本項目的領(lǐng)導(dǎo)者和第一完成人?。ㄅ２慌?！你就說牛不牛?。?/span>

我非常佩服他敏銳的判斷與決策：目前在人像視頻生成領(lǐng)域，擴(kuò)散模型占據(jù)了主導(dǎo)地位，如騰訊的AniPortrait、字節(jié)的X-Portrait和曠視的MegActor等一系列工作都采用了類似的框架。我們認(rèn)為一項新技術(shù)脫穎而出的關(guān)鍵在于與其他已有技術(shù)的差異化，眾所周知，擴(kuò)散模型對計算資源有著較重的依賴，這個問題在視頻生成領(lǐng)域被嚴(yán)重放大。開源社區(qū)的絕大部分普通用戶沒有那么好的GPU，等待一個視頻生成的過程是痛苦且漫長的，甚至因為大顯存需求望而卻步。我們決定與當(dāng)前主流的擴(kuò)散模型方法背道而馳，探索基于隱式關(guān)鍵點GAN框架的潛力，以找到模型計算效率和可控性的平衡。

這個決策是絕對正確的，我們讓許多只有4G/8G顯存消費級顯卡的用戶也體驗到了視頻生成技術(shù)，LivePortrait的部分支持者來自于這一群體。

技術(shù)要點：

LivePortrait選擇了著名的隱式關(guān)鍵點框架Face Vid2vid作為基礎(chǔ)，在此之上做了一系列改進(jìn)，在此我挑幾點做簡要介紹，歡迎感興趣的大佬到論文查詢更多細(xì)節(jié)。

第一階段訓(xùn)練框架

第一階段訓(xùn)練數(shù)據(jù)和訓(xùn)練策略：

LivePortrait的總訓(xùn)練數(shù)據(jù)有69M視頻幀，包含18.9K身份和60K靜態(tài)風(fēng)格化人像。其中包括公開視頻數(shù)據(jù)集Voxceleb，MEAD，RAVDESS和風(fēng)格化圖片數(shù)據(jù)集AAHQ、一個私有的數(shù)據(jù)集LightStage，以及一些風(fēng)格化的視頻和圖片。此外，還使用了200余小時的4K分辨率的人像視頻，其中包含不同的表情和姿態(tài)。我們將長視頻分割成少于30秒的片段，并確保每個片段只包含一個人。為了保證訓(xùn)練數(shù)據(jù)的質(zhì)量，我們使用了KVQ算法（快手自研的視頻質(zhì)量評估方法，能夠綜合感知視頻的質(zhì)量、內(nèi)容、場景、美學(xué)、編碼、音頻等特征，執(zhí)行多維度評價）來過濾低質(zhì)量的視頻片段。 ??

僅使用真人人像視頻訓(xùn)練的模型對于真人人像表現(xiàn)良好，但對風(fēng)格化人像（例如動漫）的泛化能力不足。風(fēng)格化視頻數(shù)據(jù)較為稀有，我們從不到100個身份中收集了僅約1.3K視頻片段，相比之下，高質(zhì)量的風(fēng)格化人像圖片更為豐富，我們收集了大約60K身份互異的圖片。為了利用這兩種數(shù)據(jù)類型，我們將每張圖片視為一幀視頻片段，并同時在視頻和圖片上訓(xùn)練模型。這種混合訓(xùn)練提升了模型的泛化能力。

第二階段貼合和重定向模塊訓(xùn)練：

我們將隱式關(guān)鍵點視為隱式變形組合，并發(fā)現(xiàn)這種組合可以通過一個輕量級的 MLP 進(jìn)行有效學(xué)習(xí)。為滿足實際需求，我們設(shè)計了貼合、眼部重定向和嘴部重定向模塊。貼合模塊用于避免裁切圖像反貼回原始空間時的像素錯位問題，如肩膀區(qū)域錯位。這樣，LivePortrait 能夠驅(qū)動更大尺寸的圖片或多人合照。眼部重定向模塊解決了跨身份驅(qū)動時眼睛閉合不完全的問題，尤其是小眼睛驅(qū)動大眼睛時。嘴部重定向模塊的設(shè)計與眼部類似。

第二階段訓(xùn)練框架

在訓(xùn)練時我們跨身份訓(xùn)練貼合模塊，以提高泛化性，并在反貼過程中保持像素一致性，尤其是肩膀區(qū)域。眼部和嘴部重定向模塊根據(jù)輸入條件調(diào)整眼/嘴的張開程度，確保驅(qū)動過程中的視覺一致性，它們的變化量是獨立的，推理時可以結(jié)合并更新隱式關(guān)鍵點。

維護(hù)：

我們一鍵三連地發(fā)布了論文、主頁和代碼后，短時間內(nèi)收到了用戶大量issues，郵箱處于爆炸的狀態(tài)，我們非常耐心地復(fù)現(xiàn)著用戶提到的每一個bug，并做出禮貌又及時的回復(fù)；我們嚴(yán)格把控每一次commit的質(zhì)量與規(guī)范，以及對社區(qū)開發(fā)者們的PR測試審查。

我們還建立了一個文檔，收集了用戶的高頻新功能需求，其中包括多操作系統(tǒng)支持、視頻編輯、一鍵整合包、支持動物編輯等等，我們對這些需求進(jìn)行優(yōu)先級排列，排好了日程表。我們常常為了一個新功能發(fā)布ddl在公司熬到凌晨，我們不斷兌現(xiàn)了一個又一個對用戶的承諾...

還記得有一次，我們收到了大量Windows用戶的錯誤反饋，以及對環(huán)境安裝成本過高的抱怨。因為手上沒有Windows的GPU機(jī)器，我的mentor二話不說拉上了小推車帶著我到別的辦公樓去借一臺高性能的Windows機(jī)器...不久后我們推出了傻瓜也會使用的Windows一鍵包，無需安裝任何環(huán)境雙擊即可運行項目，收到了用戶大量好評，國內(nèi)AI自媒體大V卡茲克也為此寫下了積極的評價。

未來計劃：

LivePortrait目前支持i2i/i2v/v2v多種驅(qū)動效果，我們注意到許多用戶對audio驅(qū)動能力的關(guān)注。其中Talking Head領(lǐng)域的一些方法，例如阿里的EMO和字節(jié)的Loopy等能夠?qū)崿F(xiàn)這個功能，我們目前也在探索并提升在LivePortrait框架下audio驅(qū)動效果，同時也歡迎各位對LivePortrait有興趣的大佬們來探索LivePortrait更多玩法，共建更好的生態(tài)。

我的分享到這里就結(jié)束了，最后，非常感謝我的mentor和我的團(tuán)隊帶我參與了這個項目，同時也非常歡迎各位對技術(shù)有熱情的同學(xué)加入快手，加入可靈大模型團(tuán)隊，得到歷練和成長，給大家附上我的內(nèi)推碼，內(nèi)推碼：RGrzyPsBE，專屬內(nèi)推鏈接：https://campus.kuaishou.cn/#/campus/jobs?code=RGrzyPsBE 祝大佬們秋招春招實習(xí)順利??！

#快手校招#

全部評論

推薦最新樓層

周子晞

西南財經(jīng)大學(xué) 管理咨詢

非常羨慕你有這么棒的實習(xí)經(jīng)歷，自己作為非工科出身，很想要有技術(shù)加持，但也知道這學(xué)習(xí)得來會很不容易，棒棒噠??，可靈大模型團(tuán)隊好厲害，有這么一個高水平的隊伍，怎么會不愁沒有提升呢，希望自己在以后的實習(xí)中像你一樣，學(xué)習(xí)到很多東西，一步步成長為想成為的那個人

1 回復(fù) 分享

發(fā)布于 2024-09-29 20:42 四川

klossybao

北京理工大學(xué) 算法工程師

你好想問下組內(nèi)目前還招日常實習(xí)生嗎

點贊回復(fù) 分享

發(fā)布于 2024-11-20 22:11 北京

沒有offer別哭好嗎

滴滴出行_做夢中(實習(xí)員工)

9??

點贊回復(fù) 分享

發(fā)布于 2024-09-26 19:51 廣東

?？?28351822號

太強(qiáng)了佬

點贊回復(fù) 分享

發(fā)布于 2024-09-26 10:40 北京

嗎嘍大大王

復(fù)旦大學(xué) 算法工程師

大佬666

點贊回復(fù) 分享

發(fā)布于 2024-09-25 20:56 北京

noreasonhhhh

西北工業(yè)大學(xué) 算法工程師

轉(zhuǎn)正了嗎你

點贊回復(fù) 分享

發(fā)布于 2024-09-25 12:31 陜西

彼岸之櫻

三峽大學(xué) Java

您吉祥

點贊回復(fù) 分享

發(fā)布于 2024-09-25 11:45 湖北

OffersGettttt

浙江女子專修學(xué)院 C++

大佬

點贊回復(fù) 分享

發(fā)布于 2024-09-25 11:25 上海

小白想去夏威夷

深圳大學(xué) Java

慕了

點贊回復(fù) 分享

發(fā)布于 2024-09-25 11:19 廣東

好奇的小太陽年薪百萬

湖南大學(xué) 算法工程師

太牛了佬

點贊回復(fù) 分享

發(fā)布于 2024-09-25 11:12 湖南

積極的哈里上岸了么

江蘇大學(xué) Java

哈哈這個圖好魔性

點贊回復(fù) 分享

發(fā)布于 2024-09-25 11:09 江蘇

04-23 18:37

中國人民大學(xué) 運營

小白使用Cursor感受分享

寶子們！聽我一句掏心窩的話 —— 用 Cursor 寫 App 這十幾天，我簡直像坐過山車一樣！從剛開始像拆盲盒似的好奇，到半夜敲代碼敲得眼睛冒光的興奮，再到凌晨三點還在跟 AI 較勁的亢奮…… 現(xiàn)在整個人就是大寫的累！咱小白用這玩意兒真的得悠著點，千萬別學(xué)我像追劇似的停不下來啊！每天早上起來先給自己列個「今日必搞定清單」，—— 今天就死磕用戶注冊頁，其他功能就算在腦子里蹦迪也先按??！見好就收特別重要！比如寫到下午四點，哪怕還差個按鈕沒調(diào)圓角，也果斷存盤關(guān)電腦！最后說句掏心窩的：敲代碼真的是腦力體力雙拼！這幾天眼干眼澀不說，頸椎比趕 due 時還硬…… 建議大家備點蒸汽眼罩和小零食，累了就起身...

一小木：我也用了好幾天了，開了pro，剛開始確實覺得它很牛，感覺很驚訝，現(xiàn)在越來越覺得它是真蠢，如果小白使用真的特心累，一個錯誤你讓它改10遍它還是犯錯的那種

我的AI電子員工

點贊評論收藏

04-23 22:41

中國礦業(yè)大學(xué) 語音/視頻/圖形開發(fā)

C/C++音視頻開發(fā)初學(xué)者求大佬指點

目前是研0，雙2碩，打算學(xué)習(xí)C/C++音視頻開發(fā)，正在補(bǔ)C++新特性、stl等，想問問學(xué)習(xí)路線，就業(yè)建議或者其他你覺得對我有用的。研究生導(dǎo)師方向是深度學(xué)習(xí)，要不要結(jié)合深度學(xué)習(xí)做點音視頻相關(guān)？感謝

某公司一顆釘子：看看下面這幾個視頻，包含音視頻學(xué)習(xí)路線、就業(yè)建議、音視頻項目等音視頻學(xué)習(xí)路線：https://www.bilibili.com/video/BV138DoY7E74/ 音視頻就業(yè)建議：https://www.bilibili.com/video/BV1VhmbYwEz7/ 播放器項目：https://www.bilibili.com/video/BV1NdLEzQExH/ QT播放器項目：https://www.bilibili.com/video/BV1geAZe2Ek3/ 推拉流項目：https://www.bilibili.com/video/BV1ZVNVeuEk1/ 流媒體服務(wù)器項目：https://www.bilibili.com/video/BV1v64y1K7s5/

點贊評論收藏