4個(gè)驚艷的AI項(xiàng)目,開(kāi)源了!
大家好,今天繼續(xù)聊聊科技圈發(fā)生的那些事。
三維參數(shù)導(dǎo)引下可控一致的人體圖像動(dòng)畫(huà)生成項(xiàng)目。只需要一張照片,就能讓照片里的人物動(dòng)起來(lái)。
給出一個(gè)動(dòng)作視頻,Champ 可以讓不同的人像復(fù)刻出相同的動(dòng)作。
我們先來(lái)看看真實(shí)人物照片的效果:
而在虛擬人物和不同風(fēng)格的照片下,Champ 也有不錯(cuò)的表現(xiàn):
項(xiàng)目主要依靠于人體網(wǎng)格恢復(fù)模型,從輸入視頻中提取參數(shù)化三維人體網(wǎng)格模型 SMPL 序列,渲染不同的信息控制視頻的生成。
在項(xiàng)目的框架圖中,我們可以看到,Champ 采用了一個(gè)多層運(yùn)動(dòng)融合模塊(MLMF),通過(guò)深度、骨骼、蒙版、法線、語(yǔ)義幾項(xiàng)信息控制視頻的細(xì)節(jié)生成,使其更加真實(shí)靈動(dòng)。這五項(xiàng)信息,也可以通過(guò) 節(jié)點(diǎn)的示例工作流生成。
另外,Champ 利用 SMPL 保持了生成視頻中人物體型的一致。通過(guò)對(duì)齊體型參數(shù),Champ 在保持人物的體態(tài)和動(dòng)作方面超過(guò)了其他 SOTA 工作。
效果比較
項(xiàng)目提供了體驗(yàn) demo,如果需要本地部署,會(huì)根據(jù)所生成的分辨率占用顯存,分辨率越高,顯存占用越大,需要一定硬件支持,感興趣的小伙伴也可以試試分段生成。
項(xiàng)目地址:
https://github.com/fudan-generative-vision/champ
基于視覺(jué)條件并行去噪的無(wú)限長(zhǎng)度和高保真虛擬人視頻生成項(xiàng)目。
在這個(gè)項(xiàng)目里,我們能看到:
而作為虛擬人視頻生成項(xiàng)目,MuseV 在生成場(chǎng)景的方面也有不錯(cuò)的表現(xiàn)。
MuseV 支持以下幾種生成方式:圖像到視頻、文本到圖像到視頻、視頻到視頻。另外,它還能兼容 Stable Diffusion 的生態(tài)系統(tǒng)。
并行去噪
對(duì)于當(dāng)前的生成方案,如果不對(duì)齊視頻和圖像的首幀條件,首幀的信息可能會(huì)被破壞,所以 MuseV 一般有如下的使用流程:
由于訓(xùn)練數(shù)據(jù)類型有限,MuseV 在較低分辨率下具有更大的動(dòng)作范圍,但視頻質(zhì)量較低;在高分辨率下,畫(huà)質(zhì)更好、但動(dòng)作范圍較小??赡苓€需要使用更多類型的數(shù)據(jù)進(jìn)行訓(xùn)練,如高質(zhì)量、高分辨率的視頻數(shù)據(jù)集。
在近期的更新中,作者團(tuán)隊(duì)更新了 Huggingface 的 GUI ,可以在線進(jìn)行體驗(yàn)。
Huggingface地址:
https://huggingface.co/spaces/AnchorFake/MuseVDemo
作者團(tuán)隊(duì)的主頁(yè)上還說(shuō)到,他們即將發(fā)布的 MuseTalk(一個(gè)實(shí)時(shí)高質(zhì)量的唇同步模型,在 MuseV 項(xiàng)目的主頁(yè)也已經(jīng)給出演示 demo 了)可與 MuseV 配合使用,生成的效果會(huì)更好,可以期待一手。
項(xiàng)目地址:
https://github.com/TMElyralab/MuseV
一個(gè)具有分解雙分支擴(kuò)散的圖像修復(fù)模型。對(duì)于畫(huà)面上的 Mask 區(qū)域(蒙版,存在缺失的部分),BrushNet 可以對(duì)其進(jìn)行修復(fù)。此外,BrushNet 對(duì)于任何已經(jīng)預(yù)先訓(xùn)練好的擴(kuò)散模型都可以實(shí)現(xiàn)“即插即用”。
效果展示
模型在給定蒙版和蒙版圖像輸入的情況下輸出一個(gè)未繪制的圖像。首先,對(duì)掩模進(jìn)行下采樣以適應(yīng)潛空間的大小,并將掩模圖像輸入 VAE 編碼器以對(duì)齊潛在空間的分布。然后,將噪聲潛伏、掩碼圖像潛伏和下采樣掩碼連接起來(lái)作為輸入。接下來(lái)從模型中提取特征,特征去噪后,生成的圖像和蒙版圖像與模糊蒙版混合,生成圖像。
BrushNet 不會(huì)修改預(yù)訓(xùn)練的擴(kuò)散模型的權(quán)重,可以實(shí)現(xiàn)保存尺度調(diào)整,也可以進(jìn)一步自定義非 Mask 區(qū)域的保存比例。這使得 BrushNet 具有很強(qiáng)的靈活性,實(shí)現(xiàn)即插即用。
作者團(tuán)隊(duì)還展示了將 BrushNet 與不同的擴(kuò)散模型相結(jié)合的能力,其中有:
不同模型下的效果
根據(jù)用戶個(gè)人的需求,可以靈活選用已經(jīng)訓(xùn)練好的 SD 模型進(jìn)行集成,只需要選擇自己滿意的效果即可。
項(xiàng)目地址:
https://github.com/TencentARC/BrushNet
這是一款開(kāi)源的爬蟲(chóng)項(xiàng)目,用于爬取小紅書(shū)、抖音、快手、B站、微博的視頻、圖片、評(píng)論、點(diǎn)贊、轉(zhuǎn)發(fā)等信息。
MediaCrawler 基于 playwright 庫(kù)搭橋,保留登錄成功后的上下文瀏覽器環(huán)境,通過(guò)執(zhí)行 JS 表達(dá)式獲取一些加密參數(shù)。通過(guò)這樣的方式,免去了復(fù)現(xiàn)核心加密 JS 代碼,逆向難度大大降低。在 Python 環(huán)境下搭建項(xiàng)目也使得這個(gè)項(xiàng)目的可擴(kuò)展性大大提升,潛力無(wú)限。
該項(xiàng)目有以下三種登錄態(tài):
作者也對(duì)登錄的準(zhǔn)備工作進(jìn)行了說(shuō)明,方便用戶使用。
而且,MediaCrawler 具備模塊化設(shè)計(jì),用戶可以根據(jù)自己的使用需求,定義爬取的關(guān)鍵詞、指定目錄等??梢詫?shí)現(xiàn)抓取策略的“私人定制”。
順提一句,作者曾將這個(gè)在幾天之內(nèi)就獲取 10k+ star 數(shù)的項(xiàng)目親手刪除。當(dāng)我們?cè)僖淮慰吹剿臅r(shí)候,主頁(yè)上新增了很多免責(zé)聲明。想必作者自己也不希望這個(gè)功能如此便捷的爬蟲(chóng)項(xiàng)目給自己帶來(lái)什么麻煩吧。
項(xiàng)目地址:
https://github.com/NanmiCoder/MediaCrawler
好了,本期的內(nèi)容就是這么多,我們下期再見(jiàn)!
轉(zhuǎn)載請(qǐng)注明來(lái)自浙江中液機(jī)械設(shè)備有限公司 ,本文標(biāo)題:《4個(gè)驚艷的AI項(xiàng)目,開(kāi)源了!》
還沒(méi)有評(píng)論,來(lái)說(shuō)兩句吧...