AI-GitHub,分享GitHub上有趣、實用的AI開源項目。
小編為大家梳理了本周最受大家歡迎的GitHub項目。
有生成視頻、圖像、音樂AI黑科技;有解放打工人的各種AI工具,還有各種圖片處理的新技術(shù),真是讓人目不暇接,一起來看看吧~
一、創(chuàng)意生成系列
1、真人視頻秒變動漫臉!VToonify打破次元壁!
上傳一個自拍視頻,再選一個風(fēng)格畫的類型,就可以生成一個卡通化的人臉視頻。VToonify這個開源項目目前已有多達數(shù)十種肖像風(fēng)格,并且支持高分辨率,是很多人喜歡的玩法。
該項目在風(fēng)格控制的靈活性、生成視頻的質(zhì)量、時間上的連貫性等方面都有著出色的表現(xiàn)。
體驗地址:https://huggingface.co/spaces/PKUWilliamYang/VToonify?
開源地址:https://github.com/williamyang1991/VToonify?
項目主頁:https://www.mmlab-ntu.com/project/vtoonify
2、Animate Anyone——讓照片起舞!
Animate Anyone是阿里巴巴旗下研究院發(fā)布的動畫制作AI軟件。
Animate Anyone能夠自動生成角色、場景、動作等動畫元素,并將其組合成完整的動畫作品,用戶只需提供一些簡單的參數(shù)即可。這大大降低了動畫制作的難度,讓動畫制作變得更加簡單。
體驗地址:https://humanaigc.github.io/animate-anyone/
github地址:https://github.com/HumanAIGC/AnimateAnyone
3、擴展文生圖模型生成動畫的框架-AnimateDiff
AnimateDiff是由上海人工智能實驗室、香港中文大學(xué)和斯坦福大學(xué)的研究人員推出的一款將個性化的文本到圖像模型擴展為動畫生成器的框架,其核心在于它能夠利用從大規(guī)模視頻數(shù)據(jù)集中學(xué)習(xí)到的運動先驗知識,可以作為 Stable Diffusion 文生圖模型的插件,允許用戶將靜態(tài)圖像轉(zhuǎn)換為動態(tài)動畫。該框架的目的是簡化動畫生成的過程,使得用戶能夠通過文本描述來控制動畫的內(nèi)容和風(fēng)格,而無需進行特定的模型調(diào)優(yōu)。
體驗地址:https://huggingface.co/spaces/guoyww/AnimateDiff?
開源地址:https://github.com/guoyww/animatediff?
項目主頁:https://animatediff.github.io
4、AI Comic Factory——實現(xiàn)創(chuàng)作夢想,小白也能成為漫畫大師!
AI Comic Factory是一個基于Hugging Face平臺的免費開源在線AI漫畫生成工具,使用LLM和SDXL開發(fā)。
用戶只需輸入文字描述提示詞,AI就能生成精美的漫畫作品,包括角色和細膩的表情。它支持用戶設(shè)計漫畫書的頁面,并提供了多種風(fēng)格選擇。讓每個人都可以輕松創(chuàng)作出獨一無二的漫畫風(fēng)格照片。
如果你夢想成為一名漫畫家,卻缺乏繪畫能力?,F(xiàn)在,人工智能將為你輕松實現(xiàn)夢想!
項目地址:https://huggingface.co/spaces/jbilcke-hf/ai-comic-factory
5、 PixArt-Sigma——支持4K圖像生成!華為將DiT構(gòu)架引入開源繪畫!
華為近日發(fā)布了一項名為 PixArt-Sigma 的圖像生成模型,該模型采用了 DiT 架構(gòu),可以直接生成4K 分辨率的圖像。
相比于其前身 PixArt-alpha,PixArt-Sigma 的進步主要體現(xiàn)在兩個方面:高質(zhì)量的訓(xùn)練數(shù)據(jù)和高效的 Token 壓縮。PixArt-Sigma 結(jié)合了更高質(zhì)量的圖像數(shù)據(jù),配對更精確和詳細的圖像標(biāo)題,同時在 DiT 框架內(nèi)提出了一個新的注意力模塊,可以壓縮鍵(Key)和值(Value),顯著提高效率,促進超高分辨率圖像的生成。
PixArt-Sigma 生成 4K 圖像的能力支持創(chuàng)建高分辨率海報和壁紙,有效地增強了電影和游戲等行業(yè)中高質(zhì)量視覺內(nèi)容的制作。
項目地址:https://pixart-alpha.github.io/PixArt-sigma-project/
論文地址:https://arxiv.org/pdf/2403.04692.pdf
6、StickerBaker——一鍵百變貼紙!
StickerBaker 是一個開源的AI貼紙制作工具,利用人工智能技術(shù)來制作各種有趣的貼紙。用戶只要輸入簡單的文字提示,馬上可以生成一個精美的貼紙,甚至可以批量生產(chǎn)。這個工具易于使用,適合那些希望在虛擬世界中創(chuàng)造和分享獨特圖像的用戶。
體驗地址1:https://stickerbaker.com?
體驗地址2:https://replicate.com/fofr/sticker-maker?
開源地址:https://github.com/cbh123/stickerbaker
7、bark——開源的文字轉(zhuǎn)語音的AI項目!
bark模型來自一家專門從事音頻人工智能研發(fā)的公司suno,它能夠生成高度逼真的多語言語音以及其他音頻,包括音樂、背景噪音和簡單的音效。此外,該模型還可以產(chǎn)生非語言交流,例如笑聲、嘆息和哭泣等,效果接近真人的表現(xiàn)。自推出以來備受關(guān)注,目前已經(jīng)在GitHub上獲得了超過2.5萬贊。盡管試用過程中可能會有一些金屬音的問題,但相對于其他音頻模型而言,其效果有了顯著提升。
開源地址:https://github.com/suno-ai/bark
8、AutoPiano——在線開音樂盲盒!鍵盤也能玩轉(zhuǎn)幾十種樂器!
用電腦來彈鋼琴,已經(jīng)不是新鮮事物了,但這個項目憑借新奇的技術(shù)和優(yōu)秀的體驗殺出了。
自由鋼琴(AutoPiano)是利用HTML5技術(shù)開發(fā)的在線鋼琴應(yīng)用,致力于為鋼琴愛好者、音樂愛好者提供一個優(yōu)雅、簡潔的平臺。高音立式鋼琴、原音鋼琴、大鋼琴、八音盒、木琴、口琴,各種音色靜待你的選擇。
可以自由發(fā)揮,創(chuàng)作樂譜;可以通過教學(xué)功能,根據(jù)曲譜來演奏;即便不懂樂理知識,輸入文字亂彈也能發(fā)現(xiàn)盲盒驚喜。
項目地址:https://github.com/AutoPiano/AutoPiano
體驗網(wǎng)址:http://www.autopiano.cn/
二、實用工具系列
1、Outfit Anyone——電商網(wǎng)購好助手!
Outfit Anyone只需要一張人物照片和服裝照片,就可以為不同的姿勢和身體形狀創(chuàng)建高質(zhì)量的虛擬試穿。
這個模型可以自動識別服裝和人物的特征,如形狀、紋理、顏色、光照等,并且可以根據(jù)人物的姿勢和背景,合理地調(diào)整服裝的位置和大小,使之與人物的身體完美地貼合。
可以應(yīng)用的場景包括在線購物、社交媒體、游戲、電影等。
體驗地址:https://humanaigc.github.io/outfit-anyone/
體驗地址:https://huggingface.co/spaces/HumanAIGC/OutfitAnyone
github地址:https://github.com/HumanAIGC/OutfitAnyone
2、AnyDoor——一鍵換衣!取代真人模特!
AnyDoor是一款先進的擴散圖像生成器,其核心能力在于能夠?qū)⑷魏螌ο?,無論是人物、動物還是物品,無縫集成到新的圖像或視頻場景中。
點兩下鼠標(biāo),就能把物體無縫「傳送」到照片場景中,光線角度和透視也能自動適應(yīng)。有了它,網(wǎng)購衣服也可以直接看上身效果了。
開源地址:https://github.com/ali-vilab/AnyDoor
3、SalesGPT——最佳AI 銷售代理!
SalesGPT能夠與潛在客戶進行自然對話,模擬經(jīng)驗豐富的銷售專業(yè)人員的話術(shù),并根據(jù)談話內(nèi)容動態(tài)調(diào)整,并在合適的情況下外呼真人銷售。
該存儲庫使用 LLM 的上下文感知 AI Agent for Sales 實現(xiàn),可以跨語音、電子郵件和短信(SMS、WhatsApp、微信、微博、Telegram 等)工作。
開源地址:https://github.com/filip-michalsky/SalesGPT?tab=readme-ov-file
4、Moondream——一鍵識圖!可以在任何地方運行的微型視覺語言模型!
Moondream是一個免費開源的小型的人工智能視覺語言模型,該模型具有高性能的視覺處理能力,可以根據(jù)你的提問,識別并推測圖片,給出答案。該模型由開發(fā)人員vikhyatk推出,使用SigLP、Phi-1.5和LLaVa訓(xùn)練數(shù)據(jù)集和模型權(quán)重初始化進行構(gòu)建。
Moondream具有驚人的小體量,可在本地計算機甚至移動設(shè)備或 Raspberry Pi 上運行。
GitHub地址:https://github.com/vikhyat/moondream
5、NotesGPT——簡單免費的語音筆記工具 !
NotesGPT利用最新的AI技術(shù)為筆記記錄、學(xué)習(xí)和創(chuàng)作提供智能支持。它的交互簡單,提供一個語音輸入按鈕,幾秒內(nèi)完成語音記錄、轉(zhuǎn)寫、內(nèi)容總結(jié)和任務(wù)生成等功能。該工具可廣泛用于創(chuàng)意寫作、完成句子或提供建議等。既適合學(xué)習(xí)者,也適合于提高工作與創(chuàng)造力效率的專業(yè)人士。
官網(wǎng)地址:https://usenotesgpt.com/
Github地址:https://github.com/Nutlope/notesGPT
三、圖片處理系列
1、RMBG v1.4——免費一鍵摳圖!商業(yè)級背景去除模型!
RMBG-1.4號稱開源界最強大的一鍵摳圖、去除背景模型。它可以有效對前景與背景進行分離。
這個模型經(jīng)過在精心挑選的數(shù)據(jù)集上的訓(xùn)練,包括各種庫存圖像、電子商務(wù)、游戲和廣告內(nèi)容,所以非常適合用于支持大規(guī)模企業(yè)內(nèi)容創(chuàng)建的用途。該方案達到了商業(yè)級性能,但僅限于非商業(yè)用途。
體驗地址:https://huggingface.co/spaces/briaai/BRIA-RMBG-1.4
開源地址:https://huggingface.co/briaai/RMBG-1.4
2、 PULSE——馬賽克“腦補”算法,助你圖片模糊變高清!
PULSE是一種超分辨率算法,通過潛在空間探索進行照片上采樣,以生成高分辨率和超現(xiàn)實圖像。
該算法可以在幾秒鐘內(nèi),把 16x16 像素的低分辨率小圖,放大 64 倍,變成 1024 x 1024 像素的高分辨率圖像,并且會“想象”出一些原本不存在的特征,即使是原本 LR 照片中無法看到的細節(jié),比如毛孔、細紋、睫毛和胡茬等。
說白了,PULSE 生成的高清圖片,是「腦補」出來的,與真實的人臉照片可能存在差別。
開源地址:https://github.com/adamian98/pulse?tab=readme-ov-file
3、Upscayl——一鍵放大!告別圖片模糊,馬賽克!
Upscayl同樣是一款開源AI圖像處理軟件,它通過使用高級的AI 模型來升級低分辨率圖像,使得模糊的圖片即使放大也同樣清晰,軟件采用 Linux-First 理念構(gòu)建,易于操作,支持批處理,提供多種放大類型,包括REAL-ESRGAN和DIGITAL ART。可在Windows、Mac和Linux上運用(但需GPU支持)
開源地址:https://github.com/upscayl/upscayl
官網(wǎng)地址:https://upscayl.org
4、Inpaint Anything ——重繪萬物,一鍵物體移除、內(nèi)容填補、場景替換!
Inpaint Anything 可以在圖像、視頻和 3D 場景中繪制任何東西!
用戶可以通過單擊圖像中的任何對象來選擇它。憑借強大的視覺模型,例如 SAM、LaMa 和穩(wěn)定擴散 (SD),Inpaint Anything 能夠平滑地去除物體(即去除任何東西)。此外,在用戶輸入文本的提示下,Inpaint Anything 可以用任何所需的內(nèi)容填充對象(即填充任何內(nèi)容)或任意替換對象的背景(即替換任何內(nèi)容)。
Inpaint Anything揭示了「可組合人工智能」(Composable AI)的無限潛力,更多的功能正在路上,敬請期待~
體驗地址:https://huggingface.co/spaces/InpaintAI/Inpaint-Anything
開源地址:https://github.com/geekyutao/Inpaint-Anything
以上就是本周的熱點匯總了,有你感興趣的項目嗎?趕快去試試吧!
你對哪些方面感興趣呢?歡迎在評論區(qū)留言噢~
關(guān)注AI-GitHub,獲取前沿AI資訊。
轉(zhuǎn)載請注明來自浙江中液機械設(shè)備有限公司 ,本文標(biāo)題:《AI》
還沒有評論,來說兩句吧...