最近 Decart AI 推出了一个交互式视频游戏大模型。简单的说,基于这个大模型,你玩的游戏,是根据你的行为 […]
从2022年年底到现在,接近两年的时间,AIGC产品从无到有,从简单的Chatbot套壳和单次generate […]
SAAS变了。 一直以来的卖席位,在AI SAAS领域,变成了订阅限量,也就是订阅后每个月renew一定的使用 […]
Ytterligare en ny stor videogenerationsmodell - Luma. Anspråk på att kunna generera videor av filmkvalitet. Vad är Luma AI? Luma AI är […]
Kling AI är en stor videogenereringsmodell släppt av Kuaishou, som kan generera videor upp till 2 minuter långa. Dess främsta fördel är att använda Kuaishous egenutvecklade 3D-uttrycks- och kroppsrekonstruktionsteknik för att driva uttryck och kroppsrörelser genom ett helkroppsfoto av en karaktär. Kling AI är lämplig för att skapa scener som videor av karaktärer som sjunger och dansar och långa videor.
Översikt Nyligen har en text-till-tal-modell blivit ganska populär: ChatTTS. Dessutom utvecklades denna modell av ett litet team i Kina. fokusera på[…]
Släppningen av GPT-4o markerar en ny milstolpe inom hybrid input-output stora modeller, med rikare och snabbare konversationer. Dess fria användning och reducerade API-avgifter gör denna teknik tillgänglig för fler människor. Jämfört med Gemini1.5 Pro är GPT-4o överlägsen i konversationsupplevelse, och främjar utvecklingen av robotar och AIGC-applikationer. Detta framsteg representerar en viktig utveckling inom området generativ AI, vilket ger nya möjligheter till områden som interaktion mellan människa och dator och generering av innehåll.
Videogenereringsmodeller som Sora och Stable Video Dissfusion står ofta inför problemet med att inte kunna kontrollera utmatningsvideon exakt, särskilt på karaktärsrörelser. Den kontrollerbara videomodellen kan noggrant kontrollera karaktärernas handlingar i videon genom snabba ord. Viggle AI, som den första video-3D-modellen med faktiska fysiska förståelsemöjligheter, kan fritt styra karaktärsrörelser och är inbäddad i Discord-plattformen. Denna kontrollerbara videoteknik kommer att avsevärt minska kostnaderna för digitala mänskliga produkter och möjliggöra diversifierad digital mänsklig videoskapande.
Efter att ha testat den nyligen uppgraderade multimodala AI-modellen Gemini 1.5 Pro, fann användarna att även om den stöder en mer omfattande inmatningstyp inklusive text, bilder, videor, filer och mappar, har resonemangsförmågan inte förbättrats avsevärt, särskilt när det gäller att skilja rätt från fel. Dessutom tar bearbetning av video-, fil- och mappindata lång tid, och det finns begränsningar i att hantera stora mängder data.
Den 16 februari 2024 släppte Open AI sin avancerade videogenerationsmodell med namnet Sora, vilket väckte intresse som nästan konkurrerade med GPT, som ännu inte är tillgänglig för allmänheten, och kombinerar transformator- och diffusionsarkitekturer för högfientlig videosimulering TikTok visar upp Soras möjligheter med oredigerade videor från olika uppmaningar, och förhandsgranskar dess potentiella inverkan på det växande videogenereringsfältet.