最近 Decart AI 推出了一个交互式视频游戏大模型。简单的说,基于这个大模型,你玩的游戏,是根据你的行为 […]
从2022年年底到现在,接近两年的时间,AIGC产品从无到有,从简单的Chatbot套壳和单次generate […]
SAAS变了。 一直以来的卖席位,在AI SAAS领域,变成了订阅限量,也就是订阅后每个月renew一定的使用 […]
Endnu en ny stor videogenerationsmodel - Luma. Hævder at kunne generere videoer i filmkvalitet. Hvad er Luma AI? Luma AI er […]
Kling AI er en stor videogenerationsmodel udgivet af Kuaishou, som kan generere videoer på op til 2 minutter. Dens største fordel er at bruge Kuaishous egenudviklede 3D-udtryk og kropsrekonstruktionsteknologi til at drive udtryk og kropsbevægelser gennem et helkropsfoto af en karakter. Kling AI er velegnet til at generere scener såsom videoer af karakterer, der synger og danser og lange videoer.
Oversigt For nylig er en tekst-til-tale-model blevet ret populær: ChatTTS. Desuden er denne model udviklet af et lille team i Kina. fokus på […]
Frigivelsen af GPT-4o markerer en ny milepæl inden for hybrid input-output store modeller med rigere og hurtigere samtaler. Dens gratis brug og reducerede API-gebyrer gør denne teknologi tilgængelig for flere mennesker. Sammenlignet med Gemini1.5 Pro er GPT-4o overlegen i samtaleoplevelse og fremmer udviklingen af robotter og AIGC-applikationer. Dette fremskridt repræsenterer en vigtig udvikling inden for generativ AI, der bringer nye muligheder til områder som menneske-computer-interaktion og indholdsgenerering.
Videogenereringsmodeller som Sora og Stable Video Dissfusion står ofte over for problemet med at være ude af stand til nøjagtigt at kontrollere outputvideoen, især på karakterbevægelser. Den kontrollerbare videomodel kan nøjagtigt styre handlingerne af karakterer i videoen gennem prompte ord. Viggle AI, som den første video-3D-model med faktiske fysiske forståelsesevner, kan frit styre karakterbevægelser og er indlejret i Discord-platformen. Denne kontrollerbare videoteknologi vil betydeligt reducere omkostningerne ved digitale menneskelige produkter og muliggøre diversificeret digital menneskelig videooprettelse.
Efter at have testet den nyligt opgraderede multimodale AI-model Gemini 1.5 Pro, fandt brugerne ud af, at selvom den understøtter en mere omfattende inputtype, herunder tekst, billeder, videoer, filer og mapper, er ræsonneringsevnen ikke blevet væsentligt forbedret, især med hensyn til at skelne lige fra forkert. Derudover tager behandling af video-, fil- og mappeinput lang tid, og der er begrænsninger i håndteringen af store mængder data.
Den 16. februar 2024 udgav Open AI sin avancerede videogenerationsmodel ved navn Sora, hvilket vækker interesse, der næsten konkurrerer med GPT, som endnu ikke er tilgængelig til offentlig brug, og kombinerer transformator- og diffusionsarkitekturer til højfidelitets-videosimulering TikTok fremviser Soras evner med uredigerede videoer fra forskellige prompter, og viser dens potentielle indflydelse i det spirende videogenereringsfelt.