最近 Decart AI 推出了一个交互式视频游戏大模型。简单的说,基于这个大模型,你玩的游戏,是根据你的行为 […]
从2022年年底到现在,接近两年的时间,AIGC产品从无到有,从简单的Chatbot套壳和单次generate […]
SAAS变了。 一直以来的卖席位,在AI SAAS领域,变成了订阅限量,也就是订阅后每个月renew一定的使用 […]
Un autre nouveau modèle de grande génération vidéo - Luma. Prétend être capable de générer des vidéos de qualité cinématographique. Qu’est-ce que Luma AI ? Luma AI est […]
Kling AI est un grand modèle de génération vidéo publié par Kuaishou, qui peut générer des vidéos d'une durée maximale de 2 minutes. Son principal avantage est d'utiliser la technologie d'expression 3D et de reconstruction corporelle développée par Kuaishou pour piloter les expressions et les mouvements du corps à travers une photo du corps entier d'un personnage. Kling AI convient à la génération de scènes telles que des vidéos de personnages chantant et dansant et de longues vidéos.
Présentation Récemment, un modèle de synthèse vocale est devenu très populaire : ChatTTS. De plus, ce modèle a été développé par une petite équipe en Chine. se concentrer sur[…]
La sortie de GPT-4o marque une nouvelle étape dans les grands modèles hybrides d’entrée-sortie, avec des conversations plus riches et plus rapides. Son utilisation gratuite et ses frais d'API réduits rendent cette technologie accessible à un plus grand nombre de personnes. Comparé à Gemini1.5 Pro, GPT-4o est supérieur en termes d'expérience de conversation, favorisant le développement de robots et d'applications AIGC. Cette avancée représente une évolution importante dans le domaine de l’IA générative, ouvrant de nouvelles possibilités dans des domaines tels que l’interaction homme-machine et la génération de contenu.
Les modèles de génération vidéo tels que Sora et Stable Video Dissfusion sont souvent confrontés au problème de l'incapacité de contrôler avec précision la vidéo de sortie, en particulier sur les mouvements des personnages. Le modèle vidéo contrôlable peut contrôler avec précision les actions des personnages de la vidéo grâce à des mots d'invite. Viggle AI, en tant que premier modèle vidéo-3D doté de véritables capacités de compréhension physique, peut contrôler librement les mouvements des personnages et est intégré à la plateforme Discord. Cette technologie vidéo contrôlable réduira considérablement le coût des produits humains numériques et permettra une création diversifiée de vidéos humaines numériques.
Après avoir testé le modèle d'IA multimodal Gemini 1.5 Pro récemment mis à niveau, les utilisateurs ont constaté que bien qu'il prenne en charge un type de saisie plus complet comprenant du texte, des images, des vidéos, des fichiers et des dossiers, la capacité de raisonnement n'a pas été significativement améliorée, en particulier pour distinguer le droit de faux. De plus, le traitement des entrées vidéo, fichiers et dossiers prend beaucoup de temps et il existe des limites dans la gestion de grandes quantités de données.
Le 16 février 2024, Open AI a publié son modèle avancé de génération vidéo nommé Sora, suscitant un intérêt rivalisant presque avec celui de GPT. Sora, qui n'est pas encore disponible pour un usage public, combine des architectures de transformateur et de diffusion pour une simulation vidéo haute fidélité. TikTok présente les capacités de Sora avec des vidéos non éditées à partir de diverses invites, donnant un aperçu de son impact potentiel dans le domaine en plein essor de la génération vidéo.