最近 Decart AI 推出了一个交互式视频游戏大模型。简单的说,基于这个大模型,你玩的游戏,是根据你的行为 […]
从2022年年底到现在,接近两年的时间,AIGC产品从无到有,从简单的Chatbot套壳和单次generate […]
SAAS变了。 一直以来的卖席位,在AI SAAS领域,变成了订阅限量,也就是订阅后每个月renew一定的使用 […]
Ein weiteres neues Modell der großen Videogeneration – Luma. Behauptet, Videos in Filmqualität erzeugen zu können. Was ist Luma AI? Luma AI ist […]
Kling AI ist ein von Kuaishou veröffentlichtes großes Videogenerierungsmodell, das Videos mit einer Länge von bis zu 2 Minuten generieren kann. Sein Hauptvorteil besteht darin, Kuaishous selbst entwickelte 3D-Ausdrucks- und Körperrekonstruktionstechnologie zu nutzen, um Ausdrücke und Körperbewegungen durch ein Ganzkörperfoto einer Figur zu steuern. Kling AI eignet sich zum Generieren von Szenen wie Videos mit singenden und tanzenden Charakteren und langen Videos.
Überblick In letzter Zeit erfreut sich ein Text-to-Speech-Modell großer Beliebtheit: ChatTTS. Darüber hinaus wurde dieses Modell von einem kleinen Team in China entwickelt. konzentrieren Sie sich auf[…]
Die Veröffentlichung von GPT-4o markiert einen neuen Meilenstein bei großen Hybrid-Input-Output-Modellen mit reichhaltigeren und schnelleren Gesprächen. Die kostenlose Nutzung und die reduzierten API-Gebühren machen diese Technologie für mehr Menschen zugänglich. Im Vergleich zu Gemini1.5 Pro ist GPT-4o im Gesprächserlebnis überlegen und fördert die Entwicklung von Robotern und AIGC-Anwendungen. Dieser Fortschritt stellt eine wichtige Entwicklung im Bereich der generativen KI dar und eröffnet neue Möglichkeiten für Bereiche wie Mensch-Computer-Interaktion und Inhaltsgenerierung.
Videogenerierungsmodelle wie Sora und Stable Video Dissfusion stehen oft vor dem Problem, dass sie das Ausgabevideo nicht genau steuern können, insbesondere bei Charakterbewegungen. Das steuerbare Videomodell kann die Aktionen der Charaktere im Video durch Aufforderungsworte genau steuern. Viggle AI ist das erste Video-3D-Modell mit tatsächlichen physischen Verständnisfähigkeiten, kann die Bewegungen von Charakteren frei steuern und ist in die Discord-Plattform eingebettet. Diese steuerbare Videotechnologie wird die Kosten digitaler menschlicher Produkte erheblich senken und eine vielfältige Erstellung digitaler menschlicher Videos ermöglichen.
Nach dem Test des neu aktualisierten multimodalen KI-Modells Gemini 1.5 Pro stellten Benutzer fest, dass es zwar einen umfassenderen Eingabetyp unterstützt, einschließlich Text, Bilder, Videos, Dateien und Ordner, die Argumentationsfähigkeit jedoch nicht wesentlich verbessert wurde, insbesondere bei der Unterscheidung von rechts und links falsch. Darüber hinaus nimmt die Verarbeitung von Video-, Datei- und Ordnereingaben viel Zeit in Anspruch und es bestehen Einschränkungen bei der Verarbeitung großer Datenmengen.
Am 16. Februar 2024 veröffentlichte Open AI sein fortschrittliches Videogenerierungsmodell namens Sora, das fast das Interesse von Sora weckt, das noch nicht für die öffentliche Nutzung verfügbar ist und Transformer- und Diffusionsarchitekturen für hochauflösende Open AIs kombiniert TikTok demonstriert die Fähigkeiten von Sora anhand unbearbeiteter Videos aus verschiedenen Eingabeaufforderungen und gibt einen Ausblick auf seine potenziellen Auswirkungen auf den aufstrebenden Bereich der Videogenerierung.