Überblick In letzter Zeit erfreut sich ein Text-to-Speech-Modell großer Beliebtheit: ChatTTS. Darüber hinaus wurde dieses Modell von einem kleinen Team in China entwickelt. konzentrieren Sie sich auf[…]
Die Veröffentlichung von GPT-4o markiert einen neuen Meilenstein bei großen Hybrid-Input-Output-Modellen mit reichhaltigeren und schnelleren Gesprächen. Die kostenlose Nutzung und die reduzierten API-Gebühren machen diese Technologie für mehr Menschen zugänglich. Im Vergleich zu Gemini1.5 Pro ist GPT-4o im Gesprächserlebnis überlegen und fördert die Entwicklung von Robotern und AIGC-Anwendungen. Dieser Fortschritt stellt eine wichtige Entwicklung im Bereich der generativen KI dar und eröffnet neue Möglichkeiten für Bereiche wie Mensch-Computer-Interaktion und Inhaltsgenerierung.
Videogenerierungsmodelle wie Sora und Stable Video Dissfusion stehen oft vor dem Problem, dass sie das Ausgabevideo nicht genau steuern können, insbesondere bei Charakterbewegungen. Das steuerbare Videomodell kann die Aktionen der Charaktere im Video durch Aufforderungsworte genau steuern. Viggle AI ist das erste Video-3D-Modell mit tatsächlichen physischen Verständnisfähigkeiten, kann die Bewegungen von Charakteren frei steuern und ist in die Discord-Plattform eingebettet. Diese steuerbare Videotechnologie wird die Kosten digitaler menschlicher Produkte erheblich senken und eine vielfältige Erstellung digitaler menschlicher Videos ermöglichen.
Nach dem Test des neu aktualisierten multimodalen KI-Modells Gemini 1.5 Pro stellten Benutzer fest, dass es zwar einen umfassenderen Eingabetyp unterstützt, einschließlich Text, Bilder, Videos, Dateien und Ordner, die Argumentationsfähigkeit jedoch nicht wesentlich verbessert wurde, insbesondere bei der Unterscheidung von rechts und links falsch. Darüber hinaus nimmt die Verarbeitung von Video-, Datei- und Ordnereingaben viel Zeit in Anspruch und es bestehen Einschränkungen bei der Verarbeitung großer Datenmengen.
Am 16. Februar 2024 veröffentlichte Open AI sein fortschrittliches Videogenerierungsmodell namens Sora, das fast das Interesse von Sora weckt, das noch nicht für die öffentliche Nutzung verfügbar ist und Transformer- und Diffusionsarchitekturen für hochauflösende Open AIs kombiniert TikTok demonstriert die Fähigkeiten von Sora anhand unbearbeiteter Videos aus verschiedenen Eingabeaufforderungen und gibt einen Ausblick auf seine potenziellen Auswirkungen auf den aufstrebenden Bereich der Videogenerierung.
Google Gemini1.5 Pro-Übersicht Google Gemini1.5 Pro am 15. Februar 2024 […]
1. Google Trends: Vergleichen Sie „AI“, „gpt“, „palworld“. Dies ist ein Screenshot von heute (31.01.2024). […]
Am 6. November 2023 wurde WordPress v6.4.2 veröffentlicht. Zwei Tage später habe ich mein Blog auf einen anderen Server migriert. Später […]
Heute hat ein Freund einen Artikel geteilt: Vor kurzem ist Jasper, das erste Einhornunternehmen, das AIGC durchführt, auf Null zurückgekehrt. Jasper, basierend auf GPT, ist […]
KI ist eine große Chance. Daher stellt sich jeder die Frage, ob er weiß, was er tun soll, oder ob er nicht weiß, was er tun soll. Derzeit liegt die Explorationsrichtung hauptsächlich in […]