網路觀察

ChatTTS: 對話場景的文字轉語音模型

概述最近，一個文字轉語音的模型比較火，那就是：ChatTTS。而且，這個模型還是國內的小團隊搞的。專注於[…]

網路觀察作者：neo yang

GPT-4o:免費的混合輸入和混合輸出大模型

GPT-4o的發布標誌著混合輸入輸出大模型的新里程碑，對話更豐富、更快。其免費使用和降低的API費用使更多人能夠接觸到這項技術。相較於Gemini1.5 Pro，GPT-4o在對話體驗上更勝一籌，推動了機器人和AIGC應用的發展。這項進步代表著生成式AI領域的重要發展，為人機互動和內容生成等領域帶來了新的可能性。

網路觀察作者：neo yang

Viggle AI: 如何產生人物動作可控的視頻

影片生成模型如Sora和Stable Video Dissfusion常面臨無法精準控制輸出影片的問題，尤其是在人物動作上。可控視訊模型能透過提示詞精確控制影片中的人物動作。 Viggle AI，作為首個具備實際物理理解能力的影片-3D模型，能自由控制角色動作，並植入於Discord平台。這種可控視訊技術將顯著降低數位人產品成本，並實現多樣化的數位人視訊創作。

網路觀察作者：neo yang

Google Gemini 1.5 Pro親測：強大與脆弱並存

使用者在測試新升級的多模態AI模型Gemini 1.5 Pro後發現，儘管它支援更全面的輸入類型包括文字、圖片、影片、檔案和資料夾，推理能力卻沒有顯著提升，特別在分辨是非方面。此外，處理影片、文件和資料夾輸入時耗時較長，且對大量資料的處理有限制。

網路觀察作者：neo yang

2024年02月熱點：Sora——Open AI的影片生成大模型

On February 16, 2024, Open AI released its advanced video generation model named Sora, sparking interest almost rivalling that of GPT. Sora, which is not yet available for public opuse, combines Transformer andsvidctures s格, s. TikTok showcases Sora's capabilities with unedited videos from various prompts, previewing its potential impact in the burgeoning video generation field.

網路觀察作者：neo yang