Google Gemini 1.5 Pro personlig test: kraftfuld og skrøbelig på samme tid

Forfatter:neo yang Tid:2024/03/17 Læs: 8374

Efter at have testet den nyligt opgraderede multimodale AI-model Gemini 1.5 Pro, fandt brugerne ud af, at selvom den understøtter en mere omfattende inputtype, herunder tekst, billeder, videoer, filer og mapper, er ræsonneringsevnen ikke blevet væsentligt forbedret, især med hensyn til at skelne lige fra forkert. Derudover tager behandling af video-, fil- og mappeinput lang tid, og der er begrænsninger i håndteringen af store mængder data.

Oversigt

For noget tid siden ansøgte jeg om Gemini 1.5 Pro-ønskesedlen. Herefter var det glemt. Jeg loggede ind på Google AI Studio i dag og fandt ud af, at jeg allerede kan bruge Gemini 1.5 pro. Så jeg testede det. Senere planlægger jeg at skifte fra Gemini 1.0 pro til Gemini 1.5 pro.

Gemini 1.5 pro kan understøtte tekst, billeder, videoer, filer og mapper som prompt input.

Indtast tekst

Det er ikke noget særligt.

Indtast billede + tekst

Når du indtaster et billede, tager Gemini1.5 pro mere end 30 sekunder at returnere resultater.

Jeg sagde specifikt, at det var forkert, og det indrømmede det. Det ser ud til, at Geminis evne til at skelne rigtigt fra forkert er relativt ringe.

Indtast video + tekst

Når du indtaster en video, tager Gemini1.5 pro mere end 200 sekunder at returnere resultater.

Input fil + tekst

Når du indtaster filer, tager Gemini1.5 pro også mere end 200 sekunder at returnere resultater.

Indtast mappe + tekst

Der er for meget indhold i inputmappen, og sammen med det tidligere indhold overskrider prompttokenet grænsen, og resultatet kan ikke returneres.

Sammenfatte

Som en stor multimodal model er den mest åbenlyse egenskab ved Gemini 1.5 pro sammenlignet med 1.0, at inputtyperne er mere omfattende. Tekst, billeder, videoer, filer og mapper.

Det ser dog ud til, at der ikke er nogen åbenlys forbedring i ræsonnement. Jeg kan i hvert fald stadig ikke skelne rigtigt fra forkert.

tags:AIGC , AI

关注我的微信公众号