Prueba personal de Google Gemini 1.5 Pro: potente y frágil al mismo tiempo

Autor:neo yang Tiempo:2024/03/17 Leer: 8787

Después de probar el modelo de IA multimodal Gemini 1.5 Pro recientemente actualizado, los usuarios descubrieron que, aunque admite un tipo de entrada más completo que incluye texto, imágenes, vídeos, archivos y carpetas, la capacidad de razonamiento no ha mejorado significativamente, especialmente a la hora de distinguir entre el derecho y el otro. equivocado. Además, el procesamiento de entradas de vídeo, archivos y carpetas lleva mucho tiempo y existen limitaciones en el manejo de grandes cantidades de datos.

Descripción general

前段时间，申请了一下Gemini 1.5 Pro的wishlist。之后，就忘到一边去了。今天登录了一下Google AI Studio，发现，我已经可以用Gemini 1.5 pro了。于是，测试了一下。后边准备把现在正在用的Gemini 1.0 pro切换到Gemini 1.5 pro。

Gemini 1.5 pro 可以支持文字、图片、视频、文件、文件夹作为prompt输入。

输入文字

倒是没什么太特别的。

输入图片+文字

输入图片，Gemini1.5 pro返回结果的时间直接超过30秒。

我特意说它是错的，它竟然承认。看来Gemini分辨是非的能力比较差。

输入视频+文字

输入视频，Gemini1.5 pro的返回结果的时间超过200秒。

输入文件+文字

输入文件，Gemini1.5 pro返回结果的时间也超过200秒。

输入文件夹+文字

输入文件夹，内容太多，再加上之前的内容，导致prompt的token超过限额，无法返回结果。

Resumir

作为一个多模态的大模型，Gemini 1.5 pro比起1.0来，最明显的特点就是可以输入的类型比较全面了。文字、图片、视频、文件和文件夹。

但，似乎推理能力，并没有明显的进步。至少还是做不到分辨是非。

etiquetas:AIGC , AI

关注我的微信公众号