Test personnel Google Gemini 1.5 Pro : puissant et fragile à la fois

Auteur:néo yang Temps:2024/03/17 Lire: 8792

Après avoir testé le modèle d'IA multimodal Gemini 1.5 Pro récemment mis à niveau, les utilisateurs ont constaté que bien qu'il prenne en charge un type de saisie plus complet comprenant du texte, des images, des vidéos, des fichiers et des dossiers, la capacité de raisonnement n'a pas été significativement améliorée, en particulier pour distinguer le droit de faux. De plus, le traitement des entrées vidéo, fichiers et dossiers prend beaucoup de temps et il existe des limites dans la gestion de grandes quantités de données.

Aperçu

Il y a quelque temps, j'ai postulé pour la liste de souhaits Gemini 1.5 Pro. Après cela, cela a été oublié. Je me suis connecté à Google AI Studio aujourd'hui et j'ai découvert que je pouvais déjà utiliser Gemini 1.5 pro. Alors, je l'ai testé. Plus tard, je prévois de passer de Gemini 1.0 pro à Gemini 1.5 pro.

Gemini 1.5 pro peut prendre en charge du texte, des images, des vidéos, des fichiers et des dossiers en tant que saisie rapide.

Entrez du texte

Ce n'est rien de très spécial.

Entrez une image + un texte

Lorsque vous saisissez une image, Gemini1.5 pro prend plus de 30 secondes pour renvoyer les résultats.

J'ai spécifiquement dit que c'était faux et il l'a admis. Il semble que la capacité des Gémeaux à distinguer le bien du mal soit relativement faible.

Entrez la vidéo + le texte

En saisissant une vidéo, Gemini1.5 pro prend plus de 200 secondes pour renvoyer les résultats.

Fichier d'entrée + texte

Lors de la saisie de fichiers, Gemini1.5 pro prend également plus de 200 secondes pour renvoyer les résultats.

Entrez le dossier + le texte

Il y a trop de contenu dans le dossier d'entrée et, avec le contenu précédent, le jeton d'invite dépasse la limite et le résultat ne peut pas être renvoyé.

Résumer

En tant que grand modèle multimodal, la caractéristique la plus évidente de Gemini 1.5 pro par rapport à la version 1.0 est que les types d'entrée sont plus complets. Texte, images, vidéos, fichiers et dossiers.

Cependant, il ne semble pas y avoir d’amélioration évidente de la capacité de raisonnement. Au moins, je n'arrive toujours pas à distinguer le bien du mal.

Mots clés:AIGC , IA

关注我的微信公众号