Google Gemini 1.5 Pro 個人テスト: 強力であると同時に壊れやすい
新しくアップグレードされたマルチモーダル AI モデル Gemini 1.5 Pro をテストした後、ユーザーは、テキスト、画像、ビデオ、ファイル、フォルダーを含むより包括的な入力タイプをサポートしているにもかかわらず、特に右と右を区別する推論能力が大幅に向上していないことに気づきました。間違っている。さらに、ビデオ、ファイル、フォルダーの入力の処理には時間がかかり、大量のデータの処理には制限があります。
概要
少し前に、Gemini 1.5 Pro ウィッシュリストに申請しました。その後は忘れ去られてしまいました。今日 Google AI Studio にログインしたところ、すでに Gemini 1.5 pro を使用できることがわかりました。そこで、テストしてみました。その後、Gemini 1.0 pro から Gemini 1.5 pro に切り替える予定です。
Gemini 1.5 pro は、プロンプト入力としてテキスト、写真、ビデオ、ファイル、フォルダーをサポートできます。
テキストを入力してください
それは特別なことではありません。
写真+テキストを入力してください
画像を入力すると、Gemini1.5 pro が結果を返すまでに 30 秒以上かかります。
私はそれが間違っていると具体的に言いました、そして、それを認めました。双子座は善悪を区別する能力が比較的低いようです。
動画+テキストを入力してください
ビデオを入力すると、Gemini1.5 pro は結果を返すまでに 200 秒以上かかります。
入力ファイル+テキスト
ファイルを入力すると、Gemini1.5 pro でも結果が返されるまでに 200 秒以上かかります。
フォルダー + テキストを入力してください
入力フォルダー内のコンテンツが多すぎるため、前のコンテンツと合わせてプロンプト トークンが制限を超え、結果を返すことができません。
要約する
大規模なマルチモーダル モデルとして、1.0 と比較した Gemini 1.5 pro の最も明らかな特徴は、入力タイプがより包括的であることです。テキスト、写真、ビデオ、ファイル、フォルダー。
しかし、明らかな推理力の向上はないようです。少なくとも私にはまだ善悪の区別がつきません。