以前、Googleが会話型高性能AIの最高位モデルであるGemini(ジェミニ) Ultraを公開しましたね。(Gemini Ultraに関する記事はこちらから)
Googleの勢いは止まらず、その翌週2月16日にさらに新たな発表をしました!それが、次世代モデル「Gemini1.5」です。こちらは、現在Gemini Ultraの一つ下のグレードのモデルであるGemini 1.5 ProがGemini Ultra 1.0とほぼ同じパフォーマンスを誇るとのことです。
AI業界でもGoogleの本気が見えてきているような気がしますね。今回はそんな新しく発表されたGemini 1.5について詳しく解説していきます。
目次
1章 「Gemini 1.5」の概要 ・性能
1-1「Gemini 1.5」の概要
Gemini 1.5はGoogleの高性能AIモデルの新世代モデルとなっております。初めに公開されるモデルはGemini Proで、先ほど述べたようにGemini Ultra 1.0と同様のパフォーマンスを発揮するとのことからかなりの期待が寄せられています。
今回発表されたGemini 1,5には特筆すべき性能がいくつかあるのでポイントに分けてご紹介していきたいと思います。
こちらはレ・ミゼラブルの文章を読み込ませた状態で手書きのレ・ミゼラブルの場面をプロンプトすると、Geminiが本文のどのページのどの場面を示しているかを識別している様子を示しています。この写真だけでもGeminiの進化が窺えます。
アーキテクチャ
Googleでは、MoE(Mixture of Experts)という自然言語処理におけるネットワーク技術を早い段階から採用し、研究を行っていたようです。
従来まではどのような入力に対しても同じパラメータを用いて処理を行っていましたが、MoEによって入力に対して必要なパラメータのみを用いて処理を行うことができるようになりました!
これにより、複雑なタスクをより迅速に効率よく学習することができるようになったようです。
トークン数の大幅増加
AIモデルでは、テキストや画像、動画などの入力を処理するのにあたってトークンという単位を用いています。このトークンの容量を表すものとして「コンテキストウィンドウ」というものがあります。
コンテキストウィンドウとは、特定のトークンやデータポイントを分析する際に考慮される周囲の文脈や情報の範囲を示します。つまり、コンテキストウィンドウの容量が大きいほどより広い文脈を用いて情報を処理することができるということです!
こちらの画像はコンテキストウィンドウを従来のGeminiモデルや他のAIモデルと比較したものとなっています。GPT-4 Turboが12万8000トークンであるのに対して、Gemini 1.5Proは100万トークンとなんと一桁も違うコンテキストウィンドウ容量を誇ります!
こちらの画像はGemini 1.5Proのテストデータを示しています。グラフの緑色のマス目が成功、赤色が失敗を示しているようです。
動画や音楽、文章に対して99.7%以上の精度を維持していることが確認で確認できている事がわかります!
さらに、 上限の1Mトークンを超えた動画3時間分(3Mトークン)、音楽22時間分(2Mトークン)文章700万語(10Mトークン)でもほとんど同じ精度が維持できたようです。この結果からもGemini の最大トークン数はこれからも増え続けると考えられます!
1-2 「Gemini 1.5」はいつから使える?料金は?
Gemini 1.5 はいつから使える?
それでは、今回発表されたGemini 1.5はいつから使うことができるのでしょうか?
現在Gemini 1.5は条件付きで使うことができます。現在はディベロッパーや企業が利用するGoogle AI StudioまたはVertex AIにて一部のユーザーに公開されており、テスターとしてGemini 1.5 Proを無料で使う事ができるようです。
興味のある方は、Google AI Studioにサインアップしてみましょう!
一般ユーザーがGemini 1.5を使う事ができるようになるのは、この公開テストが終わってからとなりそうです。
Gemini 1.5 Pro の料金は?無料で使える?
気になる料金ですが、今のところGemini 1.5 Proは現在のGemini 1.0 Proと同じ12800トークンで無料で使う事ができるそうです!
料金プランとしては、12800トークンから100万トークンまでのコンテキストウィンドウに応じて料金の変わる有料プランが検討されているようです!
2章 「Gemini 1.5」の使用例
私たちは、まだGemini 1.5 Proを使うことはできませんが、Googleからいくつかの使用例が動画となって公開されています。こちらを見ながらGemini 1.5 Proがどのような使用感であるのかを見ていきましょう。
こちらの動画では、Gemini 1.5 Proにアポロ 11 号の月面着陸に関する 402 ページの記録の文書をアップロードした時の推論の性能をアピールしている動画となっています。
こちらは動画のキャプションになるのですが、Gemini 1.5 Proの操作画面が現在のGeminiを変わっている事がわかります。
こちらのように現在Geminiでは、テキストを入力する部分と画像をアップロードする部分と音声入力をする部分しかありません。しかし、Gemini 1.5 Proの操作画面を見ると、画面上部に動画やファイルさらにフォルダをアップロードする画面があるのが見えます。
動画の中では、402ページの文書の中から 3 comedic moments, つまり三箇所の面白い瞬間を引用するように指示しています。これに対して、Geminiは指示通りに3箇所の面白い場面を引用した上で文脈を説明しています。
引用した上で文脈の説明までしているところから、402ページの文書を完全に内容を理解した上で処理できているということが示されていますね。
3章 まとめ
今回はGoogleから新たに発表されたGeminiの次世代モデルGemini 1.5についてご紹介いたしました。
無料で使える予定のGemini 1.5Proでは、現在有料で使える最高位モデルGemini Ultraと同様のパフォーマンスを発揮する事ができるほか、従来のどのAiモデルと比べても桁違いのトークン数である最大100万トークンの入力を処理できるなどの眼を見張るような発表がありました。
今後Gemini 1.5 Ultraも登場することが予想できますが、こちらの性能もかなり期待が高まりますね。まずは、Gemini 1.5Proの公開を楽しみに待ちましょう!公開され次第こちらのサイトでも、紹介記事を更新しますのでお楽しみに!!
この記事は役に立ちましたか?
もし参考になりましたら、下記のボタンで教えてください。
コメント