現地時間12月6日に、Googleから新たな高性能AIモデル「Gemini」が発表されました。Googleからの新たなAIということもあり、性能や機能に期待が高まっています。
さらに2023年12月14日にGemini ProのAPIが公開されました!
こちらの記事では現時点でわかっているGeminiの使い方や機能について詳しく解説していきたいと思います。
目次
1章『Gemini』の概要
1-1『Gemini』のいつから使える?始め方は?
はじめに皆様が気になるであろうGeminiの使い方からご紹介いたします!
後ほどご紹介いたしますが、Geminiには性能順に「Nano」「Pro」「Ultra」3つのモデルがあり、Ultraが1番性能が高いようです。
現時点ですでにGoogle BardやGoogle AI Studio上から「Pro」モデルを使用することができます!
「Nano」についてもGoogle Pixel 8 Pro経由で利用可能です!
最も性能が高い「Ultra」については現在はまだ使用できず、2024年初頭から利用可能となる予定だと発表されています。
Google BardはGoogleアカウントさえあれば無料でどなたでも使うことができます。日本語でのチャットでの応答も可能なのでご安心ください。
Geminiの始め方を簡単にご紹介します!
Bard上での始め方
まずはGeminiのサイトにアクセスします。
ページを下にスクロールしていくと、上の画像のような画面に辿り着きます。こちらから「bard.google.com→」と書かれたボタンをクリックするとBardの画面に移動します。これで準備は完了です!
試しに「あなたはGeminiですか?」と聞いてみましょう。
Geminiが適用されていない場合,
このように「私はGeminiではありません」という回答が返ってきます。
次に先ほどのリンクをクリックした場合のBardの返答を示します。
このように自分はGeminiであるという回答をしてくれました。
このようにGeminiが実際に導入できているか気になる場合は質問してみましょう。
Google AI Studio上での始め方
こちらは2023年12月14日に公開された方法です。
①「Google AI Studio」を開く(リンクはこちら)
②利用規約に同意する
リンクを開くと、上記のような画面になりますので、「I consent〜」から始まるチェックボックスにチェックを入れましょう。
その他のボックスへのチェックは必須ではないです。
③Gemini Proを始める
「New Prompt」のボタンをクリックすると利用開始できます!
詳しい使い方については第2章で紹介しています。
また、「Get API key」をクリックすることでAPIの利用も可能です。
1-2『Gemini』の特徴
Geminiの特徴をいくつかご紹介します。
マルチモーダル
Geminiはマルチモーダルに対応しています。マルチモーダルとは簡単にいうと、複数の情報のデータを処理することができるということです。複数の情報とは、具体的に「テキスト」「画像」「音声」「動画」「コード」などのようです。
例えばペンギンの画像を添付した状態で画像の説明を指示します。
上の画像のように画像にペンギンの群れがいることと周りに見える景色を説明してくれました。このことから、画像を認識した上でテキストの指示にも従っていることがわかります。
次に、例えばChat GPT(GPT-3.5)に「犬の画像を見せてください」という指示を送ると、
このようにチャット画面から犬の画像を見ることができませんでした。
一方でGeminiに同じ質問をしてみると、
上の画像のようにいくつかの犬種の説明とともに画像を出力してくれました。このように画像とテキスト両方の出力もできます。
ただし、ChatGPTでも画像入力を行うことは可能です。詳しくはこちらの記事をご覧ください。
3種類のモデル
先ほど述べたようにGeminiには「Nano」「Pro」「Ultra」の3つのモデルがあります。それぞれの特徴を紹介していきます。
Gemini Nano
Gemini Nanoはオンデバイスタスク向けのモデルとして紹介されています。デバイス向けということでGemini Nanoを利用できるのは、現在Google Pixel 8 Proのみのようです。Gemini Nanoを搭載したデバイスとしての機能は以下のとおりです。
- レコーダーの要約
Google Pixel 8 Proのレコーダーアプリで録音した音声の要約をすることができます。オフライン状態でも利用できるようです。しかしながら現在は英語のみに対応しており、日本語への対応は未定とのことです。
- スマートリプライ
メールやメッセージなどで返信文を予測する機能がキーボードに搭載されています。こちらも対応言語はUSキーボードのみとのことです。
Gemini Pro
Gemini Proは幅広いタスクに対応するモデルとして紹介されています。こちらは先ほど述べたようにGoogle Bardで使うことができます。
AIの性能を評価するためにあたっていくつかのテストを受けさせることがあります。その中で「MMLU」という 57の学術分野の多肢選択問題のテストと、小学校の算数レベルの問題のテストにおいてGPT3.5より優れたスコアであることが確認されています。
また、開発者や企業向けに12月13日より開発者ツールのGoogle AI StudioやGemini APIを通じてGemini Proが利用できるようにもなるようです。
現状Google BardにてGemini Proは無料で使うことができるため、同じ無料であるならば今後Google Bardを使う人が増えるかも知れませんね。
Gemini Ultra
Gemini Ultraは非常に複雑にタスクに対応する最も有能かつ最大のモデルとして紹介されています。
上の画像はGemini Ultraのテキストプロンプトによる性能をいくつかの項目でGPT-4と比較したものです。
このようにほとんどの項目でGPT-4を上回る結果となっていることがわかります。マルチモーダルによる性能では全ての項目でSOTA(現時点での最先端レベル)を上回る結果を出しています。
このことからもGemini Ultraが今までのAIを超える性能を持ったものになる可能性高いということがわかります。
Gemini Ultraはまだ使うことはできませんが、2024年の始め頃にGemini Ultraを導入した「Bard Advanced」が使えるようになるそうです。詳しい時期や料金などは不明ですが期待が高まりますね!
2章『Gemini』の使い方
「Gemini」は現状では、以下の2通りの方法でGemini Proが利用可能です。
①Bardという既存のGoogleが開発した対話型AIに搭載されているGemini Proを使用する
②「Google AI Studio」上で利用する
それぞれについて解説します。
2-1Bard上でのGeminiの使い方
まず、Gemini Proを導入したGoogle Bardを使ってどのようなことができるのか、実際に使って紹介したいと思います。
画像の文章を読む
上の画像はGoogleから実際に発表されたGeminiに関する記事の一部になります。このサイトが英語で書かれているため何が書いてあるかわからない、と思った時にこの画像を用いてGeminiに質問してみましょう。
従来のBardでも同じことはできるのですが、画像の中の「見出し」「本文」といった文章の役割を区別する能力がGeminiの方が高いと感じました!
画像からコードを書く
次に本サイトのホーム画面のスクリーンショットをプロンプトに添付して、画像の情報のみからサイトを再現するようなコードを書いてもらいたいと思います。
上の画像のように、テキストと画像を理解した上で画像の通りのページを作るコードを生成してくれました!画像の情報のみからどこの部分がh2タグに当たるかなどを判断してサイトを作っています。このクオリティが無料で使えるのは素晴らしいです!
上の画像はGeminiを導入していない状態でのBardでの同じプロンプトでの回答です。回答の質に大きな差が生まれていることがわかります。
②Google AI StudioでのGeminiの使い方
2023年12月14日に発表されたGoogle AI Studio上でのGemini Proの使い方を紹介します。(リンクはこちら)
こちらもBardと同じく無料での利用が可能です。(APIを利用する場合は有料)
まずは、画面左側の「Create new」→「Freeform prompt」の順にクリックしましょう。
次に画面右側の「Model」からモデルの選択を行いましょう。
「Gemini Pro」はテキストの入力にしか対応していませんが、「Gemini Pro Vision」なら画像の入力にも対応しています。
最後に画像を読み込ませて、画面下側の「Run」をクリックしましょう。
実際に使用した例は以下となります。
「Google AI Studio」ではBardよりもモデルの動作を詳細に定義することが可能ですので、ぜひ実際に使用してみてください。
3章 Geminiの料金について
Gemini Ultraについてはまだ発表されていません。
そのため現在利用可能なGemini Proの利用料金について解説します。
Gemini Proの利用料金
Gemini Proは「Bard」で利用する場合も、「Google AI Studio」で利用する場合も無料です!
APIの利用料金
API経由で利用する場合は料金がかかります。
・入力
文章は1000トークンあたり0.00025ドル(約0.035円)
画像は1枚あたり0.0025ドル(約0.07円)
・出力
1000トークンあたり0.0005円(0.35円)
ChatGPT APIと比較してもかなり安く抑えられていますね!(ChatGPT APIの料金についてはこちら)
4章まとめ
今回は発表されたばかりのGoogle発の新AI Geminiについて紹介しました。
無料で使えるGemini Proだけでもかなりの性能の良さが見受けられました。
Gemini Ultraについてはまだ性能のスコアのみしかわかっていませんがかなり期待できるものになりそうです。
今回紹介した他にもAPI経由での利用なども可能なので、ぜひ実際に利用してみてください!
【資料無料ダウンロード】
・AI業務活用お役立ち資料
・用途別のおすすめAIをご紹介
・生成AIの業務導入事例も掲載
関連記事
この記事は役に立ちましたか?
もし参考になりましたら、下記のボタンで教えてください。
コメント