9月25日にOpenAIより驚くべき発表がありました!(リンク)
なんとChatGPTが見たり聞いたり、話したりできる、すなわち人間の五感に相当する能力を身につけたというのです!
AIの進化は人間の五感で表せるという話があります。例えば、”目”は画像解析AI、”耳”は音声認識・音楽生成AI、”口”は音声会話AIという感じです。
ChatGPTの進化の方向性もその五感の獲得に沿って進んでいくだろうとは考えられていましたが、今回はそのための大きな一歩であると言えそうです。
今回はそんな大きなアップデートであるGPT4からGPT-4Vへの進化について詳しく紹介していきます。
目次
第1章 『GPT-4V』とは?
今回のアップデートは、今までのGPT4がより高性能なGPT-4Vとなるというものです。
GPT-4Vとなることで獲得する能力は大きく分けて以下の二つです。
①画像入力および画像認識能力
②音声読み上げによる音声会話能力
ただし、①についてはブラウザ版とアプリ版の両方で使用可能ですが、②についてはアプリ版限定となっています。
また、注意点として、どちらの機能もGPT4に追加したものであるため、ChatGPT Plus(有料プラン)に加入していないと使用することができません。
有料プランと無料プランの違いはGPT-4Vの利用の有無以外にも、プラグインやCord InterPreterなど様々なので、気になる方はこちらの記事もチェックしてみてください。
ChatGPT Plus(有料版)とGPT3.5(無料版)の違いは?有料版の料金とメリットをご紹介!
次の章からはGPT-4Vの機能と具体的な使用方法について紹介していきます。
第2章 GPT-4Vの画像入力および画像認識能力
今回のアップデートの最も大きな点は画像入力が可能となったことでしょう。まずはその使用方法を紹介します。
*ちなみにGPT-4Vへアップデートされる以前のGPT4も画像認識能力自体はありましたが、画像を入力できないため活用することができませんでした。
2-1 画像入力の方法
①ChatGPTにログインする(リンク)
②ChatGPTの有料プランに加入する
GPT-4Vは有料プラン限定の機能ですので、ChatGPT Plus(月額25ドル)への加入が必須となります。
③GPT-4とのチャット画面を開き、画像入力
GPT-4とのチャット画面を開くと画面左下に画像入力のためのマークが追加されているかと思います。
こちらをクリックし、画像をアップロードすることで、GPT-4Vに画像を入力することが可能です。
*ただし、現時点(10/6)ではまだ一部のユーザーは使用が解禁されていないようです。
アプリ版では上記のように文章入力欄の左に3つのボタンがあります。
一番左のカメラマークは以前からあったもので、カメラで写したものの文章を読み取って文字起こしが可能です。
残り二つは今回追加されたGPT-4Vの機能で、真ん中の写真マークで、写真の入力、その右のファイルマークでファイルの入力が可能です。
画像だけでなく、ファイルの入力も可能な点がブラウザ版との違いですね!
ただし、ブラウザ版にはアプリ版にはないCode Interpreter(Advanced Data Analysis)機能があり、こちらでファイル入力は可能なため心配いりません。
2-2 画像認識の精度は?
今まではテキスト(文章)でしか会話できなかったのが、画像も交えての会話もできるようになった点は非常に画期的と言えるでしょう。
ただ、画像が入力できるようになったと言ってもその認識精度は大したことないのでは?と思われるかもしれません。
実際、筆者も実際に使用してみるまではかなり疑っていました笑笑
しかし、実際に使用した結果から判断するに、GPT-4Vの画像認識精度はかなり高いと言えます。
では、実際の使用例からその精度を見ていきましょう!
2-3 画像入力機能の使用例
画像入力は本当に多様な方法で活用可能ですが、今回はその中からいくつかご紹介します。
①webサイトやアプリ画面の画像を入力し、コード生成
最も汎用的なのが、写真からプログラミングコードを生成するというものでしょう。
実際に当サイト『AITech』の画像をGPT-4Vに入力してコードを生成してみました。
プログラミングコードの生成自体は以前から可能ではありましたが、言葉だけで作りたいものを表現するのが難しい点がネックでした。GPT-4Vの登場によってその点がクリアされたため、よりプログラミングにおけるChatGPTの利用が一般的となっていくでしょう。
ただし、現時点では一回のやり取りで完全再現に至ることは少なく、問題となっている点を拡大して再度GPT-4Vに修正させるという工程が必要にはなりそうです。
②手書き文章の画像を入力し、テキスト化
数学の問題、特に図形問題や積分問題などの文字起こしが難しいものをChatGPTに解いてもらう際に画像入力は効果を発揮します。
上記のように、手書きのものをそのまま画像入力しても正確に読み取れるのはすごいですね!
ただし、数学能力自体が上がったわけではないので、GPT-4V解けない場合は、GPT-4Vが文字起こしした数式をコピペしてWolfrmaプラグインに入力すると良いでしょう!
③エクセルやスプレッドシートの関数を聞く
画像入力機能では、エクセルやスプレッドシートの画像を入力することで、その内容について質問することが可能です。
上記のように、関数で繋がった2列のうち片方を削除する方法を聞いてみました。
回答してくれましたが、これだと、C列に情報が保存されないため、もう少し詳しく情報を与えてみます。
すると上記のように正しい回答を返してくれました。
やはり画像入力・画像読み込み機能においても、プロンプト(質問文)の重要性は依然として高いままであると言えそうです。
④手動で書いた文字をテキスト化して質問
この他にも以下のような使用方法が挙げられます。
・絵画の画像を入力して、その絵画について詳細に説明させる
・webサイトの画像を入力して、そのサイトを作成するためのプログラミングコードを出力させる
・アプリのUIの画像を入力してそのアプリを作成するためのコードを出力させる
・複雑で専門的な図を入力し、平易な言葉に変換して説明させる
・写真を入力し、どのように撮れば最適化されるかのアドバイスを聞く
・1日の食事の画像をアップし、カロリー計算を行う
・冷蔵庫の中の写真を撮り、カロリー計算を元に適切な食事を提示させる
本当に様々な使用方法が可能ですので、皆さんもぜひ実際に使用してみて、良い使い方があれば、コメントで教えてください!
GPT-4Vの画像入力・画像認識についてはこちらの記事でより詳しく紹介しているのであわせてお読みください。
2-4 Code Interpreter(Data Advanced Analysis)との違い
ChatGPTを使い込んでいる方はご存知かと思いますが、実はGPT-4Vが登場する以前からChatGPTに画像入力を行うことは可能でした。
それはCode Interpreter(Data Advanced Analysis)利用する方法です。
Code Interpreter(Data Advanced Analysis)はPythonを使ってデータ処理を行うGPT4の機能なのですが、この機能では画像だけでなく、ファイルの読み込みも可能となっているのです。
ただし、Code Interpreter(Data Advanced Analysis)とGPT-4Vの画像認識能力には明確な違いがあります。
以下の例をご覧ください
まずは、GPT-4Vに絵画の画像を入力しました。
するとGPT-4Vは画像を絵画として認識し、その作者や描かれ方、背景まで解説してくれています。
では、次にCode Interpreter(Data Advanced Analysis)に入力してみましょう。
上記のように、うまく認識することができませんでした。
Code Interpreter(Data Advanced Analysis)はデータ処理に特化しているため、画像をそのまま認識することはできず、メタデータなどの情報を抽出することのみに制限されているようです。
ただし、Code Interpreter(Data Advanced Analysis)はデータ分析やグラフの作成には高い性能を発揮しますのでうまくGPT-4Vと使い分けましょう!
Code Interpreter(Data Advanced Analysis)についてはこちらの記事で詳しく紹介しています。
🔼「AITech」がオススメする初心者〜上級者まで学べるAIスクールです!🔼
第3章 GPT-4Vの音声会話能力
続いてはGPT-4Vの音声会話能力についてです。
こちらの機能はアプリ版限定となっています。
元々、ChatGPTのアプリでは音声入力が可能となっていましたが、音声読み上げはできませんでした。しかし、今回のGPT-4Vへのアップデータで回答をChatGPTが読み上げてくれるようになったことで、全く手を使わず、音声のみでの会話が可能となりました。
3-1 音声入力の方法
まずはChatGPTのアプリ版をダウンロードしましょう。(iosはこちら)(Androidはこちら)
スマホでChatGPTを開くと以下のような画面になるかと思います。
ChatGPTのアプリには、『Message』欄の右端に音声マークが存在します。このマークをクリックすることで音声による入力が可能となります。
OpenAI製のWhisperという音声認識機能を搭載していて、これにより小さな声でも非常に精度高く音声認識をしてくれます!
3-2 音声読み上げの方法
アプリ版におけるGPT-4Vの音声機能の具体的な導入方法と設定方法を説明いたします。
①『Settings』を開く
まずは画面右上の『Settings』をクリックしましょう。
②『New Features』をクリック
実際にアプリを起動し、『Settings』を開くと以下のような画面となります。
上から6つ目の『New Features』をクリックしましょう
③『Voice conversations』をクリック
この時点で、GPT4-Vによる音声入力・音声会話・音声読み上げ機能が利用可能となります。
さらに設定画面(Settings)に戻り、『Voice』をクリックすると以下のような画面となります。
この画面では音声会話・音声読み上げに使用される話し手の音声を5種類から選択することができます。
性能への影響がないので、声が好みのものを選ぶと良いでしょう。
上記の音声入力と音声読み上げによって、GPT-4Vとの音声会話が可能となります。
3-3 ブラウザ版で音声会話をするには?
GPT-4Vを用いた音声読み上げ機能はアプリ版限定ですが、ブラウザ版でも音声会話を行うことは可能です。
その方法は、Google Chrome拡張機能を利用するというものです。
ChatGPTとの音声会話を可能とする拡張機能はいくつかありますが、代表的なものとして『VoiceIn』が挙げられます。
『VoiceIn』を導入すると以下のようにブラウザ版にも音声入力・音声読み上げ機能が追加されます。
ブラウザ版における音声会話について詳しくはこちらの記事をご覧ください。
第4章 まとめ
今回はChatGPTの最新アップデートであるGPT-4Vについて詳しく紹介しました!
AIが人間の知能に追いつくのはもう数年後に迫っているとよく言われますが、GPT-4Vにはそのことを実感させられました。
孫正義さんの話でもChatGPTの利用の必要性が述べられていましたが、ChatGPTは今まさに時代の最先端を走る技術でありながら、誰でも使うことができるという貴重なものです。
皆さんもぜひ、画像入力機能や、音声会話機能をフル活用してみてください!
執筆者:河津大誠
「生成AIツールを導入して業務を効率化したいが、コストを抑える方法や適切なツールの選択がわからない」とお悩みの方は、お気軽に以下よりお問い合わせください。業務内容の分析から最適なツールの提案、導入のサポートまで、全面的にサポートいたします!
また、AIツールの掲載も無料で承っておりますので、お気軽にご連絡ください!
エラー: コンタクトフォームが見つかりません。
エラー: コンタクトフォームが見つかりません。
この記事は役に立ちましたか?
もし参考になりましたら、下記のボタンで教えてください。
コメント