こちらの記事では、GPT-4Vによる画像入力・画像認識・画像読み込みの方法や、プラグインを用いた方法など、ChatGPTを用いて画像にアプローチする様々な方法を紹介しています!
目次
第1章 ChatGPTによる画像入力・画像認識の概要
会話型AIであるChatGPTに画像入力・画像認識・画像読み込み能力なんてあるの!?と思われるかもしれません。
ところが、OpenAIは2023年9月25日、対話型AI(人工知能)「ChatGPT」の有料版に画像認識機能を追加すると発表しました。『GPT-4V』と呼ばれる新機能です!
さらに、2023年11月6日、ユーザーが自分に合わせてChatGPTをカスタマイズして公開できる新機能『GPT Store』を発表しました!
ChatGPTは会話型AIですが、実はかなり多機能で、単なる会話相手にとどまらず様々な方法で活用する事ができます。
その仕組みや方法について解説します。
1-1 GPT4の画像認識能力(GPT4-V)
皆さんはGPT4に画像認識能力が備わっていることをご存知ですか?
GPT3.5モデル(ChatGPT無料版)とGPT4モデル(ChatGPT有料版)の大きな違いがこの画像認識能力です。
以前は、ChatGPTにそもそも画像を入力する方法がほとんどなかったため、この違いを実感することはできませんでした。
しかし、最近追加された『Code Interpreter(Advanced Data Analysis)』機能と、プラグインによって画像を入力することが可能となり、ChatGPTに対して画像認識・画像生成といったタスクを要求することが可能となりました。
さらに9月25日のOpenAIの発表によると、通常のGPT4がGPT-4Vにアップグレードされ、画像入力・画像認識を行うことが可能となりました!(リンク)
この記事ではこの既存の、『Code Interpreter(Advanced Data Analysis)』機能と、『プラグイン』を用いて画像入力を行い、ChatGPTに画像認識・画像生成させる方法および、新機能GPT-4Vの使い方を紹介します。
1-2 画像認識・入力における注意点
先ほどGPT4には画像認識能力があり、『Code Interpreter(Advanced Data Analysis)』機能と、『プラグイン』機能などを組み合わせること、もしくはGPT4-Vを用いることで画像入力が可能になると紹介しましたが、実はこれらの機能はすべて有料プランでしか使用できません。
その為現状では、画像認識・画像入力を行うためにはChatGPT Plus(有料プラン)に加入する必要があります。
月額20ドルとそこそこ高額なので、必要性に応じて加入すると良いでしょう。
ChatGPT Plus(有料プラン)と無料プランの機能面での比較は以下の記事をご参照ください。
ChatGPT Plus(有料版)と無料版では何が違うのか?
では、次の章より、具体的な方法を解説していきます!
第2章 画像入力・認識・読み込みの方法
2-1 プラグインを利用する方法
『SceneXplain』
こちらのプラグインは文章から画像を生成するタイプではなく、画像を入力することで似た画像を生成するというものです。
ただし機能を利用するためには一度画像をどこかパブリックな場所にアップロードする必要がある点がネックです。
2-2 ChatGPTの『Code Interpreter』機能を利用する
『Code Interpreter(Advanced Data Analysis)』を用いると、画像の入力を行い、こちらがアップロードした画像について、画像の色素分析や画像の拡大・編集などが可能です。
先ほど生成した画像を入力して、色素分析を行なってもらいました。このように、『Code Interpreter(Advanced Data Analysis)』を用いることでChatGPTへの画像の入力が可能となり、利用の幅が増えます!
また、『Code Interpreter(Advanced Data Analysis)』を用いることで画像形式の変換も可能です。
具体的には
- JPEG (.jpeg, .jpg) → PNG (.png)
- PNG (.png) → JPEG (.jpeg, .jpg)
- SVG (.svg) → PNG (.png)
- BMP (.bmp) → PNG (.png)
といった変更をChatGPTに『Code Interpreter(Advanced Data Analysis)』を介して画像を読み込ませることで可能となります。
画像形式の変更について詳しくはこちらの記事をご覧ください。
2-3 新機能GPT-4Vによる画像入力・画像認識
OpenAIの発表によると、GPT4に音声認識能力が備わるとともに、画像入力も可能となるようです。
OpenAIの発表の中には以下のような記載があります。
Plus and Enterprise users will get to experience voice and images in the next two weeks. We’re excited to roll out these capabilities to other groups of users, including developers, soon after.
日本語に直すと、『Plus および Enterprise ユーザーは、今後 2 週間以内に音声と画像を体験できるようになります。私たちは、これらの機能を開発者を含む他のユーザー グループに間もなく展開できることを楽しみにしています。』とのことです。
2週間以内に解禁されるとのことで楽しみですね!
画像入力・認識機能は目の見えない人や弱視の人のための無料モバイルアプリである Be My Eyes の技術を用いているようです。
実際にブラウザ版のChatGPTを開くと以下のように、チャット欄の左に画像入力のボタンが追加されています。
こちらのボタンをクリックして、画像をアップロードすると、その画像についてChatGPTとの会話が可能となります。
アプリ版では以下のような画面となります。
アプリ版においては3つのボタンが追加されています。
一番左側はカメラで写した画像から文字を読み取る機能、真ん中は写真を読み込ませてChatGPTに画像認識を行わせる機能、一番右がファイルをアップロードして、ファイル内容について会話する機能となっています。
GPT4-Vの実用例
ではこのGPT-4Vの画像入力・画像認識機能をどの用に活用すれば良いのでしょうか?
①プログラミングコードを書いてもらう
まず、最も汎用性の高いものはおそらくプログラミングコードを聞き出すというものかと思います。
実際に当サイト『AITech』のホーム画面を入力したところ、サイトを構築するプログラミングコードを出力してくれました。
こんなアプリ作りたいな〜がすぐに実現する時代となるかもしれません。
正直とんでもない技術だなと驚いています笑
②文字で記入しにくい内容を読み取らせる
画像認識によって、今までChatGPTに入力できなかった図やグラフを元に会話することが可能となりました。
また、数学の手書きの問題と回答をアップロードしてその内容を解説させることが可能です。
積分など数学の複雑な数式などを入力する手間も減らすことができますね
③問題を解決してもらう
こちらは汎用性は高くないですが、ちょうど困っていて助かった使い方があったので紹介します。
最近サイトの名称を『AITechWorld』から『AITech』に変更したのですが、その際に検索結果上でその変更が反映されなかったため、検索結果の画像を入力し、ChatGPTに聞いてみました。
すると上記のように丁寧に回答してくれました。
プラグインまで考慮してくれたのですが、自分はまさにこの『ALL in One SEO』というプラグインを入れており、このプラグインの設定を変更していなかったことに気づくことができました。
このようなトラブルシューティングにも画像入力が可能となったChatGPTは大いに活用できるかと思います!
④エクセルやスプレッドシートの関数を聞く
画像入力機能では、エクセルやスプレッドシートの画像を入力することで、その内容について質問することが可能です。
上記のように、関数で繋がった2列のうち片方を削除する方法を聞いてみました。
回答してくれましたが、これだと、C列に情報が保存されないため、もう少し詳しく情報を与えてみます。
すると上記のように正しい回答を返してくれました。
やはり画像入力・画像読み込み機能においても、プロンプト(質問文)の重要性は依然として高いままであると言えそうです。
この他にも画像入力機能を活用することで、以下のようなことが可能です。
・絵画の画像を入力して、その絵画について詳細に説明させる
・webサイトの画像を入力して、そのサイトを作成するためのプログラミングコードを出力させる
・アプリのUIの画像を入力してそのアプリを作成するためのコードを出力させる
・複雑で専門的な図を入力し、平易な言葉に変換して説明させる
・写真を入力し、どのように撮れば最適化されるかのアドバイスを聞く
・1日の食事の画像をアップし、カロリー計算を行う
・冷蔵庫の中の写真を撮り、カロリー計算を元に適切な食事を提示させる
本当に様々な使用方法が考えられ、ChatGPTに留まらず、ビジネスや日常に大きな影響を及ぼすアップデートとなるでしょう!
2-4GPT-4VとCode Interpreterの画像認識の違い
『Code Interpreter(Advanced Data Analysis)』の画像認識能力と、GPT-4Vの画像認識能力の違いについて解説します。
『Code Interpreter(Advanced Data Analysis)』は画像をデータとして読み取るのに対し、GPT-4Vは画像をそのまま画像として認識します。
具体的な例を見てみましょう。
まずは、GPT-4Vに絵画の画像を入力しました。
ChatGPTの回答からわかる通り、GPT-4Vは画像を”絵画”として認識できており、」その作者や背景などを細かく解説してくれています。
では、次にCode Interpreter(Data Advanced Analysis)に入力してみましょう。
こちらの回答を見て貰えばわかる通り、画像のメタデータの抽出や統計的な分析は可能であるが、”絵画”として画像を認識することはできないようです。
このような違いのため、Code Interpreter(Data Advanced Analysis)は画像を読み込ませて統計的な処理やデータ化を行いたい場合に使用し、それ以外の場合はGPT-4Vに画像を読み込ませると良いでしょう。
GPT-4Vについてはこちらの記事で詳しく紹介していますので、併せてお読みください。
2-5「GPT-4 Turbo with Vision」を用いた画像認識
11/6のアップデートで追加された新APIである「GPT-4 Turbo with Vision」を用いて、ChatGPT以外のサービス上でもGPT4の画像認識機能を活用することが可能です!
具体的には以下のようなコードとAPI Keyを用いることで画像認識を行うことができます。
from openai import OpenAI
client = OpenAI()
response = client.chat.completions.create(
model="gpt-4-vision-preview",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "What’s in this image?"},
{
"type": "image_url",
"image_url": {
"url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",
},
},
],
}
],
max_tokens=300,
)
print(response.choices[0])
modelにはgpt-4-vision-previewを指定しています。これによって画像の入力が可能となります。
roleにはGPTの役割を指定します。“system”は「システムの指示」を、”user”は「ユーザーからの指示」を、”assistant”は「アシスタントの回答(GPTに求める回答例)」を意味します。
typeにimage urlを指定し、その後urlを入力することで画像の入力を行います。
「GPT-4 Turbo with Vision」について詳しくはこちらの記事をご覧ください
第3章 まとめ
今回はChatGPTに画像入力によって画像を認識させる方法を紹介しました。
現状では、無料版のGPT3.5でこれらの業務を行うことは厳しく、GPT4の『Code Interpreter(Advanced Data Analysis)』を用いる方法かプラグインを用いる方法、GPT-4Vを用いる方法の3択になります。
現状、画像入力・画像の読み込み・画像認識に関してはGPT-4Vが最も使い勝手が良さそうです。
ただし、統計的な処理を行いたい場合は『Code Interpreter(Advanced Data Analysis)』を、画像生成を行いたい場合はプラグインを利用することも検討してみると良いでしょう。
紹介した通り、それぞれに向き不向きがあり、プラグインに関しては様々な種類がありますので、実際に使ってみて目的に合致したものを見つけてみてください!
執筆者:河津大誠
【資料無料ダウンロード】
・AI業務活用お役立ち資料
・用途別のおすすめAIをご紹介
・生成AIの業務導入事例も掲載
この記事は役に立ちましたか?
もし参考になりましたら、下記のボタンで教えてください。
コメント