先日、OpenAIよりChatGPTの新モデルであるGPT-4o(GPT-4 omni)が公開されました!基本的な性能、機能といった内容は以前別の記事で紹介しています!ぜひこちらの記事からご覧になってください。
今回は新モデルGPT-4oの中で、画像認識・画像生成についてフォーカスしてご紹介していきたいと思います。どれくらいの精度があるかといったことや新たな使い方など詳しく解説しますので、ぜひ最後までご覧ください。
1章 GPT-4oの画像生成・画像認識能力
まずは、GPT-4oの画像生成・画像認識能力についてどのようなアップデートがなされたのか簡単にご説明します。
人物画像を似顔絵に
こちらの画像では、男性の画像を入力してプロンプトで画像の解説をしています。さらに、画風を指定しながら似顔絵を描くように指示しています。実際に出力された似顔絵では、テキストプロンプトによる説明以外の画像からしかわからない情報もしっかりと取り入れた似顔絵を作っていることから、しっかりと画像を認識できていることがわかります!
画像の一貫性
https://twitter.com/SuguruKun_ai/status/1790114169204715931
こちらのX(旧Twitter)の投稿では、GPT-4oの画像生成についての特徴がさまざま紹介されていますが、特に注目すべき点が③の生成した画像の一貫性という点です。一度生成したキャラクターについて異なる場面での画像を生成することができています。
今までのGPT-4の画像生成では今まで生成した画像に関連した画像を生成するということはできないという印象がありました。画像生成に特化したAIでは、シード値というものがあります。これは生成する画像の特徴などをシード値によって管理することができるもので、シード値とプロンプトの組み合わせによって生成する画像を制御することができます。
GPT-4oにもこのようなシード値をテキストプロンプトから制御することができるようになったのでしょうか。後ほどの章で、一貫性については実践して性能を評価していきたいと思います。
文字認識
こちらは、OpenAIが公開した画像認識能力を評価したテストベンチスコアになっています。全ての項目において従来モデルや他のLLMより優れたスコアを出している上に、今までのスコアをかなり大きく更新していることがわかります。
そんな画像認識能力は画像内の文字を認識する際にも発揮されており、従来の画像認識能力ではできなかったタスクができるようになりました。
12. La magia OCR de GPT-4o pic.twitter.com/yRG6eOPZnn
— Papop | IA ⭕️ (@IApapop) May 16, 2024
こちらは、ノートに手書きで文字を書いたものの写真をGPT-4oに読み込ませて、しっかりとノートに書いてある文字の内容が読み取れているかを検証しているものです。
このように、人間が書く文字特有のアルファベットを繋げて書くような癖のある書き方の文字もGPT-4oではしっかりと任正規で来ていることがわかります!
2章 実際にGPT-4oの画像生成・画像認識を確かめてみた
それでは、実際にGPT-4oを使って画像生成、画像認識の力がどれほどのものかを確かめていきたいと思います!
画像生成
始めに、一枚特徴的なキャラクターを画像で生成してもらいましょう。
ヘッドホンをしているひまわりのキャラクターの画像を出力してください
生成された画像はこちらになります。
キャラクターの記憶
今後、このキャラクターの違う場面の画像を生成してもらいたいのでこちらのキャラクターをGPT-4oに記憶してもらいましょう。
以後こちらのキャラクターを「ノリノリひまわり」と名付けます。記憶してください
これでGPT-4oに作成したキャラクターを覚えてもらえたはずです。一貫性のあるキャラクターを生成できるかを試してみましょう!
「ノリノリひまわり」 がサングラスをかけている画像を出力して
生成された画像はこちらになります。
ひまわりがしているヘッドホンのデザインが変わりましたが、「ノリノリひまわり」という単語から、ヘッドホンをしているひまわりという認識はしっかりとされているようです。多少見た目に変化はありますが、許容範囲と言えるのではないでしょうか!
画像認識
今回は、ノートに殴り書きをした実験セットアップの写真をGPT-4oに読み込ませて、どのようなセットアップであるかを尋ねてみました。さらに、こちらのセットアップを理解した上で実験セットアップをGPT-4oに画像として出力してもらいました。
殴り書きした写真はこちらになります。
図も簡略化して書かれている上にじもかなり汚いですね笑 人間でもギリギリ読み取れない人がいそうですが、結果はいかに!
ちなみにテキストプロンプトは以下のように入力しました。
こちらの画像は実験のセットアップを示しています。画像から読み取って回路図を説明し、画像を出力してください
こちらに対する回答は以下のようになりました。
この回路図は、信号発生器(Signal generator)、オシロスコープ(Oscilloscope)、アンテナの信号とグラウンド(Antenna Signal and Ground)、スペクトラムアナライザー(Spectrum analyzer)を使用した実験セットアップを示しています。以下にそれぞれの接続を説明します。
回路図の説明
信号発生器(Signal generator):
信号発生器は、アンテナ信号とアンテナグラウンドに接続されています。
信号発生器から出力された信号がアンテナに供給されます。
アンテナ信号(Antenna Signal)とアンテナグラウンド(Antenna Ground):
アンテナ信号とグラウンドは、それぞれ信号発生器と接続されており、アンテナに供給される信号を提供します。
また、アンテナ信号はオシロスコープとスペクトラムアナライザーにも接続されています。
オシロスコープ(Oscilloscope):
オシロスコープはアンテナ信号を測定するために接続されています。
信号の時間的な変化を観察することができます。
スペクトラムアナライザー(Spectrum analyzer):
スペクトラムアナライザーもアンテナ信号に接続されています。
信号の周波数スペクトルを分析するために使用されます。
回路図の画像
以下に、手書きの回路図を基にした図を作成しました。
この図では、信号発生器がアンテナに信号を供給し、アンテナ信号がオシロスコープとスペクトラムアナライザーに接続されている様子が示されています。
この回答から少なくともわかることとして、以下のことがあります。
- ノートに書かれた実験装置の名称はしっかりと読み取ることができている
- どの装置がどの装置に繋げられているかを理解できている
回路図は画像で出力するように命令したのですが、出力されたのはアスキーアートでの回路図の出力でした。逆にこちらの方が難しいのではないかとも思いましたが少なくとも命令に100 %沿った回答はできていません。
また、文字だけを読み取って実験装置の名前を元にGPT-4oの知識から回路図を組み直した可能性も考えられます。しかし、それはそれでGPT-4oの性能の高さを示している結果とも言えますね。
しかしながら殴り書きのノートからこれだけの情報量をしっかりと認識できるということは従来までのモデルではありえないことでした。完璧ではないにしろ、画像認識能力は確実に向上していることがわかります。
3章 まとめ
今回は、新たに公開されたChatGPTのモデルGPT-4oの画像出力・認識に焦点を当ててご紹介してきました。特に、殴り書きのノートの文字を読み取れたことには筆者自身非常に驚きました。
今後、音声機能も実装されていくのでそちらの方も楽しみですね。
この記事は役に立ちましたか?
もし参考になりましたら、下記のボタンで教えてください。
コメント