日本時間2024年5月14日にOpenAIの人工知能言語モデルChatGPTに、新たなアップデートが施されました。このアップデートによって次世代AIモデル「GPT-4o」(GPT4オムニ)が登場しました!ChatGPTはこれまでにない進化を遂げ、ユーザーとのコミュニケーションがより自然で seamless なものになりました。
今回は、どのようにGPT-4oは変化を遂げたのか、実際に使っていきながら性能をご紹介します!
目次
1章 GPT-4oとは
1-1 OpenAIの次世代AIモデル
GPT-4oは、OpenAIが開発した最新のAI言語モデルです。従来のChatGPTを大きく上回る性能を誇り、人間とのインタラクションをより自然で直感的なものにします。
以前GPT-2 chatbotというChatGPTの新モデルのデモではないかと噂されていたチャットボットがありましたがこちらは実際に、GPT-4oのデモであったようです!
it is a very good model (we had a little fun with the name while testing) pic.twitter.com/xKIwhKyRGt
— Sam Altman (@sama) May 13, 2024
「テスト中に名前に遊びを入れました」ということで、gpt-2chatbotという名前はサムアルトマンの遊び心だったのですね!
1-2 マルチモーダル処理
GPT-4と肩を並べる性能のLLMとして、Claude3 Opusがあります。Claude3 OpusとGPT-4の違いとしてClaude3 Opusにはマルチモーダル処理ができないという点があります。マルチモーダルはテキストだけでなく、画像や音声、動画といった様々な情報処理を同時に行うことができるものです。
GPT-4oの特徴として、テキストだけでなく音声や画像も統合的に処理できる点にあります。つまり、ユーザーは音声で質問し、画像を参照しながら、AIとの対話を楽しむことができるのです。
これは、GPT-4の時代からあった機能であったのですが、後ほど紹介するようにその性能が大幅に向上しています!
2章 GPT-4oのアップデート内容
2-1 他モデルを凌駕する性能
GPT-4oは、OpenAI自身の従来モデルGPT-4 Turboはもちろん、他社のトップクラスモデルであるClaude 3 OpusやGemini 1.5 Proをも上回る卓越したパフォーマンスを見せています。
画像出典 OpenAIこちらがGPT-4oと他のLLMのモデルの性能を比較したグラフとなっています。ご覧の通り、ほとんどの項目において首位を獲得しています。
2-2 音声・画像・テキストの統合処理
音声
こちらの動画の11分ごろからの場面では、GPT-4oと男性が音声で会話をしている様子が見られます。こちらの動画からわかることとして、男性が話しかけるとほぼノータイムでGPT-4oからの返答がありました。さらに、GPT-4oの話し方として流暢でかつ抑揚が豊かであると感じました。
このように、従来のChatGPTが主にテキストベースの対話を得意としていたのに対し、GPT-4oは音声認識、画像理解、テキスト読み上げ機能を統合。これにより、より自然で臨場感あふれるコミュニケーションが可能になりました。
画像
もちろん画像生成能力や画像認識能力も大幅に向上しています!
こちらの画像では、男性の画像を入力してプロンプトで画像の解説をしています。さらに、画風を指定しながら似顔絵を描くように指示しています。実際に出力された似顔絵では、テキストプロンプトによる説明以外の画像からしかわからない情報もしっかりと取り入れた似顔絵を作っていることから、しっかりと画像を認識できていることがわかります!
動画
画像生成によって3D画像を作ることやそれらを組み合わせて上の動画のように3D画像が回転している動画を作ることもできます。
2-3 無料ユーザーへの提供と開発者向けAPIの強化
GPT-4oの登場により、これまで有料プランのみで提供されていたGPT-4の機能が、無料ユーザーにも一部開放されることになりました。
こちらが、ChatGPTの料金プランの画像となっているのですが、無料プランでもGPT-4oの限定的なアクセスができるなどの良心的な対策がなされています!
また、開発者向けAPIも大幅に強化。処理速度が2倍、価格が半額になり、利用制限も緩和されました。
GPT-4oでは、日本語や中国語を含む20以上の言語でトークン化(文章を単語や文字に分割する処理)の効率が改善されました。ちなみに日本語は消費トークン数が1.4分の1となっています。トークンはAPIを用いてChatGPTを使う際に入力する文字数と出力する文字数両方がカウントされます。そのため、消費トークン数が少なくなるとコストを相当削減することができます。
さらに、GPT-4oのAPIの出力・入力にかかる金額は、従来のGPT-4turboの金額の半分となっています!
これにより、言語処理の速度が向上し、特に日本語での応答速度に目を見張るものがあります。。
3章 GPT-4oの使い方
早速実際に新しくなったChatGPTを使っていきましょう!ブラウザ版には、こちらからアクセスしましょう
こちらがChatGPTの無料プランでのUI画面となっております!以前のバージョンでは、画面左上にGPT-3.5やGPT-4といったように現在のバージョンが書かれていましたが、今ではChatGPTという表記でまとめられています。
無料プランでは、GPT-3,5とGPT-4oの2つのモデルを使うことができます(GPT-4oは限定的な利用)が、何も設定をしなければ自動的にGPT-4oが選択されているようです!
上の画像のように、ChatGPTの返答時の最後の赤枠で囲んだ部分でモデルを変更することができます。
このようにGPT-4oとGPT-3.5の2種類を選ぶことができます。GPT=4oは無料プランの場合利用料に制限されているため使い所を見極めながらモデルを使い分けていきましょう!
GPT-4o を実際に使ってみた
始めに、英語論文の全文和訳をさせてみました。以前はコンテキストの関係もあってか長い論文の日本語訳を求めると、全文和訳ではなく内容の要約となることが多々ありました。しかしながら、GPT-4oはプロンプトの工夫も必要なく、素直に論文の全文和訳をしてくれました!
また、論文には、専門用語が多く含まれていますが専門用語も適切に訳すことができています。さらに、使っていて感じたことは、出力のスピードが非常に速いということです。Claude3 Haikuには及びませんが、Haikuに次ぐ速さといって問題ないのではないでしょうか。
推論力・Claude3 OpusとGPT-4oの比較
次に、このモデルの推論力を試していきます!多くのLLMが間違える定番の質問
あなたはマラソンをしています。2位の選手を抜いた時、あなたは何位になりますか?
こちらをプロンプトにしていきます。多くの LLMは1位と答えてしまいます。マラソンの順位の仕組みを理解して考えることができるかが鍵となります。
なんと、見事正解しました!多くのLLMが間違えた問題という点でGPT-4oの性能の高さが窺える結果となりました。
ちなみに、この問題は、Claude3 Opusも間違えています。また、OpenAIが覇権を取り返したのでしょうか?
4章 まとめ
今回は、待望のChatGPTの新モデルGPT-4oについてご紹介しました!長い間待った甲斐あって大幅の性能向上や新たな機能、より安価なサービス提供と盛りだくさんの内容となりました。
この大幅なアップデートを受けて周りのLLMがどのように対抗してくるか見ものですね。OpenAIは画像生成AIであるSoraの公開も控えており、まだまだ目が離せませんね!
この記事は役に立ちましたか?
もし参考になりましたら、下記のボタンで教えてください。
コメント