ChatGPTのAdvanced Voice・realtimeAPIが登場!OpenAI DevDayの情報まとめ

OpenAIの新たなツールやサービスが発表されるイベントであるOpenAI DevDayが10月1日に開催されました!今回も今後が楽しみになるような新たな発表がたくさんされました。今回は、OpenAI DevDayの主な発表内容について皆さんに紹介していきたいと思います!

1章 OpenAI DevDayの発表内容

2024年10月1日、サンフランシスコで開催されたOpenAI DevDayは、開発者にとって多くの新しいツールやAPIが発表された注目のイベントでした。今回のDevDayは、サンフランシスコ、ロンドン、シンガポールの3都市で同時に開催され、グローバルな開発者コミュニティが集まり、新技術の情報を共有する場となりました。OpenAIは最新の技術と革新的なツールを発表し、参加者たちはAIの未来について新たな視点を得ることができたのではないでしょうか?

OpenAIDevdayの会場の様子

画像出典 OpenAI

今年のイベントは、招待制の対面イベントとして行われ一般公開はされなかったようですが、YouTubeでのライブストリーミングを通して多くの開発者が視聴できました。CEOのサム・アルトマンによる講演は行われず、代わりに製品チームによるプレゼンテーションが中心となりました。以下は、今回のDevDayで発表された主要な内容となっています!

  • Realtime APIの発表: OpenAIは、新しい「Realtime API」をベータ版として公開。このAPIは、音声入力と出力を統合し、低遅延でAI生成音声応答を可能にします。
  • モデル蒸留: 大きなモデルから小型モデルへの知識圧縮を行う「モデル蒸留」の導入により、パフォーマンスを維持しつつ、開発コストを削減。
  • ビジュアルファインチューニング: GPT-4oモデルを画像とテキストでカスタマイズし、視覚的理解が必要なタスクのパフォーマンス向上を実現。

これらの新機能やツールは、AI開発の効率化や応用の幅を広げる可能性を持っています。特にRealtime APIやモデル蒸留、ビジュアルファインチューニングは、開発者にとって今後のプロジェクトで有用なツールとなるでしょう。次の章からそれぞれの発表について詳しく解説をしていきます!

2章 Open AIのRealtime APIとは?

OpenAI DevDay 2024で発表されたRealtime APIは、音声入力と出力を統合することで、リアルタイムでの自然な音声会話を可能にする新しいAPIです。音声アシスタントの開発が簡素化され、従来の複数モデルの利用が不要になりました。以前紹介したAdvanced voiceモードのAPIにあたるのでしょうか?

  • 低遅延のマルチモーダルエクスペリエンス: 音声入力と出力をリアルタイムで処理し、ユーザーに自然な会話体験を提供します。これにより、従来のAPIよりもスムーズなインタラクションが可能になりました。
  • 音声会話のサポート: 6つのプリセット音声が用意されており、これを利用してリアルタイムでの会話ができます。これにより、ユーザーにパーソナライズされた音声応答を提供することができます。
  • 中断処理: 会話中の中断を自動的に処理し、AIと人間の対話により近い体験を実現。ユーザーが割り込んで話し始めることができ、会話の自然な流れを維持できます。

Realtime API料金

Realtime APIは音声入出力とテキスト入出力の2つのトークンを同時に使用するようです。

テキストトークン

  • テキスト入力:100 万トークンあたり 5 ドル
  • テキスト出力:100 万トークンあたり 20 ドル

オーディオトークン

  • 音声入力: 1分あたり0.06ドル
  • 音声出力: 1分あたり0.24ドル

また、Realtime APIはすでにすべての有料開発者が利用可能であるとのことです!

3章 OpenAIのモデル蒸留とは?

OpenAI DevDay 2024で発表されたモデル蒸留(Model Distillation)」は、大規模なAIモデルから小型モデルへの知識を圧縮する技術です。これにより、小型モデルでも高いパフォーマンスを維持しながら、開発コストを削減できます。

モデル蒸留の概要

  • 目的: モデル蒸留は、リソースが限られた環境でも高性能なAIを実現するための技術であり、大規模なモデルの学習内容を小型モデルに転移することにより、効率的にAIモデルを構築します。
  • 利点: モデル蒸留を利用することで、小型モデルのパフォーマンスが向上し、計算資源の節約が可能になります。これにより、AI技術がより多くの企業や開発者にとって利用しやすくなります。

応用例

例えば、高性能な大規模モデル(例:GPT-4oやo1 preview)の入力と出力のペアをAPI経由で自動的にキャプチャして保存することで、蒸留用のデータセットを簡単に生成できるようになりました。これによって、小型モデルを蒸留し特定のタスクに特化したモデルを効率的に開発できるようになります。

また、大規模なモデルの使用が必要だったケースでも、蒸留によって小型モデルで同等のパフォーマンスを実現するため、コスト削減が期待されます。

モデル蒸留は特にリソースが限られた環境でのAI導入を促進し、開発者がより多様なアプリケーションを構築する手助けとなります。今後、モデル蒸留技術の進化により、さらに軽量で効率的なAIモデルの開発が期待されます。

4章 画像認識ができるファインチューニング

ファインチューニングとは?

ファインチューニングは、事前学習済みのモデルに対して新たなデータを使って追加学習を行い、特定のタスクに適したモデルへ微調整する手法です。OpenAI DevDay 2024では、特にGPT-4oモデルのビジュアルファインチューニングが注目されました。

  • 事前学習済みモデルの利用: ファインチューニングでは、大量のデータで学習されたモデルを基盤として使用します。この事前学習済みのモデルに、新しいデータを追加して学習させます。
  • パラメータの微調整: モデル全体または一部のパラメータを再調整し、特定タスクでの精度向上を図ります。

今回の発表によってユーザーはGPT-4oモデルを画像とテキストを用いてカスタマイズすることができるようになり、視覚的なタスクのパフォーマンスを向上させることができます。また、ファインチューニングによって、少量のデータセットを使ってモデルを調整できるため、特定のタスクにおける精度を効率的に高めることが可能です。

応用例

GPT-4o ベース モデルによって誤ってタグ付けされた速度制限標識が、ビジョンを微調整した GPT-4o モデルによって正常にタグ付けされた例。

画像出典 OpenAI

特に、東南アジアのライドシェア企業であるGrabがこの技術を利用して地図サービスを改善し、車線数の精度を20%向上させ、速度制限標識の認識精度を13%向上させたことが報告されています。これにより、ビジュアルファインチューニングの実用性と効果が証明されていますね。

ビジョンとテキストを微調整した GPT-4o による出力で、ページのスタイルにさらに近づきます。

画像出典 OpenAI

他にもWebサイトのページを学習させることで、デザインの一貫したWebページを作り続けることのできるといった使い方などで多くの企業でも使うことができそうです!

5章 まとめ

OpenAI DevDay 2024では、開発者向けに多くの新しいツールと機能が発表されました。特に、Realtime APIによる低遅延の音声会話、モデル蒸留によるコスト削減、ビジュアルファインチューニングによる画像処理能力の向上など、開発者のニーズに応える革新的な技術が紹介されました。これらの新機能は、さまざまなアプリケーションにおいてAIの導入を促進し、効率的かつ効果的な開発を可能にします。

Realtime APIの低遅延と自然な音声会話、モデル蒸留による効率的な小型モデルの開発、ビジュアルファインチューニングを活用した視覚的なタスクのパフォーマンス向上は、今後のAI開発において大きな影響を与えることでしょう。OpenAIのこれらの発表は、AIの可能性を広げ、開発者コミュニティにとって新たなインスピレーションとなりました。

この記事は役に立ちましたか?

もし参考になりましたら、下記のボタンで教えてください。

関連記事