ChatGPT
2023.09.29
2024.05.29
1

＜ChatGPT＞音声入力・音声会話・音声読み上げを行う方法を紹介！

ChatGPTを使用する際に毎回手打ちでタイピングするのが面倒…

文字が小さくて読むのが苦痛…

そんな方のために、今回はChatGPTに音声によって入力し、回答も読み上げてもらうことで、ChatGPTと音声会話を行う方法をご紹介します！

どの方法もかなり精度が高いため、ストレスなく使用することが可能です！

また、9月25日にOpenAIより、GPT-4Vが発表されました。こちらはChatGPTの有料プランに限られますが、GPT4が音声認識能力を持つというものです。この記事ではこのGPT-4Vについても紹介していきます。

ChatGPTについてはこちらで詳しく紹介しています。

ChatGPTと音声会話を行う方法とは？
- 音声会話ができない原因
Google Chrome拡張機能を用いる方法
ChatGPTアプリ版やGPT-4Vを用いる方法
「Speech to Text API」を用いた音声入力
まとめ

ChatGPTと音声会話を行う方法とは？

ChatGPTへの音声入力と回答の音声読み上げによる音声会話を行う方法は主に3つあります。

①Google Chrome拡張機能を用いる方法

②ChatGPTのアプリ版を用いる方法

③GPT-4Vを用いる方法

以上の3つになります。

音声会話ができない原因

ブラウザ版を利用している方は、GPT-4Vがリリースしたのに音声際機能を利用できないことを疑問に思われているかもしれません。

実は、音声会話・音声入力・音声読み上げ機能において、ブラウザ版とアプリ版には大きな違いが存在します。

9/25日にOpenAIによって発表された新機能GPT-4Vですが、こちらの音声会話機能を利用できるのはアプリ版の有料プランのみで、ブラウザ版では、GPT-4Vの画像入力機能は利用できますが、音声会話機能は利用できないのです。

デフォルトの状態では以下のようになっています。

	ChatGPTブラウザ版	アプリ版(無料プラン)	アプリ版(有料プラン)
GPT-4Vの音声読み上げ	❌	❌	○
GPT-4Vの画像入力	○	❌	○
音声入力	❌	○	○

そのためChatGPTのブラウザ版を使用して音声会話を行う場合はGoogle Chrome拡張機能を用いる方法を活用する必要があります。

逆にアプリ版を利用する場合は、無料プランであれば音声入力機能、有料プランであればGPT-4Vによる音声会話機能を利用できるのです。

＊ただし、現時点(10/7)時点で全ユーザーにGPT-4Vが解禁されているわけではない点にご注意ください

それぞれについて詳しく紹介していきます。

Google Chrome拡張機能を用いる方法

Google Chrome拡張機能とは、Google Chromeのブラウザ上でChatGPTを利用する際に、ブラウザに導入することで、ChatGPTとの会話が可能となるというものです。

河津大誠

基本的には拡張機能をダウンロードするだけで良いので非常に簡単です！

Google Chrome拡張機能を用いる利点としては、無料で利用可能であることが挙げられます。また、ChatGPT以外にも使用できるものもあります。

ブラウザ版で音声会話を行う場合には必須と言えるでしょう。

ChatGPTとの音声会話に役立つ具体的な拡張機能としては主に3つ存在するので、それぞれ紹介していきます。

①音読さん(Ondoku3)

『音読さん(Ondoku3)』はAIを用いた音声読み上げソフトです。

画像出典：『音読さん(Ondoku3)』

音読さんがリリースしたChrome拡張機能『Ondoku3-ChatGPT』はChatGPTへの音声入力および音声読み上げを可能とする拡張機能です。

ダウンロードはこちらから可能です。(リンク)

画像出典：『音読さん(Ondoku3)』

ダウンロードが完了すると以下のように、ChatGPTとのトーク画面に、音声入力に関連するボタンが追加されます。

画像出典：『音読さん(Ondoku3)』

このように簡単にChatGPTとの音声会話をスタートすることが可能です。

『音読さん(Ondoku3)』はChatGPTに関連する拡張機能のみでなく、通常の文章をもとに機械音声に変換したり、画像をもとに音声に変換したりも可能なかなり万能なツールです。

基本的には無料で使用することが可能ですが、使用可能文字数に制限があり、それを超える場合や、商用利用を行う場合などは有料プランに加入する必要が出てきます。

『音読さん(Ondoku3)』について、料金や利用方法など詳しくはこちらをご覧ください。

②VoiceIn

今回紹介するのはGoogle Chromeの拡張機能である『VoiceIn』です。(リンク)

画像出典：Voice In

こちらの拡張機能はGoogleの音声認識エンジンを利用しており、ChatGPTに限らずブラウザ上でのあらゆる部分に音声入力が可能となるツールです。

基本的に無料で利用可能で利用回数に制限がない点はかなり使い勝手が良いです！

ただし、音声読み上げ機能はついていないため、音声入力のみの利用になってしまいます。

『Voice In』について詳しくはこちらの記事をご覧ください

③Talk Berry

最後に紹介するChrome拡張機能はUserly Labsによって提供される『Talk Berry』です。

画像出典：Google Chrome web Store

こちらの拡張機能はかなり胆汁な操作方法であり、細かい設定が不要なため、まずお試しで利用するにはおすすめです！

音声の認識精度もかなり高く、音声入力だけでなく、音声読み上げによる音声会話も可能です！

また、全機能が無料で利用可能です！

『Talk Berry』について詳しくはこちら

3つの拡張機能の比較

今回紹介した3つの拡張機能の比較を表にしてみました。

	音読さん(Ondoku3)	Voice In	Talk Berry
音声入力	○	○	○
音声読み上げ	○(複数の種類あり)	❌	○(1種類のみ)
料金	一部有料	一部有料	無料
使用回数制限	1000字/月	なし	なし
辞書機能	○	○	❌

となっています。

個人的には、有料で使うなら最も機能が充実している『音読さん(Ondoku3)』　無料で使うなら辞書機能付きの『Voice In』がおすすめとなります。

全てインストールのみで簡単に利用できるので皆さんもぜひ実際に使用してみてください！

ChatGPTアプリ版やGPT-4Vを用いる方法

先ほど紹介したChrome拡張機能はブラウザ版向けのものですが、ChatGPTにはブラウザ版だけでなくスマホアプリも存在します。

ただし、ChatGPTのスマホアプリ版を利用する場合には音声入力に関しては、拡張機能は必要ありません、なぜならChatGPTのアプリ版には音声入力機能がデフォルトで備わっているのです！

また、有料プランに限り、音声認識機能および音声読み上げ機能が備わったGPT-4Vが登場しました！

これらについてそれぞれ紹介していきます。

ChatGPTアプリ版への音声入力

まずはChatGPTのアプリ版をダウンロードしましょう。(iosはこちら)(Androidはこちら)

画像出典：Googleplay

スマホでChatGPTを開くと以下のような画面になるかと思います。

画像出典：ChatGPT

ChatGPTのアプリには、『Message』欄の右端に音声マークが存在します。このマークをクリックすることで音声による入力が可能となります。

OpenAI製のWhisperという音声認識機能を搭載していて、これにより小さな声でも非常に精度高く音声認識をしてくれます！

無料プランでも利用できるのも強みですね！

ChatGPTのアプリ版には音声入力の他にも、カメラでのテキスト読み込み機能などの便利な機能が多数存在します！

ChatGPTのアプリ版について詳しくはこちら

GPT-4Vによる音声認識

GPT-4Vは2023/9/25に発表された新機能で、ChatGPTとの音声会話および、画像認識を可能とするものです。(公式サイト)

画像出典：OpenAI

こちらの新機能の章についてOpenAIの公式ドキュメント内に以下のような記載があります。

To get started with voice, head to Settings → New Features on the mobile app and opt into voice conversations. Then, tap the headphone button located in the top-right corner of the home screen and choose your preferred voice out of five different voices.
The new voice capability is powered by a new text-to-speech model, capable of generating human-like audio from just text and a few seconds of sample speech. We collaborated with professional voice actors to create each of the voices. We also use Whisper, our open-source speech recognition system, to transcribe your spoken words into text.

Google翻訳は以下のようになります。

音声の利用を開始するには、モバイルアプリで [設定] → [新機能] に進み、音声会話をオプトインします。次に、ホーム画面の右上隅にあるヘッドフォンボタンをタップし、5 つの異なる音声からお好みの音声を選択します。
新しい音声機能は、新しいテキスト読み上げモデルを活用しており、テキストと数秒のサンプル音声だけから人間のような音声を生成できます。プロの声優と協力してそれぞれの声を作成しました。また、オープンソースの音声認識システムである Whisper を使用して、話された言葉をテキストに変換します。

既存のアプリ版の音声認識機能に加えて、音声読み上げによる音声会話が5種類の音声によって可能となりました。

これによってChatGPT同士を会話させるなんてことも可能となるかもしれません。

GPT-4Vの音声機能の導入と設定

アプリ版におけるGPT-4Vの音声機能の具体的な導入方法と設定方法を説明いたします。

①『Settings』を開く

画像出典：ChatGPT アプリ

まずは画面右上の『Settings』をクリックしましょう。

②『New Features』をクリック

実際にアプリを起動し、『Settings』を開くと以下のような画面となります。

画像出典：ChatGPT アプリ

上から6つ目の『New Features』をクリックしましょう

③『Voice conversations』をクリック

画像出典：ChatGPT アプリ

この時点で、GPT4-Vによる音声入力・音声会話・音声読み上げ機能が利用可能となります。

さらに設定画面(Settings)に戻り、『Voice』をクリックすると以下のような画面となります。

画像出典：ChatGPT アプリ

この画面では音声会話・音声読み上げに使用される話し手の音声を5種類から選択することができます。

性能への影響がないので、声が好みのものを選ぶと良いでしょう。

GPT-4Vについてはこちらの記事で詳しく紹介しています。

「Speech to Text API」を用いた音声入力

「Speech to Text API」は11/6のアップデートで追加されたAPIで、ChatGPT以外のサービス上でもGPT4を介した音声入力が可能となります。

Speech to Text APIは、最先端のオープンソース large-v2 Whisperモデルに基づいて、2つの音声テキスト化機能、トランスクリプションとトランスレーションを利用できます。。

・トランスクリプション：あらゆる言語の音声をテキストに書き換える

・トランスレーション：音声を英語に翻訳する

実際に使用する際には、OpenAIのAPI keyを入手した上で、以下のコードを実行します。

from openai import OpenAI
client = OpenAI()

audio_file= open("/path/to/file/audio.mp3", "rb")
transcript = client.audio.transcriptions.create(
model="whisper-1",
file=audio_file
)

model=の部分にはwhisper-1などの使用する音声テキスト化のモデルを入力しましょう。

「Speech to Text API」について詳しくはこちらの記事をご覧ください。

まとめ

今回はChatGPTへの音声入力と回答の音声読み上げによる音声会話の方法を紹介しました！

現状では、ブラウザ版を利用する場合には、Chrome拡張機能を利用し、スマホで利用する場合はChatGPTのアプリ版を利用するのがよさそうです。

また、ChatGPT Plusユーザーは新機能によってデフォルトで音声会話を行うことも可能となります。

やはりタイピングだけだと効率が悪くなったり、疲労が溜まる場合もあるので、音声会話機能も活用して、最大限労力を抑えましょう！

執筆者：河津大誠

この記事は役に立ちましたか？

もし参考になりましたら、下記のボタンで教えてください。

ChatGPT, GPT-4V, Talk Berry, Voiceln, アプリ版, 拡張機能, 活用方法
コメント: 2

文章から音楽を生成できる『Mubert』の使い方！前の記事 ChatGPT(チャットGPT)を用いて文字起こしや議事録作成・要約を行う方法！次の記事

2 コメント
0 トラックバック

この記事へのコメントはありません。

DALL-E3の使い方と呪文の作り方を徹底解説！DALL-E2との違いも！

＜ChatGPT＞音声入力・音声会話・音声読み上げを行う方法を紹介！

ChatGPT(チャットGPT)を用いて画像入力・画像認識・画像読み込みを行う方法！

ChatGPT Code Interpreterとは？使い方/実用例/導入方法をご紹介！

このサイト内のChatBotの作成方法！『Docsbot』の使い方と料金

ChatGPT(チャットGPT)とは？ログイン方法や料金/日本語での使い方などを解説！

画像生成AI Midjourneyの使い方/プロンプト/料金などを紹介！

パワーポイントスライドをAIが自動生成！日本語で使える『Gamma ai』の使い方・料金を紹介！

『tl;dv』の使い方/料金/安全性を詳しく解説！zoom会議の議事録を自動化！

Stable Diffusionとは？Web上での基本的な使い方や画像の生成例！

機能でAIを探す

このサイト内のChatBotの作成方法！『Docsbot』の使い方

AIブームの発端！『ChatGPT』の基本

画像生成AI『Midjourney』の使い方

AIが日本語プレゼン資料を一瞬で生成！『Gamma ai』

オンライン会議の議事録作成を自動化！『tl;dv』

画像生成AI Midjourneyの使い方/プロンプト/料金などを紹介！

ChatGPT Code Interpreterとは？使い方/実用例/導入方法をご紹介！

30秒でwebサイトを生成！『Durable ai』の使い方/料金を紹介！

著作権フリーの音楽を一瞬で生成できる『SOUNDRAW』

商用利用は可能？画像生成AI 『DALL-E2』の日本語での使い方/呪文/料金を紹介！

＜ChatGPT＞音声入力・音声会話・音声読み上げを行う方法を紹介！