現状音声生成AIや音楽生成AIが急激に注目を集めています。主なものとして、Suno AIやUdioといった音楽生成AIが挙げられます。これらが注目された原因としてクオリティの高さが挙げられます。音楽生成AIでのクオリティは本当に高く人が作ったものとの区別が難しいレベルです。
そんな中、今回紹介するElevenLabsは音楽生成や音声生成ができるAIとなっています。日本語の読み上げができるAIではイントネーションが不自然になりがちでしたが、ElevenLabsではかなり自然な音声が作成できます。
ElevenLabsが音楽生成に参入!!
これはSuno AIやUdioは超えている
Udioは結構触ってみたんだけど、これはElevenLabsの勝ち
これでプロンプトがいい感じに言うことを聞いてくれるといいな
— オギコ大将軍 | ChatGPTマスター (@ogiko_daishogun) May 10, 2024
自分の声を変えられ、収益化できる時代。ElevenLabsは、自分の声で音声を簡単に作成できる音声生成AIとしても注目を集めています。
本記事では、初めての方でも分かりやすいElevenlabsの使い方や機能を紹介します。
目次
ElevenLabsとは?
ElevenLabsは、高品質な読み上げ音声の生成やクローン音声の管理を手軽に行えるサービスです。
たとえば、ウェブサイトやSNSでの音声ナビゲーションや、オーディオブック、ポッドキャストなどのコンテンツ制作に活用できます。
商用利用も可能であり、コンテンツ制作者や開発者にとっては非常に便利なツールとなるでしょう。
操作は直感的なUIにより簡単に行えます。
1章【写真&動画つき解説】ElevenLabsの使い方
ログインしてプランを選ぶ
まずはElevenLabsにアクセスしましょう
「Sign up」をクリックします。Googleまたはメールアドレスを登録してログインします。
ログインできたらこの画面↓ になっていればOKです!
次に左メニュータブの「Voices」をクリックします。
さらに、「Voices Lab」の画面内にある、+ボタン「Add Generative or Cloned Voice」をクリックします。
「Instant Voice Cloning」をクリックします。クローン音声(自分の声を元にそっくりな音声)を作成するには、初月は$3かかります。
私は「スターター」を選択しました。これで準備完了です!
Speech: TEXT TO SPEECH(テキストを音声変換)
この機能は、テキストを自然な音声に変換します。テキストデータを入力し、読み上げる声の種類や言語を選択できます。
メイン画面「Speech Synthesis」から音声を生成します。
右上にある「SIMPLE」と「ADVANCED」は、音質と生成にかかる時間が異なります。細かな特徴はこのようになっています。
SIMPLE
- より高速で音声を生成できる
- ただし、音質はADVANCEDに比べて劣る
- テキスト読み上げや、プロトタイプの作成に適している
ADVANCED
- SIMPEよりも高品質な音声を生成できる
- その代わり、生成にかかる時間が長くなる
- ナレーション制作など、よりクオリティが求められる用途に向いている
用途に合わせて、音質と生成時間どちらを優先するかで選んでくださいね。
以下が具体的な手順です。
①テキストボックスに、生成したいテキストを入力または貼り付け
下にサンプルがあるので、まずはこれを試してみてもいいですね。
②使用する音声モデルを選択
「Voice Settings」では、生成したい音声を細かく調整することができます。
名称 | 機能内容 |
Model (AIモデル) | Multilingual v2:精度が高く速度はやや遅め。29言語対応。 Multilingual v1:実験的なモデルであり、正確性や安定性には課題がある。Multilingual v2に比べて性能が劣る。 Turbo v2:低遅延アプリケーション向け。英語のみ対応。精度はMultilingual v2よりもやや低いが、非常に安定している。スタイルスライダーがないことに注意。 English v1:英語専用。最も小さく高速だが、一般的な会話には適していない。 |
Stability (安定性) | 音声生成における安定性を調整する。 低い値:滑らかで一貫性のある音声になるが、抑揚や個性が弱くなる可能性がある。 高い値:自然で表情豊かな音声になるが、ノイズや途切れが発生する可能性がある。 |
Similarity (類似度) | 入力テキストと生成される音声の類似度を調整する。 低い値:入力テキストに忠実な音声になるが、機械的な音声になる可能性がある。 高い値:自然で流暢な音声になるが、入力テキストの意味が伝わりにくくなる可能性がある。 |
Style Exaggeration (スタイル誇張) | 話し方のスタイルを強調する。 たとえば、入力テキストがもともと怒っている口調であれば、さらに怒ったような話し方に変換できる。 一方で、強調しすぎると不自然になることもある。 |
Speaker Boost (スピーカーブースト) | 入力された音声と生成された音声の類似度を高める。 なまりや癖など、スピーカー本来の特徴をより反映させた音声を生成できる。 ただし、処理時間や音声品質に影響を与える可能性がある。 |
ElevenLabsを実際に使ってみた
④「Generate speech」をクリックして音声を生成し、MP3音源をダウンロード
これにより、音声の生成と保存ができます。
完成したのがこちら
ElevenLabs、驚異的ですよね?最近GPT-4oの登場によってAIの音声読み上げが注目されていますが、自然な音声では負けていません。
日本語でも正確に単語を認識し、自然な話し方をしてくれます。調整次第では、AIと人の発話を区別するのが難しくなるかもしれません。
Speech:SPEECH TO SPEECH(音声を別の音声に変換)
この機能は、入力された音声を別の音声に変換する機能です。話者の声を異なる声やアクセントに変更できます。
「Upload audio」から音声をアップロード(最大50MBのオーディオファイル)または、「Record audio」から音声を録画します。
音声録音の場合、マイクボタンをクリックして話します。あとは同様に生成したら完成です。
完成したのがこちら
会話がそのまま反映されているため、テキストから生成するよりもかなり自然です。話し方がより人間らしくなっていますね。
Voices:VoiceLab(新しい合成音声を作成)
ゼロから完全に新しい合成音声を作成します。自分の声や許可を得た声を複製(クローン)することもできます。自分だけが作成した音声にアクセスできます。
「 Add Generative or Cloned Voice」をクリックします。
Instant Voice Cloning(短い音声サンプルから個人の声を複製)
「Instant Voice Cloning」をクリックします。音声をアップロードまたは音声を録音します。名前と声の説明を追加し、同意マークにチェックを入れてください。「Add Voice」をクリックし、音声追加は完了です!
「Use」をクリックするとクローン音声が追加されており、利用できます。
Voice Design(オリジナルでカスタムの音声を作成)
「Voice Design」では、オリジナルでカスタムの音声を作成します。
性別、年齢、なまり、アクセントを選択して、これまで聞いたことのない完全にオリジナルの音声を生成できます。
生成された音声は、既製の音声やクローンされた音声と同じ品質を持っていますが、気に入る音声を見つけるためにいくつか試す必要がありそうです。
Voice Library(ボイスライブラリ)
「Voice Library」では、ElevenLabsが提供する既存の声のライブラリを探索できます。
このライブラリは定期的に更新され、新しい声が追加されます。
Professional Voice Cloning(個人の声を高度に再現)
「Professional Voice Cloning」では、ユーザー自身の声の高品質なレプリカを作成するための高度な音声クローニング機能です。
この機能では、少なくとも30分のクリーンな音声データを使用して、専用のモデルをトレーニングします。
主な特徴は、高品質で超リアルな音声再生です。
利用するにはStarterプランではなく、Creatorプラン以上の課金が必要です。
詳しくはelevenlabsの公式ブログへ
Dubbing(自然でリアルな吹き替え)
このサービスは、YouTubeやTikTokなどの動画を貼り付けて、元の音声の言語と翻訳したい言語を選ぶだけで、簡単に吹き替え音声を生成できます。動画配信者が海外ユーザー向けにコンテンツを発信したいときや、eラーニング教材など、様々な用途に利用できます。
音声翻訳、話者検出、音声吹き替えにより、29の言語にコンテンツを数秒で翻訳します。
手順は以下のとおりです。
- 「Dubbing Project Name (Optional)」にプロジェクト名を書く
- ソース言語、ターゲット言語を選択
- ソースを選択。アップロードまたはSNSのURLを添付。
- 「Create」をクリックし生成
完成した作品を「Edit」クリックします。確認すると、ほぼ完璧に翻訳されていました!
不自然なイントネーションや読み間違いがある可能性があるため、使用時には注意が必要です。 ここでは、テキストで編集することができます。
作品は「Export」をクリックし、ダウンロードができます。
動画のグローバル展開や、多言語対応のコンテンツ制作に役立ちます。
たとえば、ある教育機関が異なる言語の学生に向けて教材を提供する場合、Text to SpeechとDubbing機能を組み合わせて、複数言語に対応した教材の音声を簡単に作成できますね。
APIの利用可能
APIとして自分のクローン音声を利用することもできます。
自分のプロフィールアイコンから、「Profile+API key」をクリックします。
自分のAPIキーが表示されます。実際のAPIの利用方法については、公式ドキュメントを参照してください。
2章 ElevenLabsの料金プランや商用利用について
ElevenLabsは無料で使える?
結論から申し上げますと、ElevenLabsは無料で使うことができます!しかしながら、ElevenLabsには有料プランが存在し、有料プランに加入することで無料プランよりも機能を拡張することができます。
6つのプランのうち、価格が設定されている5つのプランを比較すると、以下のようになります。
Free $0/永久に | Starter 5ドル3ドル/月 (初月40%オフ) | Creator 22ドル11ドル/月 (初月50%オフ) | Pro 99ドル/月 | Scale 330ドル/月 | |
月間文字数制限 | 10,000 (~10 分間の音声) | 30,000 (~30 分音声) | 100,000 (~2 時間のオーディオ) | 500,000 (~10 時間のオーディオ) | 2,000,000 (~40 時間のオーディオ) |
カスタム音声 | 3 ボイス | 10ボイス | 30ボイス | 160ボイス | 660ボイス |
追加の使用法ベースの文字 | × | × | $0.30/1000 文字 | $0.24/1000 文字 | $0.18/1000 文字 |
テキスト読み上げ & 音声読み上げ | ◯ | ◯ | ◯ | ◯ | ◯ |
増え続ける音声ライブラリへのアクセス | ◯ | ◯ | ◯ | ◯ | ◯ |
自動ダビング | ◯ | ◯ | ◯ | ◯ | ◯ |
ダビングスタジオ | × | ◯ | ◯ | ◯ | ◯ |
オーディオ品質 | 128kbps、44.1kHz | 128kbps、44.1kHz | 128 & 192 kbps (API経由)、44.1kHz | 128 & 192 kbps (プロジェクトと API 経由)、44.1kHz | 128 & 192 kbps (プロジェクトと API 経由)、44.1kHz |
API 形式 | 16kHzのPCM、uLaw | 22.05kHz PCM、uLaw | 24kHzのPCM、uLaw | 44.1kHzのPCM、uLaw | 44.1kHzのPCM、uLaw |
合成音声設計 | ◯ | ◯ | ◯ | ◯ | ◯ |
インスタントボイスクローニング | × | ◯ | ◯ | ◯ | ◯ |
プロの声の クローニング | × | × | ◯ | ◯ | ◯ |
プロジェクト | × | × | ◯ | ◯ | ◯ |
利用状況分析 | × | × | ◯ | ◯ | ◯ |
商用ライセンス | × | ◯ | ◯ | ◯ | ◯ |
アトリビューション要件なし | × | ◯ | ◯ | ◯ | ◯ |
最も重要な点として挙げられるのが無料プランでは商用利用ができず、有料プランに加入することのによって商用利用ができるようになるということです。さらに文字数制限が緩和されたり、音声の種類が増やせたりすることができるようになります。
今後、一度に生成可能な文字数の上限を増やす予定みたいです。
ElevenLabsのプランの詳細は、subscriptionページから確認できます。
ElevenLabsの商用利用
ElevenLabsで生成した音声の商用利用可否は、利用プランによって異なります。
商用利用が可能なプラン:Starterプラン以上
商用利用が不可能なプラン:フリープラン
【商用利用時の注意点】
Starterプラン以上であれば、クレジット表記なしで商用利用可能です。
フリープランで作成した音声を商用利用する場合は、「elevenlabs.io」または「11.ai」のクレジットを表示する必要があります。
許可を得ていない他人の声をクローンし、不適切な利用を行うことは禁止されています。
こちらのページでは、ElevenLabsの商用利用に関する、FAQや利用規約が記載されていますので、詳しく知りたい方は合わせてご確認ください。
まとめ
ElevenLabsは、高品質な読み上げ音声の生成やクローン音声の管理を手軽に行えるサービスです。
声がリアルでかなり精度が高いことがわかりました。
ただし、このような便利さとは裏腹に、言語対応やクローン利用の倫理的な側面にも注意が必要です。クローン音声を不正な目的で使用することや、利用者のプライバシーを侵害することは厳に慎むべきですね。
この記事は役に立ちましたか?
もし参考になりましたら、下記のボタンで教えてください。
コメント