音声合成・動画の日本語吹き替えもできる音声生成AI「Eleven Labs」の使い方・商用利用の可否を紹介

現状音声生成AIや音楽生成AIが急激に注目を集めています。主なものとして、Suno AIやUdioといった音楽生成AIが挙げられます。これらが注目された原因としてクオリティの高さが挙げられます。音楽生成AIでのクオリティは本当に高く人が作ったものとの区別が難しいレベルです。

そんな中、今回紹介するElevenLabsは音楽生成や音声生成ができるAIとなっています。日本語の読み上げができるAIではイントネーションが不自然になりがちでしたが、ElevenLabsではかなり自然な音声が作成できます。

ElevenLabsが音楽生成に参入！！
これはSuno AIやUdioは超えている
Udioは結構触ってみたんだけど、これはElevenLabsの勝ち
これでプロンプトがいい感じに言うことを聞いてくれるといいな
pic.twitter.com/MWF2X6jTm2
— オギコ大将軍 | ChatGPTマスター (@ogiko_daishogun) May 10, 2024

自分の声を変えられ、収益化できる時代。ElevenLabsは、自分の声で音声を簡単に作成できる音声生成AIとしても注目を集めています。

本記事では、初めての方でも分かりやすいElevenlabsの使い方や機能を紹介します。

ElevenLabsとは？

1章【写真＆動画つき解説】ElevenLabsの使い方
２章 ElevenLabsの料金プランや商用利用について
- ElevenLabsは無料で使える？
- ElevenLabsの商用利用
まとめ

ElevenLabsとは？

ElevenLabsは、高品質な読み上げ音声の生成やクローン音声の管理を手軽に行えるサービスです。

たとえば、ウェブサイトやSNSでの音声ナビゲーションや、オーディオブック、ポッドキャストなどのコンテンツ制作に活用できます。

商用利用も可能であり、コンテンツ制作者や開発者にとっては非常に便利なツールとなるでしょう。

操作は直感的なUIにより簡単に行えます。

1章【写真＆動画つき解説】ElevenLabsの使い方

ログインしてプランを選ぶ

まずはElevenLabsにアクセスしましょう

画像出典 Eleven labs

「Sign up」をクリックします。Googleまたはメールアドレスを登録してログインします。

画像出典 Eleven labs

ログインできたらこの画面↓　になっていればOKです！

画像出典 Eleven labs

次に左メニュータブの「Voices」をクリックします。

画像出典 Eleven labs

さらに、「Voices Lab」の画面内にある、＋ボタン「Add Generative or Cloned Voice」をクリックします。

画像出典 Eleven labs

「Instant Voice Cloning」をクリックします。クローン音声（自分の声を元にそっくりな音声）を作成するには、初月は$3かかります。

画像出典 Eleven labs

私は「スターター」を選択しました。これで準備完了です！

Speech： TEXT TO SPEECH（テキストを音声変換）

この機能は、テキストを自然な音声に変換します。テキストデータを入力し、読み上げる声の種類や言語を選択できます。

画像出典 Eleven labs

メイン画面「Speech Synthesis」から音声を生成します。

画像出典 Eleven labs

右上にある「SIMPLE」と「ADVANCED」は、音質と生成にかかる時間が異なります。細かな特徴はこのようになっています。

SIMPLE

より高速で音声を生成できる
ただし、音質はADVANCEDに比べて劣る
テキスト読み上げや、プロトタイプの作成に適している

ADVANCED

SIMPEよりも高品質な音声を生成できる
その代わり、生成にかかる時間が長くなる
ナレーション制作など、よりクオリティが求められる用途に向いている

用途に合わせて、音質と生成時間どちらを優先するかで選んでくださいね。

以下が具体的な手順です。

①テキストボックスに、生成したいテキストを入力または貼り付け

下にサンプルがあるので、まずはこれを試してみてもいいですね。

画像出展 Eleven labs

②使用する音声モデルを選択

画像出典 Eleven Labs

「Voice Settings」では、生成したい音声を細かく調整することができます。

画像出展 Eleven labs

名称

機能内容

Model

（AIモデル）

Multilingual v2：精度が高く速度はやや遅め。29言語対応。

Multilingual v1：実験的なモデルであり、正確性や安定性には課題がある。Multilingual v2に比べて性能が劣る。

Turbo v2：低遅延アプリケーション向け。英語のみ対応。精度はMultilingual v2よりもやや低いが、非常に安定している。スタイルスライダーがないことに注意。

English v1：英語専用。最も小さく高速だが、一般的な会話には適していない。

Stability

(安定性)

音声生成における安定性を調整する。

低い値：滑らかで一貫性のある音声になるが、抑揚や個性が弱くなる可能性がある。

高い値：自然で表情豊かな音声になるが、ノイズや途切れが発生する可能性がある。

Similarity

(類似度)

入力テキストと生成される音声の類似度を調整する。

低い値：入力テキストに忠実な音声になるが、機械的な音声になる可能性がある。

高い値：自然で流暢な音声になるが、入力テキストの意味が伝わりにくくなる可能性がある。

Style Exaggeration

(スタイル誇張)

話し方のスタイルを強調する。

たとえば、入力テキストがもともと怒っている口調であれば、さらに怒ったような話し方に変換できる。

一方で、強調しすぎると不自然になることもある。

Speaker Boost

(スピーカーブースト)

入力された音声と生成された音声の類似度を高める。

なまりや癖など、スピーカー本来の特徴をより反映させた音声を生成できる。

ただし、処理時間や音声品質に影響を与える可能性がある。

ElevenLabsを実際に使ってみた

④「Generate speech」をクリックして音声を生成し、MP3音源をダウンロード

画像出典 Elevenlabs

これにより、音声の生成と保存ができます。

完成したのがこちら

ElevenLabs、驚異的ですよね？最近GPT-4oの登場によってAIの音声読み上げが注目されていますが、自然な音声では負けていません。

日本語でも正確に単語を認識し、自然な話し方をしてくれます。調整次第では、AIと人の発話を区別するのが難しくなるかもしれません。

Speech：SPEECH TO SPEECH（音声を別の音声に変換）

この機能は、入力された音声を別の音声に変換する機能です。話者の声を異なる声やアクセントに変更できます。

画像出典 Eleven labs

「Upload audio」から音声をアップロード（最大50MBのオーディオファイル）または、「Record audio」から音声を録画します。

画像出典 Eleven Labs

音声録音の場合、マイクボタンをクリックして話します。あとは同様に生成したら完成です。

完成したのがこちら

会話がそのまま反映されているため、テキストから生成するよりもかなり自然です。話し方がより人間らしくなっていますね。

Voices：VoiceLab（新しい合成音声を作成）

ゼロから完全に新しい合成音声を作成します。自分の声や許可を得た声を複製（クローン）することもできます。自分だけが作成した音声にアクセスできます。

画像出典 Eleven Labs

「 Add Generative or Cloned Voice」をクリックします。

Instant Voice Cloning（短い音声サンプルから個人の声を複製）

画像出典 Eleven Labs

「Instant Voice Cloning」をクリックします。音声をアップロードまたは音声を録音します。名前と声の説明を追加し、同意マークにチェックを入れてください。「Add Voice」をクリックし、音声追加は完了です！

画像出典 Eleben Labs

「Use」をクリックするとクローン音声が追加されており、利用できます。

画像出展 Eleven labs

Voice Design（オリジナルでカスタムの音声を作成）

「Voice Design」では、オリジナルでカスタムの音声を作成します。

性別、年齢、なまり、アクセントを選択して、これまで聞いたことのない完全にオリジナルの音声を生成できます。

生成された音声は、既製の音声やクローンされた音声と同じ品質を持っていますが、気に入る音声を見つけるためにいくつか試す必要がありそうです。

Voice Library（ボイスライブラリ）

「Voice Library」では、ElevenLabsが提供する既存の声のライブラリを探索できます。

このライブラリは定期的に更新され、新しい声が追加されます。

Professional Voice Cloning（個人の声を高度に再現）

「Professional Voice Cloning」では、ユーザー自身の声の高品質なレプリカを作成するための高度な音声クローニング機能です。

この機能では、少なくとも30分のクリーンな音声データを使用して、専用のモデルをトレーニングします。

主な特徴は、高品質で超リアルな音声再生です。

利用するにはStarterプランではなく、Creatorプラン以上の課金が必要です。

詳しくはelevenlabsの公式ブログへ

Dubbing（自然でリアルな吹き替え）

このサービスは、YouTubeやTikTokなどの動画を貼り付けて、元の音声の言語と翻訳したい言語を選ぶだけで、簡単に吹き替え音声を生成できます。動画配信者が海外ユーザー向けにコンテンツを発信したいときや、eラーニング教材など、様々な用途に利用できます。

画像出典 Eleven Labs

音声翻訳、話者検出、音声吹き替えにより、29の言語にコンテンツを数秒で翻訳します。

手順は以下のとおりです。

「Dubbing Project Name (Optional)」にプロジェクト名を書く
ソース言語、ターゲット言語を選択
ソースを選択。アップロードまたはSNSのURLを添付。
「Create」をクリックし生成

画像出典 Eleven Labs

完成した作品を「Edit」クリックします。確認すると、ほぼ完璧に翻訳されていました！

不自然なイントネーションや読み間違いがある可能性があるため、使用時には注意が必要です。　ここでは、テキストで編集することができます。

作品は「Export」をクリックし、ダウンロードができます。

動画のグローバル展開や、多言語対応のコンテンツ制作に役立ちます。

たとえば、ある教育機関が異なる言語の学生に向けて教材を提供する場合、Text to SpeechとDubbing機能を組み合わせて、複数言語に対応した教材の音声を簡単に作成できますね。

APIの利用可能

APIとして自分のクローン音声を利用することもできます。

画像出典 Eleven Labs

自分のプロフィールアイコンから、「Profile＋API key」をクリックします。

画像出典 Eleven Labs

自分のAPIキーが表示されます。実際のAPIの利用方法については、公式ドキュメントを参照してください。

２章 ElevenLabsの料金プランや商用利用について

ElevenLabsは無料で使える？

結論から申し上げますと、ElevenLabsは無料で使うことができます！しかしながら、ElevenLabsには有料プランが存在し、有料プランに加入することで無料プランよりも機能を拡張することができます。

6つのプランのうち、価格が設定されている5つのプランを比較すると、以下のようになります。

	Free $0/永久に	Starter 5ドル3ドル/月 (初月40%オフ)	Creator 22ドル11ドル/月 (初月50%オフ)	Pro 99ドル/月	Scale 330ドル/月
月間文字数制限	10,000 (~10 分間の音声)	30,000 (~30 分音声)	100,000 (~2 時間のオーディオ)	500,000 (~10 時間のオーディオ)	2,000,000 (~40 時間のオーディオ)
カスタム音声	3 ボイス	10ボイス	30ボイス	160ボイス	660ボイス
追加の使用法ベースの文字	×	×	$0.30/1000 文字	$0.24/1000 文字	$0.18/1000 文字
テキスト読み上げ & 音声読み上げ	◯	◯	◯	◯	◯
増え続ける音声ライブラリへのアクセス	◯	◯	◯	◯	◯
自動ダビング	◯	◯	◯	◯	◯
ダビングスタジオ	×	◯	◯	◯	◯
オーディオ品質	128kbps、44.1kHz	128kbps、44.1kHz	128 & 192 kbps (API経由)、44.1kHz	128 & 192 kbps (プロジェクトと API 経由)、44.1kHz	128 & 192 kbps (プロジェクトと API 経由)、44.1kHz
API 形式	16kHzのPCM、uLaw	22.05kHz PCM、uLaw	24kHzのPCM、uLaw	44.1kHzのPCM、uLaw	44.1kHzのPCM、uLaw
合成音声設計	◯	◯	◯	◯	◯
インスタントボイスクローニング	×	◯	◯	◯	◯
プロの声のクローニング	×	×	◯	◯	◯
プロジェクト	×	×	◯	◯	◯
利用状況分析	×	×	◯	◯	◯
商用ライセンス	×	◯	◯	◯	◯
アトリビューション要件なし	×	◯	◯	◯	◯

最も重要な点として挙げられるのが無料プランでは商用利用ができず、有料プランに加入することのによって商用利用ができるようになるということです。さらに文字数制限が緩和されたり、音声の種類が増やせたりすることができるようになります。

今後、一度に生成可能な文字数の上限を増やす予定みたいです。

ElevenLabsのプランの詳細は、subscriptionページから確認できます。

ElevenLabsの商用利用

ElevenLabsで生成した音声の商用利用可否は、利用プランによって異なります。

商用利用が可能なプラン：Starterプラン以上

商用利用が不可能なプラン：フリープラン

【商用利用時の注意点】

Starterプラン以上であれば、クレジット表記なしで商用利用可能です。

フリープランで作成した音声を商用利用する場合は、「elevenlabs.io」または「11.ai」のクレジットを表示する必要があります。

許可を得ていない他人の声をクローンし、不適切な利用を行うことは禁止されています。

こちらのページでは、ElevenLabsの商用利用に関する、FAQや利用規約が記載されていますので、詳しく知りたい方は合わせてご確認ください。

まとめ

ElevenLabsは、高品質な読み上げ音声の生成やクローン音声の管理を手軽に行えるサービスです。

声がリアルでかなり精度が高いことがわかりました。

ただし、このような便利さとは裏腹に、言語対応やクローン利用の倫理的な側面にも注意が必要です。クローン音声を不正な目的で使用することや、利用者のプライバシーを侵害することは厳に慎むべきですね。

この記事は役に立ちましたか？

もし参考になりましたら、下記のボタンで教えてください。

文字起こし・議事録
コメント: 1

ChatGPT -OpenAIのアップデートで進化した無料で使えるGPT-4oの性能・制限を紹介前の記事手書きの文字・図を認識？ChatGPT新モデル「GPT-4o」の画像生成・認識性能を徹底評価！次の記事

1 コメント
0 トラックバック

この記事へのコメントはありません。

機能でAIを探す

このサイト内のChatBotの作成方法！『Docsbot』の使い方

AIブームの発端！『ChatGPT』の基本

画像生成AI『Midjourney』の使い方

AIが日本語プレゼン資料を一瞬で生成！『Gamma ai』

オンライン会議の議事録作成を自動化！『tl;dv』

ElevenLabsとは？

1章【写真＆動画つき解説】ElevenLabsの使い方

ログインしてプランを選ぶ

Speech： TEXT TO SPEECH（テキストを音声変換）

SIMPLE

ADVANCED

ElevenLabsを実際に使ってみた

Speech：SPEECH TO SPEECH（音声を別の音声に変換）

Voices：VoiceLab（新しい合成音声を作成）

Instant Voice Cloning（短い音声サンプルから個人の声を複製）

Voice Design（​​オリジナルでカスタムの音声を作成）

Voice Library（ボイスライブラリ）

Professional Voice Cloning（個人の声を高度に再現）

Dubbing（自然でリアルな吹き替え）

APIの利用可能

２章 ElevenLabsの料金プランや商用利用について

ElevenLabsは無料で使える？

ElevenLabsの商用利用

まとめ

この記事は役に立ちましたか？

関連記事

日本語で利用可能？文字起こしAI『Otter』の使い方や有料版と無料版の違いを紹介！

ChatGPTへの音声入力！Chrome拡張機能『Voice In』を用いた方法をご紹介！

『tl;dv』の使い方/料金/安全性を詳しく解説！zoom会議の議事録を自動化！

ChatGPT(チャットGPT)を用いて文字起こしや議事録作成・要約を行う方法！

情報漏洩は大丈夫？『Line CLOVA Note』の安全性や使い方について解説！

ChatGPTを用いたYoutube動画の要約や文字起こしの方法をご紹介！

コメント

Voice Design（オリジナルでカスタムの音声を作成）