音声合成・動画の日本語吹き替えもできる音声生成AI「Eleven Labs」の使い方・商用利用の可否を紹介

自分の声を変えられ、収益化できる時代。ElevenLabsは、自分の声を簡単に作成できる音声生成AIとして注目を集めています。

本記事では、初めての方でも分かりやすい使い方を紹介します。

ElevenLabsとは?

ElevenLabsは、高品質な読み上げ音声の生成やクローン音声の管理を手軽に行えるサービスです。

たとえば、ウェブサイトやSNSでの音声ナビゲーションや、オーディオブック、ポッドキャストなどのコンテンツ制作に活用できます。

商用利用も可能であり、コンテンツ制作者や開発者にとっては非常に便利なツールとなるでしょう。

操作は直感的なUIにより簡単に行えます。

1章【写真&動画つき解説】ElevenLabsの使い方

ログインしてプランを選ぶ

まずはElevenLabsにアクセスしましょう

Elebelabsの公式サイト

画像出典 Eleven labs

「Sign up」をクリックします。Googleまたはメールアドレスを登録してログインします。

googleアカウントやメールアドレス登録の画面

画像出典 Eleven labs

ログインできたらこの画面↓ になっていればOKです!

ログイン完了画面

画像出典 Eleven labs

次に左メニュータブの「Voices」をクリックします。

Add Generative or Cloned Voiceをクリック

画像出典 Eleven labs

さらに、「Voices Lab」の画面内にある、+ボタン「Add Generative or Cloned Voice」をクリックします。

「Instant Voice Cloning」をクリック

画像出典 Eleven labs

「Instant Voice Cloning」をクリックします。クローン音声(自分の声を元にそっくりな音声)を作成するには、初月は$3かかります。

スタータープランを選択

画像出典 Eleven labs

私は「スターター」を選択しました。これで準備完了です!

Speech: TEXT TO SPEECH(テキストを音声変換)

この機能は、テキストを自然な音声に変換します。テキストデータを入力し、読み上げる声の種類や言語を選択できます。

音声生成を選択画面

画像出典 Eleven labs

メイン画面「Speech Synthesis」から音声を生成します。

SIMPLEの画面

画像出典 Eleven labs

右上にある「SIMPLE」と「ADVANCED」は、音質と生成にかかる時間が異なります。細かな特徴はこのようになっています。

SIMPLE

  • より高速で音声を生成できる
  • ただし、音質はADVANCEDに比べて劣る
  • テキスト読み上げや、プロトタイプの作成に適している

ADVANCED

  • SIMPEよりも高品質な音声を生成できる
  • その代わり、生成にかかる時間が長くなる
  • ナレーション制作など、よりクオリティが求められる用途に向いている

用途に合わせて、音質と生成時間どちらを優先するかで選んでくださいね。

 

以下が具体的な手順です。

①テキストボックスに、生成したいテキストを入力または貼り付け

    下にサンプルがあるので、まずはこれを試してみてもいいですね。

    サンプル画面

    画像出展 Eleven labs

    ②使用する音声モデルを選択

    音声モデルの選択

    画像出典 Eleven Labs

    「Voice Settings」では、生成したい音声を細かく調整することができます。

    生成したい音声を細かく調整

    画像出展 Eleven labs

    名称機能内容
    Model

    (AIモデル)

    Multilingual v2:精度が高く速度はやや遅め。29言語対応。

    Multilingual v1:実験的なモデルであり、正確性や安定性には課題がある。Multilingual v2に比べて性能が劣る。

    Turbo v2:低遅延アプリケーション向け。英語のみ対応。精度はMultilingual v2よりもやや低いが、非常に安定している。スタイルスライダーがないことに注意。

    English v1:英語専用。最も小さく高速だが、一般的な会話には適していない。

    Stability

     (安定性)

    音声生成における安定性を調整する。

    低い値:滑らかで一貫性のある音声になるが、抑揚や個性が弱くなる可能性がある。

    高い値:自然で表情豊かな音声になるが、ノイズや途切れが発生する可能性がある。

    Similarity

     (類似度)

    入力テキストと生成される音声の類似度を調整する。

    低い値:入力テキストに忠実な音声になるが、機械的な音声になる可能性がある。

    高い値:自然で流暢な音声になるが、入力テキストの意味が伝わりにくくなる可能性がある。

    Style Exaggeration

    (スタイル誇張)

    話し方のスタイルを強調する。

    たとえば、入力テキストがもともと怒っている口調であれば、さらに怒ったような話し方に変換できる。

    一方で、強調しすぎると不自然になることもある。

    Speaker Boost

    (スピーカーブースト)

    入力された音声と生成された音声の類似度を高める。

    なまりや癖など、スピーカー本来の特徴をより反映させた音声を生成できる。

    ただし、処理時間や音声品質に影響を与える可能性がある。

    ④「Generate speech」をクリックして音声を生成し、MP3音源をダウンロード

    ALiceモデルを選択

    画像出典 Elevenlabs

    これにより、音声の生成と保存ができます。

    完成したのがこちら

    ElevenLabs、驚異的ですよね?最近GPT-4oの登場によってAIの音声読み上げが注目されていますが、自然な音声では負けていません。

    日本語でも正確に単語を認識し、自然な話し方をしてくれます。調整次第では、AIと人の発話を区別するのが難しくなるかもしれません。

    Speech:SPEECH TO SPEECH(音声を別の音声に変換)

    この機能は、入力された音声を別の音声に変換する機能です。話者の声を異なる声やアクセントに変更できます。

    音声のアップロードをする

    画像出典 Eleven labs

    「Upload audio」から音声をアップロード(最大50MBのオーディオファイル)または、「Record audio」から音声を録画します。

    音声録音をすることもできる

    画像出典 Eleven Labs

    音声録音の場合、マイクボタンをクリックして話します。あとは同様に生成したら完成です。

    完成したのがこちら

    会話がそのまま反映されているため、テキストから生成するよりもかなり自然です。話し方がより人間らしくなっていますね。

    Voices:VoiceLab(新しい合成音声を作成)

    ゼロから完全に新しい合成音声を作成します。自分の声や許可を得た声を複製(クローン)することもできます。自分だけが作成した音声にアクセスできます。

    ゼロから完全に新しい合成音声を作成します。

    画像出典 Eleven Labs

    「 Add Generative or Cloned Voice」をクリックします。

    Instant Voice Cloning(短い音声サンプルから個人の声を複製)

    名前と声の説明を追加し、同意マークにチェック

    画像出典 Eleven Labs

    「Instant Voice Cloning」をクリックします。音声をアップロードまたは音声を録音します。名前と声の説明を追加し、同意マークにチェックを入れてください。「Add Voice」をクリックし、音声追加は完了です!

    クローン音声が追加されており、利用できます。

    画像出典 Eleben Labs

    「Use」をクリックするとクローン音声が追加されており、利用できます。

    音声モデルの選択

    画像出展 Eleven labs

    Voice Design(​​オリジナルでカスタムの音声を作成)

    「Voice Design」では、オリジナルでカスタムの音声を作成します。

    性別、年齢、なまり、アクセントを選択して、これまで聞いたことのない完全にオリジナルの音声を生成できます。

    生成された音声は、既製の音声やクローンされた音声と同じ品質を持っていますが、気に入る音声を見つけるためにいくつか試す必要がありそうです。

    Voice Library(ボイスライブラリ)

    「Voice Library」では、ElevenLabsが提供する既存の声のライブラリを探索できます。

    このライブラリは定期的に更新され、新しい声が追加されます。

     

    Professional Voice Cloning(個人の声を高度に再現)

    「Professional Voice Cloning」では、ユーザー自身の声の高品質なレプリカを作成するための高度な音声クローニング機能です。

    この機能では、少なくとも30分のクリーンな音声データを使用して、専用のモデルをトレーニングします。

    主な特徴は、高品質で超リアルな音声再生です。

    利用するにはStarterプランではなく、Creatorプラン以上の課金が必要です。

    詳しくはelevenlabsの公式ブログ

    Dubbing(自然でリアルな吹き替え)

    このサービスは、YouTubeやTikTokなどの動画を貼り付けて、元の音声の言語と翻訳したい言語を選ぶだけで、簡単に吹き替え音声を生成できます。動画配信者が海外ユーザー向けにコンテンツを発信したいときや、eラーニング教材など、様々な用途に利用できます。

    吹き替え音声を作る

    画像出典 Eleven Labs

    音声翻訳、話者検出、音声吹き替えにより、29の言語にコンテンツを数秒で翻訳します。

    手順は以下のとおりです。

    1. 「Dubbing Project Name (Optional)」にプロジェクト名を書く
    2. ソース言語、ターゲット言語を選択
    3. ソースを選択。アップロードまたはSNSのURLを添付。
    4. 「Create」をクリックし生成
    吹き替え音声作成の手順

    画像出典 Eleven Labs

    完成した作品を「Edit」クリックします。確認すると、ほぼ完璧に翻訳されていました!

    不自然なイントネーションや読み間違いがある可能性があるため、使用時には注意が必要です。 ここでは、テキストで編集することができます。

    作品は「Export」をクリックし、ダウンロードができます。

    動画のグローバル展開や、多言語対応のコンテンツ制作に役立ちます。

    たとえば、ある教育機関が異なる言語の学生に向けて教材を提供する場合、Text to SpeechとDubbing機能を組み合わせて、複数言語に対応した教材の音声を簡単に作成できますね。

    APIの利用可能

    APIとして自分のクローン音声を利用することもできます。

    APIキーの表示

    画像出典 Eleven Labs

    自分のプロフィールアイコンから、「Profile+API key」をクリックします。

    APIキーが実際に表示できた

    画像出典 Eleven Labs

    自分のAPIキーが表示されます。実際のAPIの利用方法については、公式ドキュメントを参照してください。

    2章 ElevenLabsの料金プランや商用利用について

    ElevenLabsの料金プラン

    ElevenLabsのプランは、subscriptionページから確認できます。

    6つのプランのうち、価格が設定されている5つのプランを比較すると、以下のようになります。

    Free

    $0/永久に

    Starter

    5ドル3ドル/月

    (初月40%オフ)

    Creator

    22ドル11ドル/月

    (初月50%オフ)

    Pro

    99ドル/月

    Scale

    330ドル/月

    月間文字数制限10,000

    (~10 分間の音声)

    30,000

    (~30 分音声)

    100,000

    (~2 時間のオーディオ)

    500,000

    (~10 時間のオーディオ)

    2,000,000

    (~40 時間のオーディオ)

    カスタム音声3 ボイス10ボイス30ボイス160ボイス660ボイス
    追加の使用法ベースの文字××$0.30/1000

    文字

    $0.24/1000

    文字

    $0.18/1000

    文字

    テキスト読み上げ & 音声読み上げ
    増え続ける音声ライブラリへのアクセス
    自動ダビング
    ダビングスタジオ×
    オーディオ品質128kbps、44.1kHz128kbps、44.1kHz128 & 192 kbps

    (API経由)、44.1kHz

    128 & 192 kbps

    (プロジェクトと API 経由)、44.1kHz

    128 & 192 kbps

    (プロジェクトと API 経由)、44.1kHz

    API 形式16kHzのPCM、uLaw22.05kHz PCM、uLaw24kHzのPCM、uLaw44.1kHzのPCM、uLaw44.1kHzのPCM、uLaw
    合成音声設計
    インスタントボイスクローニング×
    プロの声の

    クローニング

    ××
    プロジェクト××
    利用状況分析××
    商用ライセンス×
    アトリビューション要件なし×

    今後、一度に生成可能な文字数の上限を増やす予定みたいです。

    ElevenLabsの商用利用

    ElevenLabsで生成した音声の商用利用可否は、利用プランによって異なります。

    商用利用が可能なプラン:Starterプラン以上

    商用利用が不可能なプラン:フリープラン

    【商用利用時の注意点】

    Starterプラン以上であれば、クレジット表記なしで商用利用可能です。

    フリープランで作成した音声を商用利用する場合は、「elevenlabs.io」または「11.ai」のクレジットを表示する必要があります。

    許可を得ていない他人の声をクローンし、不適切な利用を行うことは禁止されています。

    こちらのページでは、ElevenLabsの商用利用に関する、FAQや利用規約が記載されていますので、詳しく知りたい方は合わせてご確認ください。

    まとめ

    ElevenLabsは、高品質な読み上げ音声の生成やクローン音声の管理を手軽に行えるサービスです。

    声がリアルでかなり精度が高いことがわかりました。

    ただし、このような便利さとは裏腹に、言語対応やクローン利用の倫理的な側面にも注意が必要です。クローン音声を不正な目的で使用することや、利用者のプライバシーを侵害することは厳に慎むべきですね。

    この記事は役に立ちましたか?

    もし参考になりましたら、下記のボタンで教えてください。

    関連記事

    コメント

    この記事へのコメントはありません。