• コラム

【無料音声AIツール】クローン音声も作成できる!ElevenLabsの特徴について


AI技術が急速に進化する中、音声領域の生成AIサービスも発展し続けています。


今回解説するElevenLabsというツールはナレーション、音声合成、さらにはリアルな音声の再現まで、幅広い用途に対応することが可能です。


本記事ではElevenLabsの詳しい機能・料金についてご紹介していきますので、ぜひ最後までご覧ください!



ElevenLabsとは


ElevenLabsは、Googleの元従業員が立ち上げたスタートアップ企業となっており、音声AI技術を活用してリアルな音声合成やクローン音声を生成することができます。


ElevenLabsを使えば自分の音声クローンを簡単に作成し、そのクローンに任意のテキストを読み上げさせることが可能なため、オーディオブックのナレーション、ゲームや動画のナレーターとしての音声コンテンツ、さらには自動応答システムなど、幅広い分野での活用が期待されています。


加えて、29言語に対応(もちろん日本語も)しており、国際的なクリエイターや企業にとっても非常に活用しやすいプラットフォームと言えます。


8つの機能について

合成やクローンの作成だけではなく、音声の生成に関する様々な機能が利用可能となっております。


現在公開されている8つの機能について、今回は無料版を中心に解説していきます。


クリエイティブ

Speech



Speechでは、テキストを音声に変換する「TEXT TO SPEECH」と、音声データを別の音声に変換する「SPEECH TO SPEECH」の2種類の生成が可能です。


「TEXT TO SPEECH」は入力したテキストと任意の音声から読み上げ音声を生成します。あらかじめ用意された音声や自分のクローン音声を使用することができます。


こちらの音声は下記のテキストを入れ込み、「Otani」という日本語音声が得意なクローンに読み上げてもらいました。(読み方がおかしくなる場合は漢字ではなく、ひらがな表記にすると良いです。)


  • こんにちは。
  • シンクピース かぶしきがいしゃと申します。
  • 今回のブログ記事では、ElevenLabsという音声生成AIについてご紹介しております。
  • ぜひ最後までご覧ください。



「SPEECH TO SPEECH」は録音された音声の内容はそのままに、ボイスチェンジを行うことができます。抑揚などの話し方を維持したまま、別キャラクターに変身することができるというイメージです。


先程「Otani」さんに読んでもらった音声を、今度は「Alice」さんに読んでもらいました。




どちらも機械的なカタコト感はそこまで内容に感じます。

比較的、日本語として自然に近いアクセントやトーンになっていますね。




Voices

Voicesでは、「音声クローン」の生成ができる機能になっております。


音声クローンの生成は以下の4種類から選択できます。


Voice Design:テキストを入力して、「年齢」「性別」「アクセント」「アクセントの強さ」を指定することで、自分好みの音声クローンを作成できます。


Internet Voice Cloning:1分以上のノイズの無い音声データからクローンを生成します。Starterプラン以上($5/月~)から利用可能です。


Voice Library:ElevenLabsが運営するコミュニティからクローンを生成することもできます。

ホーム画面の「声」から「新しい音声を追加する」→「音声デザイン」から操作可能です。



Professional Voice Cloning:最上級にリアルな音声クローンを生成します。Creatorプラン以上($11/月~)から利用可能です。


「Internet Voice Cloning」と「Professional Voice Cloning」は有料版となってしまいますが、生成したい音声データをアップロードするだけで、簡単に音声クローンを作ることができます。



Sound Effect

Sound Effectsは、効果音機能を使って背景音や効果音も簡単に作成することができます。


映画やゲームのバックサウンドや、日常生活音などを追加することで、よりリアルな音声体験を提供することが可能となります。



今回は「RPGゲームのラスボスと対峙した時の、終焉のような音楽」をテーマにChatGPTに英語でのプロンプトを出力してもらい、音楽生成を行いました。


生成された4種のうち、気に入ったものを1つご紹介します。


  • “Create an epic and dramatic sound effect for the final battle with the ultimate boss in an RPG. The sound should evoke a sense of doom, tension, and climax, with deep, echoing tones, rising orchestral strings, dark ambient drones, and an ominous choir. Include a thunderous crescendo to signal the impending end of the world.”



次に「男女が会話している時に、犬が吠える」というテーマで作成します。


  • “Create a sound of a man and a woman having a casual conversation. Midway through, a dog suddenly barks loudly, interrupting the conversation. The bark should be sharp and unexpected, with the background conversation continuing faintly in the moment of the dog’s interruption.”



生成の時間も1分とかからず、こちらの意図しているものを忠実に再現してくれました。

活用の幅が広がりそうですね。



ワークフロー

Projects

長尺の音声を正確に生成、編集、カスタマイズするためのワークフローを提供する機能となります。


高品質なオーディオブックの生成の活用に最適です。「Creatorプラン」($11/月~)以上から利用可能です。


Voiceover Studio(Beta)

Voiceover Studio(Beta)では、より高度な音声合成やカスタマイズが可能です。


映像に合わせた正確なリップシンクを提供することで、自然な吹き替え(ナレーション)が実現できる機能となっております。


異なる音声スタイルの融合を実現することができ、非常にクリエイティブで映画やアニメなどの吹き替え作業に最適です。


Projectsと同様に「Creatorプラン」($11/月~)以上から利用可能です。



Dubbing Studio


オリジナル音声の特徴を維持しながら日本語音声→英語音声など、別の言語に翻訳された音声に置き換えることが可能な機能です。


Audio Native

Audio Native機能は、オーディオ専門家が音声を最適化するための高度なツール群を提供します。オーディオミキシングやエフェクトの追加など、プロ仕様のサウンド作りに役立ちます。


Webページのテキストコンテンツを自動で音声データに変換して、オーディオプレイヤーとして記事に埋め込むことができる機能です。


ProjectsやVoiceover Studioと同様に有料の「Creatorプラン」($11/月~)以上から利用可能となっております。


こちらの機能は海外の有名メディアの一部記事コンテンツに利用されるなど、実用化も進んでいるようです。



ツール

Voiceover Isolator

Voiceover Isolatorは、動画のノイズを除去して、特定の音声だけを抽出することが可能です。


例えば、バックグラウンドノイズや音楽が混ざった音声からナレーションのみを抽出することができ、音声編集作業が非常に効率化されます。


Voiceover Isolatorは登録不要でこちらから試すことができます。



ElevenLabsの料金

基本的には無料で利用が可能となっておりますが、無料版で商用利用を行う際はクレジット表記が必要となっております。




テキストで音声を生成する場合のクレジットは、80前後/10000ほどです。

エフェクトサウンドは320ほど消費しますが、おためしにしては十分すぎるかと思いますので、安心して量産してみてください!

まとめ

今回ご紹介したElevenLabsは音声AIの先端を行くツールとして、音声コンテンツ制作の可能性を広げてくれるのに加えて、一部では既に実用化にまで至っております。


無料版でも様々な機能が利用できるので、ぜひ一度触ってみていただけると幸いです。

今後もAIの発展に注目していきたいですね。



Syncpiece株式会社ではデジタルヒューマンの企画・提案も行っております。

ご興味のある方はお気軽にお問い合わせください!