みなさま、初めまして、クリプトンで、音声技術関連の研究開発に携わっております T.Ryo と申します。
これまでは、あまり表立って公開していませんでしたが、弊社では、音声信号処理や、ディープラーニングを用いて、新たな音声技術開発に取り組んでおります。
去年あたりからは、研究開発メンバー数名で、音声関連の学会にも足を運び始め、最新の研究についてチェックしています。
最近は、ディープラーニングを用いた音声合成や、リアルタイム声質変換の研究をよく目にするようになりました。また、そこでは音声分析合成の技術が用いられていることが多いように思います。
実は弊社でも、独自で音声分析合成技術や、ボーカルエフェクターの研究開発を進めています。
そこで今回は、これまでに我々が開発した技術の中から、2 つの VST ボーカルエフェクターを、ご紹介します。
■ 声を変調させるエフェクター「VOCAL DRIVE」
- 声を歪ませた時に起こる現象をシミュレートして、声に歪み効果を付与するエフェクターです。
- 設定次第で、ソフトなガラガラ声から、ポップグロウル、デスボイスのような効果まで作り出せます。
■ 音声分析合成エフェクター「CHERRY PIE」
- 独自開発した、リアルタイム高品質音声分析合成技術を利用したエフェクターです。
- 自由自在なピッチ操作や、スペクトル包絡、非周期性指標の変形により、声を大きく変化させることができます。
- 声質変換機能では、ディープラーニングにより獲得された、様々なネットワークファイルを読み込んで、別人のような声に変換することができます。
■ デモムービー
では、デモムービーで、実際にエフェクターを利用している様子をご覧ください。
ちなみに、こちらのムービーは、2018年11月20日にロンドンで行われた ADC(Audio Developers Conference)で公開されたものです。(そのため、現状より古いバージョンです)
いかがでしたでしょうか?
特に終盤のディープラーニングを用いた声質変換では、別人のように声が変化しているのがお分かりいただけるかと思います。
少し技術的な話になりますが、ムービー内の声質変換デモでは、女性ボーカル入力、男性ボーカル入力、いずれも全く同じ変換モデル(ネットワークファイル)を利用しており、女性入力であっても、男性入力であっても、変換後の音声は似た声に感じていただけるのではないかと思います。
これが、更に発展すれば、「誰が歌っても、〇〇の声質になる」といった技術も実現可能になるかもしれません!
今回は 2 つのエフェクターの紹介でしたが、開発したエフェクターは既に、10 種類以上あり、音声制作に活用されています。
今後も弊社で取り組んでいる技術開発の発表や、製品化を検討していきたいと考えています。引き続き、よろしくお願いいたします!