ドラム/ギター/ベース/シンセ/ピアノ/オーケストラ音源や、ヒップホップ/テクノ/トランス/ハウス系サウンド素材、初音ミクなど、
"音で発想するチーム" クリプトン・フューチャー・メディア(株)が、DTM最新情報をお届けするブログです。

[VOCALOID情報] 次期「初音ミク」について…8月版…(前編)

2009年8月 1日 16:10 - watwat

vocaloid2%40crypton.gif

お世話になっております。wat@4日間だけ札幌帰省中です。

先週水曜から、今週水曜まで丁度1週間に渡って東京に滞在していたのですが、温度というより湿度の差にクラクラしますね。今回は「次期・初音ミクってなに??」という疑問に触れるためその前段の経緯をお話出来ればと思いますm(_ _)m


■次期「初音ミク」について〜藤田咲さんとの収録〜

次期「初音ミク」といいますのは、次のVOCALOIDエンジンを視野に入れ、「初音ミク」もしくは「CV01」の表現力を膨らませる為には何が出来るだろう?とい う発想から、VOCALOID班の中で自分が企画し、他の作業スタッフ3名と共に進めているプロジェクトです。

本件の初出は、DTMマガジン5月号増刊「CV03 巡音ルカ」のインタビュー(P55)で、こちらで少しだけ波形の画像にて紹介いただいているのが、複数制作して いるデータベースの1つ「CV01-dark-ProtoTYPEβ」です。また来週、発売されるDTMマガジン9月号では「CV01-vivid-ProtoTYPEβ」の短い音声サンプルが収録 され検証されている予定です。これらはβとあるとおり、必ずしも「このままの形で」製品に収録されるかは決定しておりません(ブラッシュアップしつつ、 ニュアンスの検証中場合によってはお蔵入り)。基本的にはエンジンの表現力限界を精査しながら、幾つかのニュアンス違いのデータを表現力向上のために役立つ様、精査しているところです。


(細かくお話すると色々な絡みがあるのですが、そこは追々お話できればと・・・)


この企画開始は今年の2月で、CV03のリリースも終わってひと段落が着いたバレンタインデー位。以降、初音ミクを録音したスタジオに、藤田咲さんに定期的にお越しいただいて進められました。

実は2007年から今まで、かなりバタバタした中で、藤田さんともゆっくりとお話したり、VOCALOIDの展開についてご説明する機会が無かったのですが、今回、改めてVOCALOID関連の今後の予定案(例えば、VOCALOID3絡みのご相談)や、今までの案件の経緯などをご説明させて頂き、少しゆったりとした時間の中で、今まで私共の不精で欠けていた中の人とのコミュニケーションが図れていると思っています。とてもよかったです。

そんな中、まずはじめに収録されたのが「CV01-dark-ProtoTYPEβ」。 「初音ミク」は、皆様にお買い上げ頂き、楽曲制作のため使用して貰って、緩やかな自分自身を獲得していった(今もそうし続けている)と思いますが、例えば一部の「調教」という言葉に代表されるような、作者の方々とのコミュニケーションのニュアンスだったり(まあコレは殆どがお約束というか、ジョークを含む記号だとは思っているのですが…)、突き詰めて考えるとVOCALOIDが「自己主張出来ない(出来ているとは考えがたい)」存在でありながら感情を持っているように「魅せている/観られている」所に思いをはせ、、、

藤田咲さんに(大きなうねりと時の流れに対する)ちっぽけな存在の"切なさ"のようなものを声の表情として表現してもらったのが「CV01-dark-ProtoTYPEβ」です。

なので、今のミクとは違う心理状態で発せられる切ない声とも取れますが、コレがイコールで初音ミクなのかと言うと少々疑問が残ります。本来と違う意味で の裏声といった所でしょうか…

逆に「CV01-vivid-ProtoTYPEβ」は、収録の呪文や、口の開け方など、ディレクションがいつもと違う形で収録し、組み上げたデータベースです。(次回に続きます・・・)


■おまけ (丁度良い、画像的なモノが無かったので蛇足です)

cv01_dark_beta.jpg

「CV01-dark-ProtoTYPEβ」のインストーラの容量は製品版ミクより20MBほど大きい、509MB、現状、新しいインストーラの容量は500〜600MB程度で今後まだ大きくなりそうです。。。多分。

関連記事
コメント一覧

VOCALOID3?ヤマハさんと関係なくまさか自社開発ですか?

細かい技術の話になってくるとわかりかねますが、
最近、2009年7月27日付けで富士通社より「プロの
ナレーションに迫る高品質な音声合成を実現」とい
うようなニュースが流れました。
どちらかというと、音声案内での合成音声が支流
かと思いますが、歌声もいけそうな図もあり、
これは? という疑問が。歌と喋りはもともと違う
と思いますが、どういう解釈をしたらよいのか皆目
検討つかず。複合エンジン搭載が可能になるかどう
かなど、難しい問題も山積みではあると思いますが、
何れの場合でも、今後の技術発展に期待せずにはい
られません。大変でしょうが頑張って。

皆様、コメントありがとうがとうございます!

メールでも色々と質問など頂いているので、追ってまとめてご説明させて頂ければと思っております。(一寸忙しいので少々お待たせしてしまう・・・かもです)

>>ヤマハさんと関係なくまさか自社開発ですか?
そういうことは、流石にありません(汗)
藤田さん側の意向確認が必要な部分があったんですよね。いずれご説明できると思います。

>>歌と喋りはもともと違う
>>と思いますが、どういう解釈をしたらよいのか皆目
>>検討つかず。複合エンジン搭載が可能になるかどう
>>かなど、難しい問題も山積みではあると思いますが、
>>何れの場合でも、今後の技術発展に期待せずにはい
>>られません。大変でしょうが頑張って。
了解です。また何れ色々とお話できるかと思います。
お待たせして申し訳有りませんが、引き続き、
宜しくお願いいたします。

また別件ですが、「例の呪文の公開は問題があったのではないですか?」との連絡が複数有りました。

こちら内容的には、ヤマハさんと我々の合同講演などでお話させて頂いている内容より、簡素なものとなりまして、また論文などで収録方式などは公開済みの情報ですので、問題はありません。(むしろ気になる所があればお気軽に突っ込んでください)

ご心配お掛けして申し訳ないですが、今後とも一つ宜しくお願いいたしますm(_ _)m

はじめまして、一連の話とっても面白かったです。

呪文についてですが、公開後まもなくの事で、フリーの音声合成エンジンには相当な性能改善が得ることになりましたので、もしかしたらノウハウ開示に当たることで問題になるではないかと思いますが、確かに論文で公開済みの情報で問題ないというのは、ある意味研究者の間では知るべきものであり、つまり動画サイトで「八月革命」といわれる物は、VOCALOIDエンジンニアからみれば辛うじて及第点レベルかもしれないから、基礎研究に当たりフリーと商業ソフトとの程度差を理解させる出来事でした。

今度の内容についてですが、「VOCALOID3でもミクが発売させる(かもしれません)」と読み取り出来る発言ですが、「検討中」として理解してもよろしいですか?

おはようございます。コメントありがとうございます。

>>Ejiさま

僕もヤマハ様から直接、論文を頂いたりするもので、公開場所についての詳細などは把握しておりませんが(スイマセン)、技術的で込み入った情報は比較的簡単に入手できます。

>> 今度の内容についてですが、「VOCALOID3でもミクが発売させる(かもしれません)」と読み取り出来る発言ですが、「検討中」として理解してもよろしいですか?

私の知りうる「VOCALOID3」という方向性に対して、ミクの素材を順応させていくべきだとは考えております。また他にもハードルがあるのでクリアしていく方向で考えています。

今回のお話は興味深く拝見させていただきました。

リン・レンが発売された時はマルチレイヤー化を進めるのかなぁ、思っていました。
表情を変えるために。その布石としてDBを2種類持つということをしたのかなと。
今回の試みはその延長上にあるのかなぁと、勝手に思っています。
(もっとも容量を考えるととんでもないことになりそうですが)

元波形1つでいろんな表情を付けるのは難しいですが、EQとコンプを極めれば
なんとかなるんじゃないかと思う自分がいたりします。
(発声はそんなに単純なものではないですが・・・)

ミクさんをきっかけにDTM再開してもう2年近くになるんですよねぇ。
月日が流れるのは早いものです。その間、大して曲を仕上げてなく、
そしてVOCALOIDは進化していくと・・・
置いて行かれないようにがんばります^^

追伸:
昨年末Annのシリアルの件で仕事納め間際に対応して頂きご迷惑をおかけしました。
遅ればせながらお礼申し上げます。
ありがとうございました。

コメントありがとうございます。

>>リン・レンが発売された時はマルチレイヤー化を進めるのかなぁ、思っていました。
>>表情を変えるために。その布石としてDBを2種類持つということをしたのかなと。
>>今回の試みはその延長上にあるのかなぁと、勝手に思っています。
>>(もっとも容量を考えるととんでもないことになりそうですが)

実は本当にそのつもりも有って。ただ圧倒的に試験が足りてなくてですね。。。
今は、色々ありましたが、生のデータや思考錯誤を繰り返しながら、経験値を
上げながら取り組んでいます。少々、場当たり的になっている部分もありますが、
とにかく現場と生データからのフィードバックを信じて、広く可能性を探っ
ています。容量は・・・一つ600MB程度なのでDVDで大丈夫そうです(笑)

>>元波形1つでいろんな表情を付けるのは難しいですが、EQとコンプを極めれば
>>なんとかなるんじゃないかと思う自分がいたりします。
>>(発声はそんなに単純なものではないですが・・・)

そうですね。一つの素材から多くのバリエーション(印象)を引き出すことは
サンプリングミュージックの基本だと思いますし、その文化に育てられた自分
なのでとても感慨深いです。発音・・・そうですね。機材独特の使用感の中で
生まれるアイディアもあるかと思いますので、色々と試しがいのある状況が
生まれれば一番良いのかなと思います。。。前向きに悩みますね。

>>そしてVOCALOIDは進化していくと・・・
いえいえ、進化したのはまったく別の部分で、我々やヤマハさんはその熱気に
感化されている状況だと思います。だからもっと(ry

>>昨年末Annのシリアルの件で仕事納め間際に対応して頂きご迷惑をおかけしました。
>>遅ればせながらお礼申し上げます。

いえいえ、それが仕事ですので。今後とも宜しくお願いいたします。
(サポートのものに代わって回答させていただきました。)

コメントを書く
投稿者情報を記憶する
(スタイル用のHTMLタグを使えます)
この記事のトラックバックURL

http://blog.crypton.co.jp/mt/mt-tb.cgi/3991

ARCHIVE