辿り着いた先は、最先端オブ最先端

はい!そういうわけでございまして。
お久しぶりでございます。1週間ほどご無沙汰しておりました。

いえね。

弊社株式会社マイウェイ、毎年恒例夏の大型研修がもうすぐはじまるのですよ。

で、その研修の各種資料を作るのがワタシの担当でして。
にもかかわらず、先週北海道へのお仕事出張が入っておりまして。
その上おまけに、月末月初処理のタイミングとバッチリ重なってしまっておりまして。

阿鼻叫喚の地獄絵図。

ふと気が付いたらこうして今週を迎えていたわけなのですが、
もうきっとアレやコレや山程の取りこぼしをしているに違いないと思っております。

全方位に向けて先に謝っておきましょう。

ごべんなざいいいいい!!


はい!

では気分もスッキリしたところで、
今回も「音声合成」の続きを見ていくことにしましょう。

前回は「ボイスロイド」と「AITalk」という音声合成ツールをチェックしてみて、
それが法人ライセンスだと『結構お高い』ということがわかりました。

滑らかに美しく『音声合成』を試してみよう!調査編

100万円コース以外の選択肢は果たして見つかるのか!?
見つからなかった場合、このシリーズの記事は無かったことになるのか!?

不安と焦りが漂う中、
インターネットの森を彷徨うこと数十分、
Googleさんのブログにこんな記事を見つけました。


Cloud TTS (Text-to-Speech) 一般提供開始

Google では、本日より Cloud Text-to-Speech の一般提供を開始します。

Google が提供する Google アシスタントや検索、Google マップ等の製品では、高品質な Text to Speech (TTS)という音声生成技術を利用することで、より自然な会話調の音声サービスを可能にしています。この TTS の技術を活用したいという、多数の開発者の方からいただいたご要望にお応えするべく、一般提供を本日開始しました。

Cloud Text-to-Speech は、さまざまな用途でご利用いただけます。

・コールセンターの自動音声応答装置 (Interactive Voice Response, IVR) でのリアルタイムかつ自然な会話
・IoT 機器 (TV、自動車、ロボットなど) のトークバック機能
・テキストコンテンツ (ニュース、本など) の音声変換 (ポッドキャスト、オーディオブックなど)

Cloud Text-to-Speech は、日本語を含む 12 の言語と 32 の異なる音声をご用意しました。また、Cloud Text-to-Speech は、氏名、日付、時間、住所などといった複雑なテキストも正確に発音でき、すぐにお使いいただくことができます。また、音声ピッチ、速度、ボリュームのカスタマイズが可能で、MP3 や WAV などといったさまざまなオーディオ形式での出力をサポートしています。

URL:https://cloudplatform-jp.googleblog.com/2018/03/introducing-Cloud-Text-to-Speech-powered-by-Deepmind-WaveNet-technology.html


ほほう?

こちら、今年3月の記事です。

なぜにGoogleが音声合成を?と、最初ボーッとしていて気付かなかったのですが、
よく考えると最近のGoogleさんってば、メチャメチャ喋っていましたね。

そうそう、こんな感じ。「OK Google」のアレです。
どうやらこの機械音声の仕組みが一般提供された、ということのようです。

なるほどなるほど。
すごく良いサービスな気がしますよ。

とりあえず、どんな感じに喋るのかを聞いてみましょうか。
こちらのページで実際に文字を音声に変換してくれます。


https://cloud.google.com/text-to-speech/

あらまあ!?意外と滑らか。

・日本語
・スピードの調整
・ピッチの調節

この辺りもしっかり対応されているようです。
ピッチを上げた感じはなんだか任天堂さんのトモダチコレクションを彷彿とさせますねえ。

さて、気になる料金ですが、ページの下の方に書いてありました。
どれどれ…

スタンダードの音声で、月間400万文字までは無料。
以降100万文字毎に4ドル。

従量課金制なので大量に再生が行われるような仕組みではお金がかかりますが、
仮に2,000文字の記事をガッチリ読み上げさせたとしても、500回再生されて4ドルです。

うん、安いかも!
こっちのほうが良いかも!


…と、ここまではボーッと思っていたのですが。ふと我に返りました。

この仕組みを使うためには、一体どんな技術が必要なのでしょう?

前回のボイスロイドのように、エディタを使ってシンプルに音声ファイルを作るようなものではなく、
文字情報をGoogleさんの窓口(API)に投げて、返ってくる音声をリアルタイムで流す。

こんな感じの仕組みのような気がします。
要は、とってもムズカシイ仕組みのような気がします。

ー興味本位で飛び込んだ沼は、実は底なし沼だったー
そんな雰囲気がプンプンしています。

だってもう『API』って言葉が出た段階で「回れ右」じゃないですか、ITジャングルって。(ワタシ曰く)
それがもうこのサイト、『JSON』とか『TRY IT FREE』とか、ヤバイ言葉がワラワラとこっちを覗いています。

うーむ。

とりあえず取り返しがつかなくなる前に、他の沼も見ておくことにしましょう。
実はGoogleさんだけではなくて、他にも同じようなことをやっている会社があったのです。

Amazon Polly

https://aws.amazon.com/jp/polly/

IBM Text to Speech

https://www.ibm.com/watson/jp-ja/developercloud/text-to-speech.html

ぐえー。
最先端オブ最先端のイマドキ軍団に辿り着きましたよ。
IBM Watsonって、例のアレ?

な、なるほどー。音声合成の技術はAI方面の技術に分類されているのですねえ。
それじゃあもう…どう考えてもムズカシイ仕組みに決まってますよねえ。


100万円 vs 超難解

ぐぬー、どっちを選ぶべきなのかしら。

…でもまあ、100万円は鬼高いここは『さるでき』ですし。

敢えて難解な沼に飛び込んで、
溺れる様を笑っていただいてナンボのサイトですし。

AIって言葉には興味があるけど、
正直ドコから触ったら良いのかサッパリで、
本を読んでもWebサイトを見ても先人達のお言葉はハードルが高すぎる。

そんな方がきっと世の中に3人くらいいるであろうことを信じて。
触ってみることにしましょう。AI。

正直何ができるのかサッパリわかっていませんが、
とりあえず目標は『当サイトに、音声合成システムを使った、記事自動読み上げ機能を作る』です。
(仮称:読み上げコロボくん)

大人の夏休みの自由研究(夏で終わらなそうな気もしますが)ガンバリマス!