日本語のAIナレーション
先日、HPA-1000の解説動画を作ったのですが、その中で文章を読んでもらうスピーチソフトをどうしようかと迷いました。
まあ、自分で読むのもひとつの手です。けど滑舌の悪いナレーションよりもスピーチソフトに任せた方が見やすいだろうと思ったのです。
調べてみると、パワーポイントに読んでもらう方法がある。みたい。
マイクロソフトには、コルタナさんというAI 音声認識+音声合成ソフトがあり、活用している人も多いはず(私は使ってない)なのでこれは間違いない!
と思ったのです。
ですが。、
ですが。。。
かなり酷いイントネーション。
これはYoutube動画でよくある棒読みちゃんよりも酷い。ような気がする。
という訳で、一旦、youtubeにUPした動画をボツにして、Amazon Pollyに読んでもらうことにしました。
実は、Pollyはトラ技の記事にしたこともあったという、いわば旧友のようなものです(笑)
ラズパイで、ネット上から天気予報などのテキスト情報(JSON形式)を持ってきてAmazon Pollyの APIを叩いて音声に変換(mp3ダウンロード)後、mpg123でラズパイのハイレゾDACから再生するという、何というか他人同士をくっつけて自分自身は何も難しいことはしないというプログラムを作って記事にしたものでした。一応、ボタン操作から2~3秒遅れで天気予報を音声で伝えてくれます。(ロケーションはあらかじめプログラムに入れておきます)
2017年当時、日本語対応したばかりのPollyはあまり有名ではなかったのですが、AIを活用して流暢な日本語ナレーションをしてくれていました。
当時は今回は女性のみでしたので、今回は男性を選びました。
こんな感じです。
マイクロソフトの方と比較できたらもっと違いが分かりやすかったかもしれないですが、ボツにしちゃいました。
HPA-1000の動画をあれこれ作ってもアンプ自体の特性も音も変わりませんが、設計時に狙ったことをちゃんと説明するのも大切だと思います。
にほんブログ村
ブログランキングに参加中です。 めざせ1位!
もしよろしければ「ぽちっと」お願いします。
« emerge+ さんが7月末で閉店 | トップページ | 半導体以外の部品もいろいろと入手しにくくなっています »
リニアリティとNFBの事を的確かつサラッと説明されていて、
とても爽快感があります。
「NFBがなければ良い音である」という念仏を最近よく聞くので
ふむぅ!?な気持ちになることがしばしば。
投稿: sawanoriichi | 2021年6月23日 (水) 22時21分
拙動画チャネルでは、「音読さん」というフリーのwebサービスを利用していましたが、読点・句読点、拗音・促音、タイミング調整などを工夫してもやはりイントネーションの不自然さが解消できなかったので、ナレーションは諦めてBGMを流すことにしました。
いや〜、自分の声を聞きたくないって、本当にわかります。
投稿: 三毛にゃんジェロ | 2021年6月24日 (木) 01時33分
hpa-1000の解説動画ですが、とても興味深く拝見しました。
つい先日、hpa-1000とprt-03の基盤を購入した身として、
たかじんさんの設計思想をより詳しく知れた事を嬉しく思います😃
ところで、hpa-1000用のRコアトランスの第4回募集の可能性はありますでしょうか?
必要な方にはもう行き渡っているのかも知れませんが...
投稿: あみのん | 2021年6月24日 (木) 22時09分
sawanoriichi さん
NFB部分の説明は、あとからみると肝心な部分が抜けていました。 僅かなNFBも2段目からかけていて、最終段からのオーバーオールNFBはない回路になってます。
ただ、NFBをかけたから音が悪い。という訳ではないと思います。
出力段がしょぼいのにNFBで誤魔化してしまうアンプは、特性だけ良くても音に結びついていない。という事は起こりえると思います。
三毛にゃんジェロさん
前後の文脈が絡むので、正確なイントネーションは難しいんでしょうね。 テロップで少しだけ説明を加えて済むような動画ならナレーションを入れる必要はないと思っています。 特に短い動画であれば。
自分の声って、どうにも違和感があってダメです。。。
あみのんさん
ありがとうございます。
そうですね。 夏休みの工作に合わせて7月くらいに一度募集をかけてみるのも良いかもしれません。 昨年から銅が高騰し続けているため、価格は少し上昇してしまうと思われます。あとは人数次第ですね。
投稿: たかじん | 2021年6月26日 (土) 01時08分