Google Translate の音声認識に関する今年の論文を見つけました。
https://arxiv.org/abs/2303.01037
arxiv(アーカイヴと発音する)に提出されたプレプリントです。
以下の3種のデータから300言語に対する音声認識の機械学習を行ったとのことです。
1) 音声のみ YT-NTL-U youtubeにある1200万時間の音声。300言語がある
Pub-U 公共データベースにある42.9万時間、51言語の演説。
2) 文章のみ Web-NTL webに落ちている1140言語にわたる280億の文
3) 音声と文章の組 YT-SUP+ 73言語、9万時間のちゃんとしたデータと、youtube から”noisy student training”で生成された10万時間の米語のデータ。
Pub-S 1万時間の米語と計1万時間の102言語のデータ
訓練は下記のようにやったそうです。
1) BEST-RQ(Bert-based speech pre-training with random projection quantizer)という方式を用いてYT-NTL-Uを使って訓練
2) MOST(Multi-Objective supervised pre-training)という方式を用いて訓練
3) 1)2)を使って訓練したニューラルネットワークが、文章と音声の組を使って学習
1)はニューラルネットワークに文章無しで音声をたくさん聞かせたわけですが、似たものの組をできるだけ多く作るような条件付けをして訓練したのでしょう(詳細は別論文なので、想像です)。これにより、いろいろな声や速度で話された単語を同じものであると認識させたのでしょう。ここで人間の音声の特徴が共通なものとして認識されます。人間も、声の特徴はあっても言葉が通じるので、同じような抽出をやっていると思います。
2)には翻訳前と翻訳後の組があったと思うので、ロゼッタストーンのように使って翻訳機を訓練したのでしょう。また、一つの言語の文法も大量の文章から抽出できるでしょう。
そして3)で文章と組にすることによって、正確に文字にすることができるのでしょう。
文字と音声の組をわざわざ作らないでも学習できるので、実に賢いですね。自動ロボットである”google crawler”が常にwebから情報を抜き取っていますが、そこから文章データや音声と文章の組を入手したのでしょう。大量のyoutube音声も容易に使えるGoogle ならではのやり方だと思います。
訓練のため人間の翻訳家も動員していたという情報もあります。明日もう少し細部を見てみたいです。
英語は上記論文から。
multilingual マるティ「り」ンガる 多言語の
archive 「ア」ーカイヴ 収集して保管したもの
”With conventional supervised training approaches, audio data needs to be manually transcribed, which is lengthy and expensive, or collected from existing transcribed sources which are hard to find for tail languages.” 従来の教師あり学習法では、音声データは手で(人力で)文字起こしする必要があり、時間がかかり高価であった。または、すでに存在する文字起こし済みの音声源から集める必要があり、あまり話されていない言語では見つけるのが困難である。
transcribe 文字起こしする
tail language 分布の裾のほうの言語、あまり話されていない言語 tail はしっぽですが、データの分野では「裾(すそ)」の意味でよく使います。
corpus コーパス 集積、全集 level 10
generic 一般的な generic drug ジェネリック医薬品
We explore the possibility of … 我々は~の可能性を探索する。
explore 探索する、探検する