Google tranlate のAIの訓練に使った方式(Bert-RQ)をもう少し見てみましょう。1200万時間という大量の音声をAIに聞かせて、違う声や速度で話された同じ単語が同じであると認識できるようにしたわけです。意味や文字との結びつきは全くなく、ただ音声を分類しただけです。こういう方法を「教師なし学習」と言います。分かりやすい例なので、今後の講義に使いたいと思います。もとになっているのはBERTという方法、さらにもとになっているのはTransformerという方法です。下記が日本語でわかりやすいです。
https://qiita.com/omiita/items/72998858efc19a368e50
https://crystal-method.com/topics/bert/
いずれも多層のニューラルネットワークの訓練で、1億個の桁の数値の組を決めています。BERTというのは(1)文章の一部を隠して、隠したところをできるだけ復元するように数値の組を決める (2)2つの文が連続した文であるかどうかを当てるように数値の組を決める、という訓練をします。Bertのbは”bidirectional”で、は文の頭からとおしりからの両方向を使うことにおり飛躍的に性能が上がったそうです。また、Transfomerというのは文の中の単語に3つのベクトルを対応させ、単語同士の密接さを3つのベクトルの演算で求める方法で、3つのベクトルを訓練で求めます。下記がわかりやすいです。
https://qiita.com/omiita/items/07e69aef6c156d23c538
音声認識(Bert-RQ)で私が面白いと思ったのは、乱数で作った表(行列)と音声を対応させて、そこから各単語に対応する数値の組(ベクトル)を訓練によって求めたというところです。音声に限らず自然言語の訓練では同じ方法を使うようです。人間の赤ちゃんの脳ではニューロンがでたらめにつながっていき、成長に伴ってそれが刈り込まれていくと聞きますが、ニューロンの幾何学的位置がランダムになっていて、外界の刺激でニューロンの接続の係数が訓練されるとすると、脳でも同じく乱数の表のようなものがあるのかもしれません。しばらく前に紹介したfMRIでの思考解読で、被験者ごとにAIを訓練しないといけなかったということに対応するのかもしれません。そうすると、その乱数の表が人の個性や性格に反映されるのか、それとも指紋のように深い意味のない模様なのかどうかは興味深いです。
これらの訓練アルゴリズムの発展は6年くらい前に始まっています(主にGoogle発)。最近の音声認識や機械翻訳の性能の向上に寄与していると思います。
holistic 全体論の、全身用の level 12 holistic anesthesia アネス「せ」ジア 全身麻酔
no baloney ばかげていない バろーニ
utterance 「ア」タランス 発語
context 文脈
concatenation (単語の)連結 level 17
bidirectional 双方向性
robustness 頑強さ
cloze クろウズ 穴埋め式読解力の level 28 (こんな単語があるのは驚きです!)
finger prints 指紋
sheathe シーす 鞘(さや)
trim 整える、刈り込む
pare ペア ナイフで皮をむく、削り取る level 12
reap リープ 収穫する、借り入れる level 5 reap what one has sown 自分で蒔いた種を刈る、自業自得
harvest 収穫する