Google Translateの教師無し学習

Google tranlate のAIの訓練に使った方式(Bert-RQ)をもう少し見てみましょう。1200万時間という大量の音声をAIに聞かせて、違う声や速度で話された同じ単語が同じであると認識できるようにしたわけです。意味や文字との結びつきは全くなく、ただ音声を分類しただけです。こういう方法を「教師なし学習」と言います。分かりやすい例なので、今後の講義に使いたいと思います。もとになっているのはBERTという方法、さらにもとになっているのはTransformerという方法です。下記が日本語でわかりやすいです。 https://qiita.com/omiita/items/72998858ef…

Google TranslateのAIはどのように訓練されたか

Google Translate の音声認識に関する今年の論文を見つけました。 https://arxiv.org/abs/2303.01037 arxiv(アーカイヴと発音する)に提出されたプレプリントです。 以下の3種のデータから300言語に対する音声認識の機械学習を行ったとのことです。 1) 音声のみ  YT-NTL-U youtubeにある1200万時間の音声。300言語がある           Pub-U 公共データベースにある42.9万時間、51言語の演説。 2) 文章のみ  Web-NTL webに落ちている1140言語にわたる280億の文 3) 音声と文章の組  YT-SUP…

世界の研究所 Google Translate

英語の授業で発音を訓練したりテストしたりしたいのですが、コンピュータ音声認識が使えるのではないかと考えています。まず、一人で英語の発音の訓練をする方法について考えます。Google Translate の性能は非常に高くなっています。Google Chromeブラウザで https://translate.google.com/?sl=en&tl=ja にアクセスし、左のパネルの左下にあるマイクのマークをクリックすると音声を吹き込むことができます。5000語まで受け付けるようなので、練習したい文章を読むと文字が現れます。文字が元の文とあっていればOKです。認識してくれないところはやり直…

Also Sprach Zarathustra(10)第4部のあらすじ

今週は日曜日からずっと出張していました。今日もまた出かけます。金曜日の読書はもう少しZarathustraを続けましょう。最後の第4部は、第3部までとは違って多くの登場人物が自分のセリフを話します。演劇にしたら面白いと思いますが、Youtubeにはあがっていません。2つほど見つけましたが、中身ではなく、脚本家のインタビューや音楽などです。第4部を扱った劇ではなさそうです。やはりニーチェは人気がないのでしょうか。 http://www.nietzschecircle.com/Staging_Zarathustra.pdf https://www.releasemagazine.net/laiba…

真っ青なバラはインクなので注意(800年の歴史がある)

今日はサントリーが2004年に発表した青いバラについて。開発開始から14年かかっています。 https://www.suntory.co.jp/sic/research/s_bluerose/story/ パンジーの青色色素の遺伝子(アントシアニンの水酸化酵素)を入れて成功しました。 -OH基が一つついただけで赤から青に変わるのは有機色素の面白さですね。 クロマン環の酸素原子に+がついたりラジカルになったりしているのが不思議です。環境による激しい色の変化はこれに関係していると予想します。あとで計算してみます。 上記の記事の写真は紫色に見えますが、通販では本当の青色や水色のバラを売っています。変…

バラ科の遺伝子データベース

下記のバラ科の遺伝子データベースは、米国の大学の一人の研究者が中心となってこれまで19年間運営しているようです。学者として重要な仕事ですね。 https://www.rosaceae.org/ 私も素人なので、いろいろ調べながら見ています。バラ科(Rosaceae)の中のバラ属(Rosa)の遺伝子の倍数性(polyploid)は3倍体か4倍体、染色体は7本です。ゲノムの大きさ600Mbでbはヌクレオチド(塩基)の数、Mは100万なので、6億のヌクレオチドからなるということですね。倍数性、というのは植物がゲノムの最小必要数の何倍かを持つことがあるという不思議な性質のことです。昔習ったのは、アブラ…

バラ科の種類はなぜ多いか?

今日はバラ科のトリビアです。なぜ種類が多いか(2500種)?は、下記に答が書いてあります。  花弁5枚  雄蕊(おしべ)は10本または多数  葉は単葉または複葉で根元に托葉(葉の根元につく小さい葉やとげ状のもの)がある。 で定義されるので、種類が多いのは理解できるのではないでしょうか。 https://withplace.co.jp/zoo/flower-cherryblossoms_plant.html https://ja.wikipedia.org/wiki/%E3%83%90%E3%83%A9%E7%A7%91 いろいろな科の花のweb写真集もあります。 https://flower.…

世界の研究所 David Austin Roses (英国)

昨日、植物園を見てきました。バラがたくさん咲いていましたが、品種には育種者と年号が書いてあり、かなりの割合で”David Austin”という人が登場しました。調べてみると、イギリスの有名な育種家で、10代で趣味としてバラの育種をはじめ、世界展開に成功して現在は2代目が継いでいるようです。日本にも支店があって、webもあります。本拠地にバラ園があるようです。行ってみたいですね。 https://www.davidaustinroses.com/pages/plant-centre-and-gardens 下記が日本版カタログです。苗木を各国の拠点に送って育ててから売ると…

Also Sprach Zarathustra(9)永劫回帰とタイムマシンSF

先週金曜日はお休みしましたが、Zarathustraを続けましょう。今週は以前予告したように趣向を変えて、永劫回帰をモチーフにしたSFを紹介します。タイムマシンを扱ったものは必ずループの問題が出てきます。確証はありませんが、ニーチェを意識しているのではないか、という描写に気づくことがあります。確認する時間がないので、下記はかなりうろ覚えです。 ・Isaac Asimov: The end of eternity 永遠の終わり 1955 タイムマシンの発明によって、タイムパトロールが発足し、悲惨な現象が起こらないように歴史の流れが制御されるが、一般の人はそれを知らない。結局、未来にわたって歴史が…

意識のハードウェアのしっぽ

今週取り上げている論文は、「意識」のハードウェアの実体のしっぽを捕まえた画期的なものだと思いますが、米国でもメディアは少ししか取り上げていません。日本のメディアではまだ見ていません。個人的には、哲学や心理学が理系の実験科学に変わる流れの1つのマイルストーンとして位置づけられると考えます。 私は購読しているMIT technology reviewで見つけましたが、調べるとNew York Timesがプレスリリース(5月1日)の当日とりあげています。これを転載した地方紙がいくつかあります。しばらく前に金曜日の読書で読んでいた”You are not listening”…