Wait, wait. Wait. That’s an aha moment I can flag here.

DeepSeekやOpenAIのような大規模言語モデル(large language model; LLM)を使った生成AIは、少なくともスマホの登場と同じくらいのインパクトを与えると予想しています。私のような日曜プログラマとしても面白そうな題材がいくらでもあります。
DeepSeekの話題の論文は下記です。
https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
わかりやすい解説が下記です。
https://zenn.dev/asap/articles/34237ad87f8511
私はコンピュータ学者と一緒にAIに有機化学の問題を解かせる本を書こうとしていますが、DeepSeekの学習過程にはかなりヒントがありそうです。計算資源が問題になりそうで、どこから調達するか頭が痛いです。
DeepSeekは1個500万円のNVIDIA-H800を2000台使って2か月で作られたとのことです。蒸留モデルは個人のパソコンレベルで動くそうです。マイニング用の7年落ちのCPU(28コア)がAlibabaで格安(50万円→2000円)で売られていて、買ってみましたが最新型(>10万円)に比べて速くありません。ゲーミング用のGPUと組み合わせて、化学の人にAIを、AIの人に化学を、それぞれの雰囲気を伝えられるくらいの本が書けないか構想を練っていましたが、DeepSeek登場で計画変更、ぜひLLMを取り入れてみたいです。

英語は https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
a model trained via large-scale reinforcement learning without supervised fine-tuning 教師データによる微調整なしの大規模な強化学習
as a preliminary step 予備的な段階
”on AIME2024, …, On MATH-500, it attains an impressive score of 97.3%, performing on par with OpenAI-o1-1217 and significantly outperforming other models.”
AIME2024 AIの学会で出された数学の課題のようです。https://mathlog.info/articles/fA5Hi3FJiWbRjfRFh8qz に和訳があります。結構難しいです。例:zが |z|=4を満たす複素数であるとき、(75+117i)z+(96+144i)/zの最大値を求めてください、など。図形問題もあります。本家は https://artofproblemsolving.com/community/c3370201_2024_aime   これをDeepSeekやOpenAIは解けるのですね。DeepSeekの正答率86.7%だそうです。
MATH-500 https://huggingface.co/datasets/HuggingFaceH4/MATH-500 で、500問あります。DeepSeekが正答率95.9%というのは恐れ入ります。皆さんはどのくらいできますか?
“aha moment”は、√(a-√(a+x))=xの実数解の総和を求めよ、という問題を解いているときに、”Wait, wait. Wait. That’s an aha moment I can flag here.”とAIが出力して考え直し始めたそうです。
これはセリフ(meme ミーム、集団内の模倣行動、インターネット上で拡散されるコンテンツ)としてしばらく流行るかもしれません。思考経過を文章で出力するのは有効でしょうね。

※この論文にはこれら問題を解けるように学習させた方法が書いてあるようなので、精読(有志で輪講?)したいです。発表から2週間以上たっているので、世界中でいろいろやっていることでしょう。

Leave a Comment

Comments

No comments yet. Why don’t you start the discussion?

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA