
K.Ishi@生成AIの産業応用
@K_Ishi_AI
Followers
10K
Following
6K
Media
942
Statuses
3K
AIの仕組みについてわかりやすく解説 | LLMと画像生成・動画生成技術 | ㍿キャメルテクノロジーCTO | スイス連邦工科大学(EPFL)卒 | コンピュータサイエンス専攻 | まとめ記事→https://t.co/RdtprqM1qI
Tokyo-to, Japan
Joined September 2023
GPT-5のポケモン攻略における性能向上は、実はかなり衝撃的。 下図を見てほしいのだが、GPT-5は「おつきみやま」や「イワヤマトンネル」など、o3が苦戦した高難度の迷宮を難なく攻略している。 これは空間認知能力の飛躍的な向上を意味する。 実世界で新宿駅を攻略するロボットがもうすぐ生まれる。
GPT-5が早くもポケモン赤の攻略に成功!なんとo3の3倍速でのクリア! 攻略速度向上の鍵は、GPT-5になりハルシネーションが大幅抑制され、変な挙動が減ったことだ。 「o3がまだディグダの穴を彷徨ってる時に、GPT-5は既にチャンピオンロードにいる」 という表現が、最もGPT-5の性能向上を体感できる。
7
332
1K
生成AIの利用効果は実は"累積的"で、年々上昇している。 3万人以上の研究者の成果を数年間追跡したところ、ChatGPTの登場を境に大きく変わり、2024年には36%ほど生産性向上したと判明。 人々は時間と共に効果的なAIの使い方を発見し、それに伴い年々生産性が向上する。 つまりまだまだ伸びる。
AI is apparently already accelerating science. Measuring academic publications of authors: “we find that productivity among GenAI users rose by 15 percent in 2023 relative to non-users and further increased to 36 percent in 2024” and the quality of publications also went up.
0
1
6
数学者はすでに、「GPT-5 Proが解けないレベルの問題を見つけるのは難しい」と言う。 数学やプログラミングのような、「問題が明確」かつ「デジタルで完結」できるものは、AIに攻略されつつある。 そしてAIのフロンティアは、徐々に「曖昧」で「物理世界」の分野へと進出していく。 時間の問題だ。
@emollick i've spent serious efforts working on developing math problems with an unambiguous (e.g., numerical) answer that gpt-5-pro cannot solve. it is *nontrivial* to do so. it was totally different even 4-6 months ago.
21
308
1K
もしこのループが完成し、AIが世界中で使われるコンピュータ利用のデータを学習すれば、一気に性能向上が進む。 コンピュータ利用の完全自動化達成も遠い話ではない。 そして、これができれば産業界に激震が走るだろう。このペースなら来年そうなってもおかしくない。 とても楽しみだ。
1
1
18
今後の発展余地として面白いのは、��えばコンピュータ利用をAIがある程度出来るようになったとして、 - 人がまずはスクリーンキャプチャで操作を教える - それを基にAIが行動を学習する - 学習したAIが自らコンピュータを操作する - その結果から再び学習する という学習ループができることだ。
1
1
14
この手法は単純に見えるが、実はAIの画像理解能力が上がったがゆえに可能になった手法だ。 先端モデルは画面を高精度に理解できるようになったため、ボタンのハイライト変化やカーソル移動等の微細な状態遷移を正確に検出可能になった。 その結果、このモデルは91.6%の行動予測精度を達成している。
1
4
10
つまり、「画面が変わったけど、何をしたんだろう?」という推測をAIにさせ、行動を炙り出すことで学習データを作成している。 例え��、 フレーム1:ブラウザでGoogleのホーム画面 フレーム2:検索ボックスにカーソルがある状態 であれば、 「検索ボックスをクリックした」 ことがわかる。
1
3
9
この手法の面白いところは、動画内の画面キャプチャから行動を予測する逆動力学的アプローチを採用しているところだ。 従来の 「現在の状態 + 行動 → 次の状態」 という順方向の図式ではなく、 「現在の状態 + 次の状態 → 行動」 と言う逆方向で行動を推測させる、とてもシンプルなアプローチだ。
1
3
9
Googleがコンピュータ利用の学習を加速する手法を編み出した。 ソフトの使い方のYouTube動画を利用し、動画内の操作をAIに分析させ、学習データを生成する方法だ。 AIへのスクリーンキャプチャによるPC操作指示が可能になれば、学習データが大量に集まり一気に性能向上し、完全自動化が達成される👇
New @GoogleResearch paper shows agents learn software skills by watching tutorials, converting them into action steps, and boosting task performance. So converts free videos into reliable supervision at scale. A vision model, inverse dynamics, predicts the action between 2
1
33
125
いずれにしても、AIによる専門分野の攻略は続く。 その成果は数学やプログラミングなどに閉じているわけではなく、物理世界へと徐々に染み出してくる。 そして、物理世界の認識ではマルチモーダル処理が鍵となり、その能力が高いGPT-5が今後も様々な分野で先頭を走っていくのではないかと思われる。
1
2
13
この差の主因は、天文学の図表・画像・グラフから数値を正確に読み取り、それをもとにした計算やプロット作成を、GPT-5は正確に出来たことにある。 従来の文字だけのテスト結果では見えなかった、AI間の決定的な能力格差が明らかになった。 これがGPT-5が様々な場面で強い理由なのだろう。
1
2
11
そこでGPT-5やGemini 2.5 Proなどの先端AIモデルが、ハイスコアを出したことの意義は大きい。 ただ、両者の能力は対等ではない。 実はデータ分析試験で両者のマルチモーダル処理能力の差が顕になった。 この試験では、GPT-5は88.5%と高スコアを維持し、他の4モデルの48-76%を大幅に上回った。
1
3
7
AIにおける専門分野の評価は従来、「太陽の表面温度は?」といった単純な知識問題が多かった。 しかし実際の天文学研究では、複数の物理法則を組み合わせた導出や、観測データからの予測など、高度な数学的推論と物理的直感が必要だ。 国際天文学オリンピックでは、まさにそのような能力を問う。
1
3
10
GPT-5とGemini 2.5 Proが、今度は国際天文学オリンピックで金メダル級のスコアを達成した。 数学・プログラミング分野での躍進に続き、天文学分野でもAIの攻略が拡大している。 特筆すべきは、GPT-5がマルチモーダル処理能力を要するデータ分析試験で他のモデルを圧倒したことだ。 この差は鍵だ👇
GPT-5 and Gemini 2.5 Pro just achieved gold medal performance in the International Olympiad of Astronomy and Astrophysics (IOAA). AI is now world class at cutting edge physics.
3
42
153
Google DeepMindのCEOは、先月処理したトークン数が、なんと"1,300兆"に達したと言う。 これは、世界人口(81億人)で一人当たりに換算すると、 ・16万トークン/月 ・5,300トークン/日 だ。 人類はGoogleだけでこれだけのトークン数を利用している。 もはやAIは生活基盤の一部であり、止められない。
We processed over 1.3 Quadrillion tokens last month - that's 1,300,000,000,000,000 tokens! or to put it another way that's 500M tokens a second or 1.8 Trillion tokens an hour... 🤯
1
29
134
OpenAIはこの巨額の研究開発投資により、すでに数年先のモデルまである程度完成していて、実は他社の状況を見ながらその結果を小出しにしていると考えても不思議ではない。 内部ではすでにAGIに近いものが完成していて、そこまで見えているからこそ、組織全員が強気の発言をしている可能性がある。
1
5
20
アルトマンを含めたOpenAIの人々は、しきりに「最先端のAIモデルは一般に思われているより遥かにすごい」とか、「今後数年間のリリースロードマップはもう出来ている」のような強気の発言を繰り返している。 だが、背後にこれだけの研究開発投資があったとすると、それらの発言の信憑性は増す。
1
3
17
研究開発コストの中でも、モデルの最終訓練は合計約10%と、実はあまり多くない。 超巨大モデルと言われるGPT-4.5ですら4億ドルで、その他のo3やGPT-4oなどのその他のモデルは合わせても8000万ドルだ。 それに比べ、研究部分が45億ドルと90%を占めており、いかにそこに注ぎ込んでいるかがわかる。
1
5
10
これはEpoch AIから出た計算コストの推定で、従来のFLOP計算に加え、クラスターサイズ・訓練期間・GPU時間単価から直接コストを算出し、それらを組み合わせて導き出している。 手法の中には、衛星画像を分析してクラスターのGPU規模推定するなどもあり、様々な方法で推定の正確性を高めている。
1
4
9
OpenAIの2024年のコンピュート支出70億ドルの内訳は、新モデルの研究開発が運用コストを大幅に上回り、2.5倍の50億ドルを占めていることが判明した。 アルトマンは「最先端のAIは遥かに凄い」と言っていたが、これを見るにやはりOpenAIは最新の結果を小出しにしていて、背後に色々と隠し持っている👇
New data insight: How does OpenAI allocate its compute? OpenAI spent ~$7 billion on compute last year. Most of this went to R&D, meaning all research, experiments, and training. Only a minority of this R&D compute went to the final training runs of released models.
1
59
252
この差がなくなると言うことは、「人間にできることはAIにもできる」と言うことだ。 そうなると、人間とAIの間に「能力差」はないのに、「価格差」はある。この問題を解くのに、AIは人間の1/2~1/10のコストですむ。 こうなってくると、いよいよ人間の出番はなくなり、AIに取って変わられてしまう。
1
5
33