Yuyang DONG
@touuyou001
Followers
687
Following
4K
Media
825
Statuses
5K
Chinese, Ph.D., SB Intuitions (LLM team tech lead), ex-NEC (contributed to cotomi LLM models), 投資と不労取得に興味
東京 中央区
Joined March 2014
Sarashina LLM 作る仲間募集中! ぜひ気軽にご連絡!カジュアル面談も、会社で話しましょう。 https://t.co/Gvutd05AHR
open.talentio.com
0
10
48
scaling law の壁の前には ショートカットがないですね。おとなしくてデータ品質up, GPUインフラ、FT, RL環境整備、論文TR結果そのまましんじてではなく、自分の環境でちゃんと実験やる。 これは全部揃えてからまたアルゴリズムの新規探索か。 日本か、世界ではこれ全部揃えるところはわずかですね。。
研究者の価値は、論文の引用数だけで測れるものではありません。実際、OpenAIやAnthropic、GoogleDeepMind、xAIといったトップ企業で活躍する人材を見ても、必ずしも著名な研究室の出身者やPhD取得者ばかりではありません。むしろ、圧倒的なエンジニアリング能力や実装力を持つ「無冠の実力者」が中核
0
1
9
GoogleBrainTokyo(現GoogleDeepMindTokyo)は2017年頃から存在し、実はアジア初のGoogleBrainの拠点でした。しかし、日本でその存在を知る人はどれくらいいるでしょうか?もっとインパクトがあり、目立つ存在になれたはずです。当初は、JeffDeanとも親しく、奥様が日本人で流暢な関西弁を話すドイツ人
3
126
764
some hypotheses for what “better pretraining” could mean - integration with other training stages: i’m guessing they’re finally at a point where post-training perf (eg SWE-Bench) can be used as signal for pretraining eng decisions - filtering: scaling approaches like influence
The secret behind Gemini 3? Simple: Improving pre-training & post-training 🤯 Pre-training: Contra the popular belief that scaling is over—which we discussed in our NeurIPS '25 talk with @ilyasut and @quocleix—the team delivered a drastic jump. The delta between 2.5 and 3.0 is
14
21
311
やりたいことがいっぱいで今のリソースも考えて現実に優先度つけて、いつも最適化問題ですね。。。 リソースと時間が無限ではないため、何をやるか何をやらないか、今のGPUが何をしたら将来でも役に立つ、どの技術セットを追いつく、開拓すべきか。は意思決定が大事。
0
0
1
この2年間大したモデルも作れていないし、プロダクトもない。論文のほとんどはインターン任せで、創業メンバーの論文も「AICudaEngineer」など炎上。シリコンバレー基準なら、この実績でシリーズB評価をここまで積むこと自体かなり不自然で、日本の盲目的な受託頼みで延命している印象が強い。そして
11
166
1K
https://t.co/GD2ddmPYWj Gemini3 pro, multimodal native sparse Moe, 多分事前学習から作り直した。
0
0
3