_m0se_ Profile Banner
OpenMOSE Profile
OpenMOSE

@_m0se_

Followers
233
Following
1K
Media
356
Statuses
2K

Rice Farmer, Fish Farmer, Welder(TIG,MIG), Electrician, Programming, Rocm RWKV is all you need. 元高専生です。

Joined February 2023
Don't wanna be here? Send us removal request.
@_m0se_
OpenMOSE
2 days
HRWKV7-Reka-Flash3.1-Preview. Hybrid RWKV 21.5B. AMD Developer Cloudの初期クレジット(100USD)+.100USD課金くらいで、できました。. MI300x 4days 500MToken+. ちまちまと、追加トレーニングしていきます.
0
1
4
@_m0se_
OpenMOSE
2 days
Radeon AI Pro R9700 想定の半額なんだけど. 1299USD 32GB FP8対応. 売れるでしょこれ。.
0
1
5
@_m0se_
OpenMOSE
4 days
RT @Grummz: Now hiring - waifu engineers. This is the best timeline.
Tweet media one
0
542
0
@_m0se_
OpenMOSE
5 days
hqq情報が少ないのだけれど、.モデルパラメータが20B以上であれば. Attn 4bit + mlp 3bitはいけるらしい??.
0
0
0
@_m0se_
OpenMOSE
5 days
予算ができれば、70B、、行きたい😂. ただ、64層以上の勾配安定性はまだわからない(笑).
0
0
2
@_m0se_
OpenMOSE
5 days
Continuing to optimize RWKV-Infer. Hybrid 21B ctx64k running with 21GB VRAM🙂.(python process 19GB). 6/7 RWKV o(n) + 1/7 * GQA o(n^2). soon support with Hybrid.hqq gemlite, bnb 4bit, fpx,fp8. Easy to scale multibatch
Tweet media one
0
0
5
@_m0se_
OpenMOSE
6 days
Hxa079にGated Memory Unit追加した. Hxa07a 1.8Bで試してる。. 雰囲気必要なさそうだけど。.
0
0
0
@_m0se_
OpenMOSE
7 days
タコピーってベースモデルに近い存在で、.RLHFなしで、世に出すとああなると思った.
0
1
2
@_m0se_
OpenMOSE
7 days
MuonClipだれか実装してくれないかな(他力本願).
0
0
0
@_m0se_
OpenMOSE
7 days
RocmでもいけるTritonな、.爆速8bit Gemmカーネルを募集しています. Forward Onlyでもよいので、あれば教えていただけると嬉しいです.
0
0
0
@_m0se_
OpenMOSE
7 days
Reasoningしても、日本語しゃべるくらいには、.中期記憶できるようになってきました。. 32kコンテキストくらいまでは、狙えそう.130kねじ込んでも崩壊はしなくなりました. フルRWKVだと、Reasoningの勢いで、本来の質問が忘却して英語でしゃべってしまうので、多少は進歩したかも
0
2
8
@_m0se_
OpenMOSE
7 days
Rekaちゃん、.日本語ベンチはそこそこなのに、.体感では明らかにQwen3-14Bより賢い. 評価が難しいね.
0
3
10
@_m0se_
OpenMOSE
7 days
あくまで自分が思っているのだけれど、. ReasoningモデルのRFTで、.Reasoningが長くなるように過剰にRLされたモデルは、.Repeat Penaltyを上げるか、 Tempを下げる必要があ���、. 多様性が、失われる傾向にある.ベンチ性能は稼げるが、体感性能がそこまで上がらない. なにが正解なんだろうね.
0
0
2
@_m0se_
OpenMOSE
7 days
Reka 3.1 Conversion in progress 🙂
Tweet media one
1
0
7
@_m0se_
OpenMOSE
8 days
RT @sama: we planned to launch our open-weight model next week. we are delaying it; we need time to run additional safety tests and review….
0
1K
0
@_m0se_
OpenMOSE
9 days
3.1の変換RTAしようと思いますー.
0
0
2
@_m0se_
OpenMOSE
9 days
RT @RekaAILabs: 📢 We are open sourcing ⚡Reka Flash 3.1⚡ and 🗜️Reka Quant🗜️. Reka Flash 3.1 is a much improved version of Reka Flash 3 that….
0
47
0
@_m0se_
OpenMOSE
9 days
AMD Developer Cloud. とても使いやすくて、安いので、.しばらくこれを使おうと思います. なにより、最新Rocmが使える.
0
0
5
@_m0se_
OpenMOSE
14 days
このモデルの変換にあたって、 RADLADS論文を踏襲し魔改造しています。. この分野は研究されている方が少ないので、.ぜひみなさまで盛り上げていきたいと思います.
0
0
4
@_m0se_
OpenMOSE
15 days
Reka-Flash-3 Hybrid Preview is here🪿+🤖. 21.4B Parameters, 1/7 GQA Hybrid RWKV. 32k ctx NIAH(64k target).for light agentic-tasks,translation. やっと、まともに動くようになってきました😅.
2
2
10