はまなすなぎさ @RosaRugosaBeach profile

はまなすなぎさ

@RosaRugosaBeach

Followers

2,033

Following

3,721

Media

407

Statuses

12,285

全ての呟きは私個人のささやかな気づきや興味に基づくものです。

https://t.co/7FsYwG9lce

Tokyo

Joined September 2016

Don't wanna be here? Send us removal request.

Explore tweets Explore followers Explore following

Explore trending content on Musk Viewer

#KAZZAWARDS2024 • 355580 Tweets

SAROCHA REBECCA IN KAZZ • 292738 Tweets

スタンプ • 151968 Tweets

NORAWIT WITH PAUL SMITH • 68834 Tweets

Varane • 30958 Tweets

インプレゾンビ • 28041 Tweets

B1NI TOPS SPOTIFY • 22061 Tweets

#うたコン • 13154 Tweets

モグコレ • 12443 Tweets

#MAZZEL • 12390 Tweets

名誉毀損 • 11507 Tweets

風の行方 • 10330 Tweets

Hummels

ベイシア

シンクロ覚醒

ジュビロジュビロ

辻󠄀無惨

佐藤輝明

杉下右京

ジャパンミート

ジェイド・リーチ

柱稽古クイズ

応援合戦

宜保ちゃん

二葉百合子さん

Bulgaristan Türklerinin

いなば食品

地方球場

Lindelof

村上くん

ダンプラ

カイリュウ

ちゅーる

Harganya Lazada Lebih Bagus

新井先生

石川昂弥

試合成立

ジュンスカ

ノーアウト満塁

コールド

ライマル

うさほー

サトテル

まりほー

カリステ

こいほー

ライデル

#اطلب_رفع_ترند0ちб88ち86ち9

#اليوم_الثاني_مزاد_دوحه_الخرج

どらほー

Last Seen Profiles

@iRunDeezStreetz

@maxber_r

@dremfyco

@junnuhaa

@yadimama

@MxPieldeToro

@Shuu_78

@KerbelSasha

@bbhsource

@NesianNz

@DhooomiA

@TomIddon

@FelixEOD

@latiniano

@ohueppop

@dranilo

@Taeryth

@moongs_p

@raikchiu

@imx_nnn

Pinned Tweet

はまなすなぎさ

@RosaRugosaBeach

1 year

昨年から爆発的な流行を見せているAI画像生成について、網羅的かつ多角的なメタサーベイを執筆しました。核となる拡散モデルの基礎、一般層への浸透、浮き彫りとなった問題点、および加速度的に発展する手法群をまとめています。多分どこより情報量多いです。皆読んでね。

DiffusionによるText2Imageの系譜と生成画像が動き出すまで

2022年を境に爆発的な流行を見せはじめた AI 画像生成。コアとなる拡散モデルの基礎解説、研究領域で育てられた技術が一般層にまで羽撃いた変遷、その過程で生じた解決されるべき問題点、および日進月歩で増え続ける発展的な手法群について、網羅的に流れを追いかけるメタサーベイを作成しました。明日にでも世界が一変しうる流動的な分野において、情報のまとめとは必然的に古くなっていくものです。そんな奔流の...

speakerdeck.com

10

944

3K

はまなすなぎさ

@RosaRugosaBeach

6 months

日本では超有名なミームになってる『ヒンメルはもういないじゃない』、英語吹き替えだと "Because Himmel is rotten in the ground." っていうえっぐい訳になっており、フリーレンを静かに激昂させるに至ったのがよりわかりやすい直裁的な表現になってると同時に非常にいい意訳であると思った

131

6K

30K

はまなすなぎさ

@RosaRugosaBeach

6 months

西洋的価値観のファンタジーの中で、日本のように火葬せず土葬してる描写があったのも踏まえて「人々から敬われ世界を救った高潔なヒンメルも今や土の中で腐ってるわよ」っていう人間にとってはこれ以上ない侮辱をアウラが澄ました顔で言ってるのがガチでポイント高い、ここで描写すべき事をわかってる

2

1K

6K

はまなすなぎさ

@RosaRugosaBeach

6 months

勉強したい、時間が欲しい、みたいなことを口では言いながら実際に時間があってもほとんど何もしない自分を観測するたびに魂が擦り減って、人はだんだん自分を諦めてさらに何もしなくなっていくんだろうな　そういう時に何かに励む他者は刺激になる、それ以外に自身で起爆剤を作る難易度は結構高い

2

871

4K

はまなすなぎさ

@RosaRugosaBeach

6 months

これ耳を澄ませたらis rottenよりis rottingと言ってる気もしてきて、魔族やエルフのような長命種にとってヒンメル没後のたかだか30年程度は一瞬のように感じられる（＝腐敗が進行中）みたいな解釈もでき、面白いなと思うと同時に、まあいずれにしても侮辱度高くて最高だなと感じた

2

335

3K

はまなすなぎさ

@RosaRugosaBeach

6 months

侮辱なんだけど、アウラはそれを侮辱だと思って言ってなさそうなところが、このシーンを人類と魔族を分つ精神性の違いを描く上でこの上なく細やかで重要なものにしているんですよね

2

301

2K

はまなすなぎさ

@RosaRugosaBeach

1 year

SD系手法を用いたアニメ風動画への変換、かつての黎明期の取り組みもすごく感動した記憶がありますが、一貫性が一気に上がってて久しぶりにかなりの衝撃を受けました ControlNetは納得としてVideo Loop Backてなんだろうと思ったらまた何か出てたっぽい

GitHub - fishslot/video_loopback_for_webui

Contribute to fishslot/video_loopback_for_webui development by creating an account on GitHub.

github.com

Charles

@xianienie

1 year

#ControlNet #stableDifusion nike 🤤use video loop back and controlnet with canny

37

759

3K

2

397

1K

はまなすなぎさ

@RosaRugosaBeach

7 months

AI界隈、「とりあえず手を動かして試す」が他の専門分野と比べて遥かに簡単かつ確かに重要ではあるので、背景知識や理論、アルゴリズムのいろはも理解してない人がその手数によって実際にそれなりに有益な情報を生み出し、幅を利かせ、その実少し踏み込んだ発言をすると間違う、ということがよく起きる

1

168

1K

はまなすなぎさ

@RosaRugosaBeach

6 months

これはおっしゃる通りだと思っていて、だからこそ日本語でいう「もういない」と同じくらいの気軽さで「土中で腐っている」と言い放ててしまう、という面も含めて上手い意訳だなと個人的に感じた部分でした

ケイ㌠_unlimited_pͪoͣnͬpͣoͥnͭpͣa͡inͥ

@TANKKB2_KE

6 months

いうて向こうじゃ土中で腐るのは常識なんじゃないか？日本だとだいぶ忌避感の強く感じるが土葬が基本のキリスト教国じゃ「そらそうよ」ってなるのでは

1

9

87

0

200

1K

はまなすなぎさ

@RosaRugosaBeach

1 year

誰がどう見ても長続きしないビジネスモデルすぎて、先行者利益だけ掻っ攫って未整備の土壌を荒らすだけ荒らして消えてく焼畑タイプで心底迷惑だし、そもそもちゃんとしたプレスリリースの場で他人のツイート黒塗りして使うとかいう広報意識の欠片もないことしてるのありえない

LoRAモデル作成者・プロンプト作成者にも収益還元される、AIイラスト投稿サービス『petapi（ペタピ）』をリリース

株式会社シアンのプレスリリース（2023年5月30日 10時00分）LoRAモデル作成者・プロンプト作成者にも収益還元される、AIイラスト投稿サービス『petapi（ペタピ）』をリリース

prtimes.jp

3

535

927

はまなすなぎさ

@RosaRugosaBeach

1 year

Transformerを超えるんじゃないかと言われてる新たな系列モデル（と理解してる）S4とその更なる発展であるH3、数理背景が難すぎて理解を放置してたのでちゃんと勉強したい理解できてないけどS4はこの資料が超詳しかった記憶積読してるH3の解説

[Journal club] Hungry Hungry Hippos: Towards Language Modeling with State Space Models

慶應義塾⼤学杉浦孔明研究室 M1 和田唯我 / Yuiga Wada

speakerdeck.com

1

128

811

はまなすなぎさ

@RosaRugosaBeach

1 year

いずれ出てくると思ったけど、Any2Anyの拡散モデルが提案されたみたい。言語、画像、動画、音声の任意の組み合わせ（訓練データになかったものでさえ）から、任意の組み合わせを出力できる。単一モダリティのSOTAとすら並んだり凌駕する（画像はImagenとかと比べてないけど）

Any-to-Any Generation via Composable Diffusion

We present Composable Diffusion (CoDi), a novel generative model capable of generating any combination of output modalities, such as language, image, video, or audio, from any combination of input...

arxiv.org

1

184

761

はまなすなぎさ

@RosaRugosaBeach

6 months

寄せられた色々な意見を眺めていると、「腐っている」は攻撃的すぎて元々の無邪気さのある発言にはそぐわない気がするという意見も多く、それも共感できるなあと思う一方で、個人的には「魔族にとって魔族以外の生物が死後腐敗するのは自然現象の一部（＝当たり前で感情を伴う事象ではない）であり、

1

74

653

はまなすなぎさ

@RosaRugosaBeach

6 months

それが人間の神経を逆撫でる機微を含む言葉であるとは理解していない」ことを反映した表現なのかなーと思ったりもしましたそうであるならば、もういないをただの事実として述べたアウラとそこに憤りを覚えたフリーレンの対比描写の訳出としては意外とそぐうものではあるんじゃないかなーとも感じたり

1

61

615

はまなすなぎさ

@RosaRugosaBeach

1 month

純粋な機械学習系の記事でここまでわくわくさせられたのは久しぶりな気がする実際今後自分がこれを応用できるか、実践的に効果を得られるかを置いておいて、とりあえず理解しておきたい欲に駆られる

μTransfer: 小規模モデルでのハイパラ探索を大規模モデルに転移し学習を効率化する｜Tatsuya Shirakawa

最近、友人から大規模モデルの学習を劇的に効率化しそうな下記の事実（μTransfer）を教えてもらい、こんなことが成り立つことに非常に驚くとともに、それを知らなかったことにちょっとしたショックを受けました。 μTransfer 下記の手順で大規模モデル（Neural Networks）の最適なハイパーパラメータを効率的に獲得できる 1. 学習したい大規模モデル（ターゲットモデル）と同じアーキ...

note.com

1

81

607

はまなすなぎさ

@RosaRugosaBeach

1 year

サイバーが日本語モデル出してきた矢先にrinnaも公開してくるのアツい 3.6Bなので7Bにはパラメータ数は及ばないが、対話用に調整したモデルも公開された模様（サイバーの7Bモデルが補完でさえ結構厳しい感じだったのに比べてこちらはどれほどのものなのか期待感がある）

rinna、日本語に特化した36億パラメータのGPT言語モデルを公開

rinna株式会社のプレスリリース（2023年5月17日 13時00分）rinna、日本語に特化した36億パラメータのGPT言語モデルを公開

prtimes.jp

1

169

545

はまなすなぎさ

@RosaRugosaBeach

3 months

エグすぎてなんとも言えない感情になった動画の一貫性がどうとか、fpsがどうとか、長尺がどうとか、動きの滑らかさがどうとか、これまでの界隈の議論を全部吹っ飛ばす勢いで完全に『もうOpenAI（あの人）一人で良くないですか？』状態だ

Sora: Creating video from text

openai.com

1

71

413

はまなすなぎさ

@RosaRugosaBeach

10 months

Transformerの後継となるべく新たに提案されたRetentive Network、面白い並列処理と再帰構造をうまく組み合わせた仕組みで、メモリ消費や推論効率が改善しているほか、2B以上の規模になると精度も上回り始める（昨今のLLMとしてのベンチマークがどうなるかは気になるが）

Retentive Network: A Successor to Transformer for Large Language Models

In this work, we propose Retentive Network (RetNet) as a foundation architecture for large language models, simultaneously achieving training parallelism, low-cost inference, and good performance....

arxiv.org

3

64

387

はまなすなぎさ

@RosaRugosaBeach

6 months

3

30

331

はまなすなぎさ

@RosaRugosaBeach

1 year

適切に選択したたった1000件の学習データでLLaMa 65BをFTすると、RLHFとか使わずともAlpaca 65B〜GPT4までと比較して競合できるくらいの性能に到達するという研究興味深い

3

55

327

はまなすなぎさ

@RosaRugosaBeach

6 months

恵vs甚爾の英語吹き替え、最期の「良かったな」が「That makes me glad.」になっててそう訳したかぁ、という感じ。元の台詞は、五条が彼の遺言を汲んで恵を禪院家から遠ざけて守ってくれたであろうことを察し、恵にとって良かったと語りかけてると解釈できるが、英語版は主体が甚爾の感情になっている

3

52

309

はまなすなぎさ

@RosaRugosaBeach

8 months

Transformerの後継を謳ってたRetNetがViTに適用されてちゃんと結果が出ましたよ論文 PixelCNN系みたいに画像を左上から読み取る形式かと思ったらRetNetをちゃんと平面+双方向に拡張していて偉い（自己回帰で過去しか見れないのは画像認識とかには適してないと言ってる）

RMT: Retentive Networks Meet Vision Transformers

Vision Transformer (ViT) has gained increasing attention in the computer vision community in recent years. However, the core component of ViT, Self-Attention, lacks explicit spatial priors and...

arxiv.org

1

46

310

はまなすなぎさ

@RosaRugosaBeach

4 months

津波や地震に際する緊急避難報道が今回どの局もかなり強烈だったことに対して腐してる（恐らく被災地にいない）人の意見を見て、安全地帯のお茶の間で突然あれらを見たら茶番とかやりすぎとか感じる気持ちも理解はできたが、現場にいた者の感じ方はかなり違っていて、私は素直にありがとうと思っている

1

41

253

はまなすなぎさ

@RosaRugosaBeach

1 year

DeepFloyd IFが学習画像まんまの生成結果を簡単に出せることがわかってきて、拡散モデルのヤバさ認識フェーズが一段上がった気がする今日この頃（SDでもたまに出ちゃうことが示された研究はあったが、それ以上に多分遥かに出しやすい、特に固有名詞の組み合わせ系は）

1

125

249

はまなすなぎさ

@RosaRugosaBeach

11 months

ちなみにLLMに興味あるけど詳しいこと何もわからんよって人はこちらをご覧になるといいです　すでに知っている方にとってはこれまでのおさらいという感じ

ChatGPT（とその周辺）の技術

zenn.dev

0

33

249

はまなすなぎさ

@RosaRugosaBeach

5 years

描くことは癒やし。

4

55

223

はまなすなぎさ

@RosaRugosaBeach

5 months

ものすごく強気かつミステリアスに主張すれば "なにやら凄そう" というだけで人が群がってくるのマジで本邦のAI界隈とその重厚な取り巻きの良くないところだと思っており、ここ数日でそういうのを何度か目撃しているので完全に食傷している

1

35

219

はまなすなぎさ

@RosaRugosaBeach

1 year

1000件の良質なデータでFTすればいいよ！っていうLIMAが出たと思ったら、良質な指示対話形式のデータ（1.5M）でスケールさせたら強くなったぜ！っていうUltraLLaMaが出てきた　LIMAは65Bだったけどこっちは13Bみたい

Enhancing Chat Language Models by Scaling High-quality...

Fine-tuning on instruction data has been widely validated as an effective practice for implementing chat language models like ChatGPT. Scaling the diversity and quality of such data, although...

arxiv.org

1

35

202

はまなすなぎさ

@RosaRugosaBeach

1 year

光栄なことに、この度の資料をITmediaさんにご紹介いただきました。執筆を頑張った自分をちょとだけ褒めてあげると共に、これもひとえにご覧いただいた皆様の反応あってこそのことだと感じています。改めて心よりの謝意を。修正点については対応中ですので、今しばらくお待ちいただけましたら。

ITmedia NEWS

@itmedia_news

1 year

AI画像生成の最新トピックを“濃密”にカバー　DeNAが230ページ超の資料公開

2

56

240

0

27

193

はまなすなぎさ

@RosaRugosaBeach

6 months

チラシ裏のつもりだったので超驚いていますが、たまーに類型の呟きをします。最近だとこれとか。今回の引用でも「私には解釈違いだ」って方もいて、その気持ちもよくわかるというか、私も普段別に全肯定感想botをやってるわけではないので色々な意見が見られて楽しいです

はまなすなぎさ

@RosaRugosaBeach

6 months

恵vs甚爾の英語吹き替え、最期の「良かったな」が「That makes me glad.」になっててそう訳したかぁ、という感じ。元の台詞は、五条が彼の遺言を汲んで恵を禪院家から遠ざけて守ってくれたであろうことを察し、恵にとって良かったと語りかけてると解釈できるが、英語版は主体が甚爾の感情になっている

3

52

309

0

18

198

はまなすなぎさ

@RosaRugosaBeach

1 year

拡散モデルが訓練データを単に複製してしまう既知の問題を緩和するための手法っぽい実応用上この観点は特に大事なんじゃなかろうか

Understanding and Mitigating Copying in Diffusion Models

Images generated by diffusion models like Stable Diffusion are increasingly widespread. Recent works and even lawsuits have shown that these models are prone to replicating their training data,...

arxiv.org

1

34

194

はまなすなぎさ

@RosaRugosaBeach

6 months

漫然とした精神疲労に対抗できるのは前述の他者の振る舞いか、強烈な目的意識のどちらかだ

0

32

182

はまなすなぎさ

@RosaRugosaBeach

27 days

軽い気持ちで読み始めたけど知見が多くて面白い

Stable Diffusionからの概念消去⑤：DiffQuickFix (論文)

zenn.dev

1

17

168

はまなすなぎさ

@RosaRugosaBeach

1 year

NNsは勾配降下の非明示的な正則化効果で一般化すると思われているが、実は勾配不使用型optimizerでSGDと同程度の汎化性能が得られたのでそんなことないんじゃね？という研究。「平坦な局所極小値」に辿り着くことが大事だとしてパラメータ空間を一様分布から繰り返しサンプリングするだけの手法を提案

Tom Goldstein

@tomgoldsteincs

1 year

It is widely thought that neural networks generalize because of implicit regularization of gradient descent. Today at #ICLR2023 we show new evidence to the contrary. We train with gradient-free optimizers and observe generalization competitive with SGD.

15

119

683

1

25

166

はまなすなぎさ

@RosaRugosaBeach

6 years

色彩と立体感の模索

4

37

161

はまなすなぎさ

@RosaRugosaBeach

7 months

例えば実験系の多くの科学分野は実験器具を扱うために「理解していないといけないことのハードルが高い」が、AI系はPCに少々明るければ「押せば動く」ので、他分野のように言説の質を担保する作用が働きづらいのだと思う　故に多様性が多く均衡が下で落ち着いて、バズりを誘発させやすいから群がる

1

30

163

はまなすなぎさ

@RosaRugosaBeach

1 year

StableDiffusionを使えるお馴染みの公式webアプリであるDreamStudioがOSS "StableStudio" として提供されたみたいだこっちのいわゆるモダンなUIで拡張機能開発の機運が高まったらすごく面白いけどどうなるかな

GitHub - Stability-AI/StableStudio: Community interface for generative AI

Community interface for generative AI. Contribute to Stability-AI/StableStudio development by creating an account on GitHub.

github.com

1

31

160

はまなすなぎさ

@RosaRugosaBeach

6 months

すごい詳しくて色々勉強になった

作って遊ぼう！LLMを搭載した君だけのV&Lモデル！

zenn.dev

0

7

157

はまなすなぎさ

@RosaRugosaBeach

10 months

1B（10億）トークン処理可能とかいうぶっ飛んだTransformer派生が出てきたけど、セグメント分割して指数関数的に飛び飛びな領域を注意させるdilated attentionを考案したらしい（WaveNetのdialated convの使い方を彷彿とさせる）短い系列でも長い系列でもちゃんと精度出てる

LongNet: Scaling Transformers to 1,000,000,000 Tokens

Scaling sequence length has become a critical demand in the era of large language models. However, existing methods struggle with either computational complexity or model expressivity, rendering...

arxiv.org

0

45

154

はまなすなぎさ

@RosaRugosaBeach

5 months

なんかSchrodinger Bridgesとかいう新しい生成モデルのスキームが生えてる気がするなあと思ったら、ありがたい解説記事が Part IIが出る予定らしいがまだ見当たらない

A Brief Survey of Schrödinger Bridge (Part I) - Morpho Tech Blog

こんにちは、CTO室リサーチャーの長山と申します。モルフォでは毎週金曜日に持ち回りで論文紹介等を行うJournal Clubという取り組みを行っています。今回は、私がその場で発表したSchrödinger Bridge（シュレーディンガー橋; SB）という確率論的生成モデルスキームの解説スライドを公開いたします。 …

techblog.morphoinc.com

0

28

155

はまなすなぎさ

@RosaRugosaBeach

6 months

生きてて楽しいという気持ちが薄れてる時の大体の原因は文化資本の薄さだなーと感じる　趣味、遊び、熱中できること、好きな食事処や飲み屋、家で時間を潰す時の選択肢……等々への圧倒的な知識不足や造詣の浅さ、知りにいくEnergyのなさ、生物としての格の低さが自分で自分をつまらない環境に置いてる

1

11

153

はまなすなぎさ

@RosaRugosaBeach

10 months

LLaMA2、ネット上のデモだとあんま日本語強くない印象だけど、ローカルでggml 4bit版の13B chat動かした感じ想像以上にまともに会話できるな、という印象

2

19

140

はまなすなぎさ

@RosaRugosaBeach

7 months

今のLLMって大量のテキストの煮凝りを食わせることでよしなに知識が手に入ることを期待してやってて、実際それが上手くいってるけど、そういう不確かなやり方じゃなくて知識グラフとかを別軸で保持しつつそれを読み取って適切に言語化できる仕組みにした方が筋がいい気がするな、とかふと思った

1

10

136

はまなすなぎさ

@RosaRugosaBeach

10 months

RetNetってせっかくsoftmaxを廃してQKVの積を線形に計算できるようになったんだから、積の順序をKVからにするっていう古典的なアイデアでもっと計算量減る気がするけどどうなんだろう（decay_maskも含め効率的に分解できるかという話はあるが）これは疑似コードだから実際はそうしてるのかもだけど

1

6

131

はまなすなぎさ

@RosaRugosaBeach

1 year

Transformerのenc-dec間にinformation bottleneckを入れてVAE的に表現の正則化をしよう的なノリの研究、面白そうなので読む

A VAE for Transformers with Nonparametric Variational Information...

We propose a Variational AutoEncoder using Bayesian nonparametrics to regularise a Transformer encoder-decoder with latent mixture distributions.

openreview.net

1

24

132

はまなすなぎさ

@RosaRugosaBeach

7 months

ZENKIGENのテックブログがZenn Publicationに対応したため、私の公開記事を個人アカウントに紐付け直しました。これからも多分ぼちぼち更新していきます。某Transformer記事も公開から早8ヶ月経過しましたが、畏れ多くも多くの皆様にご覧いただけていることに謝意を。

30分で完全理解するTransformerの世界

zenn.dev

1

17

127

はまなすなぎさ

@RosaRugosaBeach

1 year

絵柄そのものに著作権は認められないのでは？とか学習は合法で…とかそんな話をしたいのではなく、なんというかこのマネタイズ仕草のさもしさみたいなものが、クリエイターの方々の悪感情を煽るだけでなく、AI利用領域に対する（ただでさえ悪い）印象をますます悪化させていく点を危惧してるんですよね

1

34

115

はまなすなぎさ

@RosaRugosaBeach

11 months

CVPR2023にDreamBoothが採択されてたのを知って、学会ですらもう遅すぎるのか…という気持ちになった DreamBoothとかもう古典だろ（過激）

1

17

119

はまなすなぎさ

@RosaRugosaBeach

7 years

@bozu_108 推しの恋愛成就で泣き叫ぶのがアニオタ推しの恋愛発覚で鳴き叫ぶのがジャニオタ

0

6

97

はまなすなぎさ

@RosaRugosaBeach

10 months

RetNetのchunkwise retentionのこの式、絶対オリジナルのretentionの厳密な分解になってないだろと思ってトイコード書いたらやっぱり値が一致しなかったので色々暗算してたら厳密にchunkwiseに分解できる式に辿り着いて、実装上分解する場合としない場合が厳密一致することも確認した

2

6

104

はまなすなぎさ

@RosaRugosaBeach

1 year

今までのVAE潜在空間経由したtext2videoのチラつきはなんだったんだってぐらい安定していてすごい　ピクセルベースで学習するImagenVideoとかに近い滑らかさを感じる

AK

@_akhaliq

1 year

Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models turn the publicly available, state-of-the-art text-to-image LDM Stable Diffusion into an efficient and expressive text-to-video model with resolution up to 1280 x 2048 abs: …

26

354

1K

1

26

102

はまなすなぎさ

@RosaRugosaBeach

10 months

マジじゃん rinnaさんまでGPT由来のデータ使ったモデルをMITライセンスで公開するなら、実質「競合モデルに出力使用禁止」規約で律儀にデータやモデル非商用にするのアホらしいってことになるのでは　流石にわかっててやってるだろうから少なくともここの見解はokてことなのか

1

22

101

はまなすなぎさ

@RosaRugosaBeach

1 year

なんかめちゃくちゃ有益なTransformerサーベイがあったので共有しますね（ダイマ）ブログのくせに143件も論文引用してる異常な記事ですが、ご興味のあるところを適当に拾ってご覧いただければ嬉しいです

DeNA × AI

@DeNAxAI_NEWS

1 year

躍進を続けるTransformer関連手法について、AI技術開発部の清水（ZENKIGENで業務委託）がメタサーベイ記事を執筆しました。手法群を多角的に俯瞰し、昨年から話題となっている言語モデルの創発性についても簡潔に触れています。辞書的な記事として是非お立ち寄りください。

0

84

365

2

16

93

はまなすなぎさ

@RosaRugosaBeach

1 year

論文が出た当初も「いつかちゃんと読みたいなぁ…」と思いつつ目を逸らし続け、実装が公開されてからも「今度読むか…」と放置していた彼の Consistency Models （難しく、つらい）をかなり綺麗かつコンパクトにまとめてくれた良記事で、五体投地して読んでいます

1

8

91

はまなすなぎさ

@RosaRugosaBeach

1 year

昼に最初この記事見た時、「学習元画像のクリエイターに還元じゃなくて？？？」と普通に三度見くらいしたよね

0

35

88

はまなすなぎさ

@RosaRugosaBeach

7 months

LINEが複数端末からログインできないの令和の時代にあるまじき悪行だと思ってるけどLINEだから許されてる感 LINEに統合されたYahoo!の皆さんはぜひ外部からの圧力によりこれを実現せしめていただきたい

1

8

87

はまなすなぎさ

@RosaRugosaBeach

7 months

SDやDALLE3の構造をお気持ち的文章で説明した記事が本当にお気持ち以上の情報量がない（そんなことは論文を読んでも多分書いてない）もので、そしてそれがありがたがられているのを見て、結構わかりやすくがっかりした

1

14

84

はまなすなぎさ

@RosaRugosaBeach

4 months

transformersのVideoMAE実装でqkvの射影を分けた上でkだけbias=False相当にして、qvのbiasはconfigで有無を切り替えられるようにしてるのの裏の意図が謎だったが、この論文を見るとkのbiasは冗長だがそのほかには意味があるらしく、まさにこれじゃんという気持ちになった

Role of Bias Terms in Dot-Product Attention

Dot-product attention is a core module in the present generation of neural network models, particularly transformers, and is being leveraged across numerous areas such as natural language...

arxiv.org

1

7

78

はまなすなぎさ

@RosaRugosaBeach

1 year

NeRF（の派生手法）に関する解説記事を公開しました。 NeRFそのものの説明は割とあっさりめですが、最近にわかに盛り上がりつつある手法だと思うので、NeRFってどんな技術なのかというところにご興味がある方にも面白い内容になっているのではないかなと思います。よかったら見てみてくださいね。

株式会社ZENKIGEN

@zenkigen_corp

1 year

📣ZENKIGEN技術ブログを更新📣 『NeRF-RPN：NeRF上で物体検出する技術』 NeRF という空間表現の中で構築された初の物体検出手法について解説しました！📸 最近流行りの NeRF 関連手法にも薄く広く触れているので、ご興味のある方はぜひご覧ください。 #NeRF #物体検出

0

27

98

0

17

79

はまなすなぎさ

@RosaRugosaBeach

6 months

参考までに私の記事ですが…… こういうのどこに報告すればいいんだろう。Qiita公式？

30分で完全理解するTransformerの世界

zenn.dev

1

11

77

はまなすなぎさ

@RosaRugosaBeach

1 year

AIの出自の怪しさを問われたら高圧的で偉そうに振る舞うAI使用者、痛いところを突かれて今すぐ反論せずにはいられないみたいな無意識の防御機構が顕になってて痛々しいし、自身に正当性があると思うならなおさら穏便な口調を心がけるべきだと思うのだけど、なぜ喧嘩腰になるのか

1

26

71

はまなすなぎさ

@RosaRugosaBeach

10 months

FlashAttentionとFlashAttention2の理解とおさらいにとても良い記事だった

0

10

71

はまなすなぎさ

@RosaRugosaBeach

10 months

Hyena（S4やH3と同じ状態空間モデルの系譜）のコンテキスト長 1k~1Mのモデルが出たらしい！！今はなぜか遺伝子コードで事前学習したモデルが公開されてるけど、モデルだけ転用してどこかお金持ってるとこがLLMにしてくれることを期待（実装が出てきたことに価値がある）

LongSafari/hyenadna-large-1m-seqlen · Hugging Face

huggingface.co

1

22

69

はまなすなぎさ

@RosaRugosaBeach

10 months

Transformerの発案に関わった著者らがGoogleを辞めてることは知られてたけど、かの伝説論文にて著者欄のメアド欄を棒消しにするアプデが入ったらしくパフォーマンスみがある

Jiahao Chen

@acidflask

10 months

Looks like the Transformer authors updated the "Attention is all you need" paper with e̶m̶a̶i̶l̶s̶

9

26

293

0

17

68

はまなすなぎさ

@RosaRugosaBeach

1 year

LLMを2倍早く収束させるという触れ込みの新しいSophiaでも読むか　Adamファミリーの牙城を崩すoptimizerって今後現れるのかなあ…（性能だけでなく誰もが使ってるとか使用が容易とか色々あるし、汎用的に強いの（脳死で代替できるか）も大事なので普及のハードルは高い）

Sophia: A Scalable Stochastic Second-order Optimizer for Language...

Given the massive cost of language model pre-training, a non-trivial improvement of the optimization algorithm would lead to a material reduction on the time and cost of training. Adam and its...

arxiv.org

0

10

67

はまなすなぎさ

@RosaRugosaBeach

1 year

ところで、界隈の中で氷山の一角である多少以上発信している人間から特につつきやすそうな（話はできそうな）人間を選んで煽ったり批判したりするのは、単に「大勢の発信しない側に戻るか、辛いし」という心理的遷移を生むだけでお互いに損なので、会話やエアリプはできるだけ穏便にお願いしたいです

1

5

67

はまなすなぎさ

@RosaRugosaBeach

5 months

この先しばらくは「Geminiって英語ではｼﾞｪﾐﾅｲって読むんですよ」「いや、公式にｼﾞｪﾐﾆってお触れが出てるので」の会話が発生し続けそう

1

18

67

はまなすなぎさ

@RosaRugosaBeach

1 year

この図がとてもわかりやすいのだが、しれっと書いてある「任意から任意への生成を線型オーダの数の訓練目的関数で達成できる」というのが地味に凄いよな　愚直にやると組み合わせの数だけちゃんと訓練設計しないといけないので、それがCoDiで提案されたAlignment方法の良さなのだと思う

0

17

66

はまなすなぎさ

@RosaRugosaBeach

1 year

ツイートを引用する際の決まり事を調べるところからやってどうぞ（問題の本質はもちろんそこではない）（が、そういう低レベルなところすら適当なので全く信用に値しない）

1

30

66

はまなすなぎさ

@RosaRugosaBeach

6 months

まあ甚爾が嬉しかったこと自体は間違いないだろうから、どの感情の刹那を切り取ったかの違いでしかないのだけれど

0

6

61

はまなすなぎさ

@RosaRugosaBeach

11 months

LLMにClassifier-free guidanceを適用して出力制御する論文、面白い

Stay on topic with Classifier-Free Guidance

Classifier-Free Guidance (CFG) has recently emerged in text-to-image generation as a lightweight technique to encourage prompt-adherence in generations. In this work, we demonstrate that CFG can...

arxiv.org

0

6

63

はまなすなぎさ

@RosaRugosaBeach

1 year

$40あればGPT-4ライクな画像テキストマルチモーダルモデルが3時間程度で学習できるという触れ込みのLLaVA Lightning、そんなうまい話あるか？？？と思ったがVicuna-7Bから追加学習する前提らしくて納得　それでもかなり効率的な気がする仕組みを理解すれば他のLLMにも同様の知見を適用できそう

Haotian Liu

@imhaotian

1 year

🚀Introducing LLaVA Lightning: Train a lite, multimodal GPT-4 with just $40 in 3 hours! With our newly introduced datasets and the efficient design of LLaVA, you can now turbocharge your language model with image reasoning capabilities, in an incredibly affordable way.🧵

12

108

469

0

12

60

はまなすなぎさ

@RosaRugosaBeach

30 days

SD~SDXLまでVAEの潜在次元数が4なのどう考えても再構成の観点からは小さすぎるけど大きくすると拡散モデルの訓練がより難しくなるからトレードオフなんだろうなと思ってたらSD3の論文にまさにそう書いてあったし、拡散モデルのキャパがデカくなるぶんSD3では16次元になるらしくそうだよねぇの気持ちに

0

6

59

はまなすなぎさ

@RosaRugosaBeach

1 year

1週間ゆっくりしてる間に色々な情報がTwitterを駆け巡っていたけど、pixivさん槍玉にあげられて気の毒に…という気持ちになった　pixivは元からスクレイピングを禁止してるので対策が後手になったはちょっと違うし、大手のイラストレーターの方に「信用がなくなった」と言われてるの胸がきゅっとなる

1

8

58

はまなすなぎさ

@RosaRugosaBeach

9 months

QuIPっていう、重み行列のHessianを使ったLLMの2 bit量子化手法が提案されたらしいので読む数十B程度になれば、perplexityだけじゃなくて特定タスクの精度でfp16と遜色ないとこに落ち着くのかなりすごいのでは？ arxiv: github:

1

14

59

はまなすなぎさ

@RosaRugosaBeach

5 years

院試ですが、無事合格するとともに、第一志望である研究室への配属が決まったようです。期間中応援してくださった皆様、見守り激励してくださった皆様、また、恥ずかしながら荒れた呟きの群れを寛大にも見過ごしてくださった皆様へ、厚く御礼申し上げます。春からまた同じになるみんなもよろしくです

4

0

56

はまなすなぎさ

@RosaRugosaBeach

8 months

3.5-turbo-16kを調教するために工夫しまくってたスキームをそのまんま4-8kに与えたら「これが欲しかったんだよ……」になった例です内容はlatexソースから読んでるので数式とかも内容としては反映できてる（Twitterにあげると文字どれだけ潰れちゃうかわからないけど）

はまなすなぎさ

@RosaRugosaBeach

8 months

arxiv-summarizer、試行錯誤で山ほどトークン消費するから3.5-16k系でずっと実験してるけど、3.5は本当に指示を聞いてくれないので疲弊し続けてて、気まぐれで任意モデル対応できるよう拡張してgpt4-8kに変えたら回答安定性と精度が爆上がりして感涙した感涙したが、常に4を選択する余裕はねぇんだ…

1

3

31

1

5

56

はまなすなぎさ

@RosaRugosaBeach

6 months

Whisper, TTS, Assistant API, function callingの組み合わせで披露したデモが超洒落てる「聴講者からランダムに5人選んで$500のOpenAIクレジットを付与してあげて！」と音声入力、対話的にアシスタントAIが自動で抽選して音声応答する様を見せた後、場の全員にクレジット付与してあげる太っ腹ぶり

1

10

55

はまなすなぎさ

@RosaRugosaBeach

3 years

An abandoned aubade, or what is one remove from a curse.

3

5

51

はまなすなぎさ

@RosaRugosaBeach

9 months

著者の方に修正した式と計算内容を確認する簡単なnotebookを共有するメールを送ってみたので、せっかくですし該当部分だけこちらでも共有しようと思います　何かお気づきのことがあればご意見いただけると私としても嬉しいです（何もないに越したことはないが）

はまなすなぎさ

@RosaRugosaBeach

10 months

RetNetのchunkwise retentionのこの式、絶対オリジナルのretentionの厳密な分解になってないだろと思ってトイコード書いたらやっぱり値が一致しなかったので色々暗算してたら厳密にchunkwiseに分解できる式に辿り着いて、実装上分解する場合としない場合が厳密一致することも確認した

2

6

104

2

7

53

はまなすなぎさ

@RosaRugosaBeach

10 months

データが非商用かなんて気にせず使えばいいじゃん論、そうできたら最高だがレピュテーションリスクとか色々あるからみんな慎重になっているのであり、あとそもそも著作権法がカバーする領域というよりOpenAIの規約に触れる別軸の話なので、想像よりややこしいんですよね参考:

無料GPT-4アプリの公開とクリーンデータセットの作成について｜kun1emon

※ 本記事の取り組みのその後については以下で紹介しています。無料 GPT-4 アプリを活用した Instruction データセット作成の取り組み - Qiita ※ 本題から逸れますが本日、OpneAssistant/oasst2 を日本語に翻訳した oasst2-135k-ja を qiita.com どうもこんにちは。最近、大規模言語モデル（LLM）の個人開発に取り組んでいる@kun...

note.com

1

5

53

はまなすなぎさ

@RosaRugosaBeach

10 months

少し前に一部界隈でやたら絶賛されてた『出会って4光年で合体』が気になって初めてFANZAで買い物したけど、ここ十数年で一番衝撃的な読み物だった、というかまだ6割と少ししか読み終わってないけど、間違いなくそうなる確信がある　このボリュームと内容で1,100円なのは何かのバグな気がする……

2

9

51

はまなすなぎさ

@RosaRugosaBeach

1 year

StableDiffusionは “表現力が低いから” お目溢しをもらってただけ説が濃厚になりそう

0

24

50

はまなすなぎさ

@RosaRugosaBeach

9 months

全てのTransformerベースモデルをRetNetに置き換える運動が起きてほしい

1

51

はまなすなぎさ

@RosaRugosaBeach

1 year

社会人になってから、V100 8枚挿どころかA100 8枚挿のGPUマシンが複数台あった出身研究室の凄さに改めて気づくな…

1

4

50

はまなすなぎさ

@RosaRugosaBeach

1 year

この要求がそのまま実現することはおそらくないと思うけど、こういうことを組織立って主張する人の声が目立ち始めることに、影響力という意味での一定以上の価値があるんだろうなあと感じたりしますね　とはいえどういうところに落ち着くんだろうなあこの泥沼の問題

Torishima / INTP

@izutorishima

1 year

機械学習に著作物を使う場合に許可を取る、というのは今の情報解析を無条件許可してる著作権法と真っ向から衝突するし、政府は AI の方を優先する方針っぽいから分かりあえなさそうだよなぁ　この規定を廃止したら実質日本で GPT みたいな LLM は作れなくなるので #nhk

36

396

883

1

25

48

はまなすなぎさ

@RosaRugosaBeach

4 months

報道や町内放送の激しさも受け、念の為家族で山の方に移動することになりました　何もなければ夜には普通に帰れるはずですが……

1

2

49

はまなすなぎさ

@RosaRugosaBeach

7 months

多視点ビデオを入力とした4K解像度での動的な3次元再構成で、RTX 4090だと80FPSで動いたりするらしい NeRF系かと思ったら点群処理に基づくようで、その辺追ってないからこんなに綺麗にいくのに驚いた（点群からのレンダリング研究が既に発展してるのか提案手法の貢献かは門外漢なのでこれから読む）

Aran Komatsuzaki

@arankomatsuzaki

7 months

4K4D: Real-Time 4D View Synthesis at 4K Resolution Proposes a 4D point cloud representation that supports hardware rasterization and enables unprecedented rendering speed proj: abs:

6

92

486

0

11

47

はまなすなぎさ

@RosaRugosaBeach

10 months

こちらLLaMA2が実質商用可能なのでこのように発信されたのだと思いますが、LLaVAはもともと研究用途限定ですし、LLaMA2 based LLaVAに用いられたLLaVA-Lightningデータセットも非商用なので注意が必要かなと思いました 1. LLaVA license 2. LLaMA2 based LLaVAの概要 3, 4. LLaVA Lightning

あるふ

@alfredplpl

10 months

商用利用可能なマルチモーダル基盤モデルLLaVA(Llama2 ベース)きた！！

1

65

274

1

5

47

はまなすなぎさ

@RosaRugosaBeach

7 months

自分の能力を伸ばすことの面白さ以上に面白いことってあんまりないと思うんだけど、別にリアルってゲームのように簡単にステータスが向上するわけじゃないから基本億劫さが勝ってあんまり伸びずに漠然としたつまらなさを抱える、っていうのが実際は何にもマイナスじゃないのに勝手に鬱屈とする脳のバグ

1

5

45

はまなすなぎさ

@RosaRugosaBeach

3 years

研究関連の話題で恐縮なのですが、このたび私の初主著がAIの国際会議ICLR 2021に採択されました。・主著をトップカンファに通す・M1でトップカンファに通す・卒論の延長をどこかの会議に通すを同時に実績解除できて気持ちがふわふわしています。やったね。

6

0

46

はまなすなぎさ

@RosaRugosaBeach

6 months

GPT4 Turbo 128k（gpt-4-1106-preview）を雑に試してみた感じ、従来より賢くて視野が広くて速くて安いです。今までありがとうございました。

1

46

はまなすなぎさ

@RosaRugosaBeach

3 months

pytorchのDDP中にDataLoaderが不可解な場所で突然deadlockする現象が永久に付き纏っていて辛い、num_workers=0にすれば解決するとかそういう苦し紛れの妥協案が欲しいのではなく、ちゃんとnum_workers>0の状態で安定稼動するpytorchをください……

1

3

43

はまなすなぎさ

@RosaRugosaBeach

5 months

👀 あのGeminiの衝撃的なデモが、descriptionに書いてあったように単に「応答速度を短縮し、応答を簡潔にした」だけのverではなさそうなことを指摘していて、それはGoogle公式のブログ（）を見ればよくわかる　つまりデモはあくまでデモってこと

Google's best Gemini demo was faked | TechCrunch

Google's new Gemini AI model is getting a mixed reception after its big debut yesterday, but users may have less confidence in the company's tech or

techcrunch.com

1

8

41

はまなすなぎさ

@RosaRugosaBeach

7 months

ささやかな実績を解除できた

2

0

41

はまなすなぎさ

@RosaRugosaBeach

1 year

メタ的なことを考えると、こういうロビー活動的なことをしないとTVはちゃんと取り上げてくれないし、TVが取り上げてくれないと知らないままでいる人が大量にいて、そうするとTwitterという狭き世界を飛び出した先での世論はAI万歳のままになっちゃうので、議論を加速させる意味で重要な歩みだとは思う

0

19

37

はまなすなぎさ

@RosaRugosaBeach

1 year

rectified flowとかいう拡散モデルと関わりが深く重要そうな概念を今まで全然知らなかった…

Flow Straight and Fast: Learning to Generate and Transfer Data...

We present rectified flow, a surprisingly simple approach to learning (neural) ordinary differential equation (ODE) models to transport between two empirically observed distributions π_0 and...

arxiv.org

0

6

39

はまなすなぎさ

@RosaRugosaBeach

10 months

このブログ流し見してたけど思ったより重要なこと書いてある気がしてきた確かにAttentionの残差接続でAttentionから必ず何かしらの値が加算されるようになってる（実質的にsoftmaxで必ず何かしらのvalueが選択されなければならない）のはcoolじゃないのかも

Attention Is Off By One

Let’s fix these pesky Transformer outliers using Softmax One and QuietAttention.

www.evanmiller.org

1