koshiro_sa110 Profile Banner
Koshiro Saito Profile
Koshiro Saito

@koshiro_sa110

Followers
140
Following
144
Media
1
Statuses
58

SciTokyo M1. Swallow Project: Japanese-centric LLM, Eval team. Easy-to-detect LLMs, Artificial Text Detection. LinkedIn: https://t.co/CmwlVVVubD

Joined June 2024
Don't wanna be here? Send us removal request.
@chokkanorg
Naoaki Okazaki
8 hours
Swallow LLM Leaderboard v2にPLaMo 3 NICTシリーズ(事前学習済みモデル)を追加しました。前バージョンのPLaMo 2と比較すると、特にコーディング (JHumanEval) で大幅な性能向上が見られ、3Tトークンで学習された31Bモデルは純国産モデルとして良好な性能と言えます。 https://t.co/TWgbJVrOh0
Tweet card summary image
swallow-llm.github.io
日本語・英語の大規模言語モデルの性能を棒グラフやレーダーチャート、散布図で比較
0
3
14
@okoge_kaz
Kazuki Fujii
14 days
We’re releasing SwallowCode-v2 & SwallowMath-v2 — two high-quality, Apache-2.0 licensed datasets for mid-stage pretraining. https://t.co/mPSfrbuwvc https://t.co/LFWRGNzKUo Details in the thread 🧵
4
38
150
@chokkanorg
Naoaki Okazaki
21 days
Swallow Leaderboardの評価タスクにJamC-QA (SB Intuitionsさん開発) を追加しました。またApertus-8B-Instruct, Apertus-70B-Instruct, ELYZA-Shortcut-1.0-Qwen-32B, Flux-Japanese-Qwen2.5-32B-Instruct-V1.0, Qwen2.5-0.5B, QwQ Bakeneko 32Bの評価結果を追加しました。
0
3
7
@chokkanorg
Naoaki Okazaki
21 days
普段あまりスポットライトが当たらないLLMの評価について、W&Bの年次イベントFully Connected Tokyoでご紹介いたしました。 『進化する大規模言語モデル評価: Swallowプロジェクトにおける実践と知見』スライド https://t.co/6uOPbIB2N2 Swallow-evaluation-instruct
Tweet card summary image
github.com
Swallowプロジェクト 事後学習済み大規模言語モデル 評価フレームワーク. Contribute to swallow-llm/swallow-evaluation-instruct development by creating an account on GitHub.
@olachinkei
Keisuke Kamata
2 months
W&Bの無料の年次イベントFully Connected Tokyoの開催まで1ヶ月を切りました!登壇紹介シリーズ! 東京科学大学の岡崎先生 (@chokkanorg) より、日本語モデルの大黒柱的な存在であるSwallowプロジェクトにおける実践と知見をお話いただきます! #wandb https://t.co/aJBUWDwd0I
1
22
104
@AraseLab10916
Arase lab (荒瀬研究室)
28 days
【研究室公開】 2025年度工大祭に際して、以下の日程で研究室見学会を開催します。 日時:11/2(日) 11:00-17:00 場所:東京科学大学 大岡山キャンパス 西8号館 6階 研究室やLLMに関する説明を行います。ぜひご参加ください!
0
2
1
@koshiro_sa110
Koshiro Saito
1 month
I’m happy to share that our paper was selected for a spotlight at the 1st workshop on Multilingual and Equitable Language Technologies (MELT), part of COLM 2025! - MELT Accepted Submissions: https://t.co/0ronuFsnmj - COLM 2025: https://t.co/fKQaBGmJjs Thanks to everyone!
0
6
32
@yans_official
YANS
2 months
🏆受賞者一覧🏆 #YANS2025 ハッカソンの表彰を行いました! おめでとうございます🎉
0
10
40
@chokkanorg
Naoaki Okazaki
3 months
日本語・英語の大規模言語モデルを高難易度ベンチマークで評価したリーダーボード Swallow LLM Leaderboard v2 を公開しました。GPT-5, o3, o3-mini, gpt-oss, Qwen3 など、最先端のLLMの評価結果をご覧いただけます。 サイト:
Tweet card summary image
swallow-llm.github.io
高難易度ベンチマークに対応した事後学習済みLLM向け評価基盤およびリーダーボード
0
22
101
@chokkanorg
Naoaki Okazaki
3 months
事後学習済みLLM向け評価フレームワーク swallow-evaluation-instruct を開発し、MIT Licenseで公開しました。日本語と英語の高難易度ベンチマークに対応しており、統一された条件のもとで最先端LLMの性能を適切に測定できる新しい評価基盤です。 GitHub:
Tweet card summary image
github.com
Swallowプロジェクト 事後学習済み大規模言語モデル 評価フレームワーク. Contribute to swallow-llm/swallow-evaluation-instruct development by creating an account on GitHub.
1
49
170
@MiyuYamada0514
Miyu Yamada
4 months
Excited to present my poster at #ACL2025NLP! ✏️ Title: Light-Weight Hallucination Detection using Contrastive Learning for Conditional Text Generation https://t.co/eNOQ2smzp2 📍 Location: SRW In-person Poster1 at Hall X4/X5 📅 Date: 7/29 (Tue) 10:30-12:00
Tweet card summary image
aclanthology.org
Miyu Yamada, Yuki Arase. Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 4: Student Research Workshop). 2025.
0
3
18
@chokkanorg
Naoaki Okazaki
5 months
Llama 3.1 Swallow 8B v0.5を公開しました。Llama 3.3 Swallow 70BやGemma-2-Llama Swallowのレシピをさらに改良し、性能を向上させました。学習環境としてAWSのSageMaker HyperPod (H200) を利用しました。人気の8Bモデルの改良版を是非お試しください。
Tweet card summary image
swallow-llm.github.io
Llama 3.1 Swallow 8B v0.5はLlama 3.1 8Bをベースに日本語の能力を強化した大規模言語モデル
2
39
96
@Setuna7777_2
Taishi Nakamura
6 months
Gemma-2-Llama Swallowの学習をしました!🚀 引き続き開発を進めます!
@chokkanorg
Naoaki Okazaki
6 months
Gemma-2-Llama Swallow 2B, 9B, 27Bを公開しました。各規模において、日本語の理解・生成・対話でトップクラスの性能ですので、ぜひご活用頂ければと思います。なお、モデル学習の計算資源として、GoogleからTPU Research Cloud (TRC) のご支援を受けました。
1
13
63
@chokkanorg
Naoaki Okazaki
7 months
Swallow LeaderboardにGemma 3 1B, 4B, 12B, 27B, GPT-4 (gpt-4-0613), GPT-4.5 (gpt-4.5-preview-2025-02-27), o1 (o1-2024-12-17) を追加しました。日本語MT-BenchのトップはGPT-4.5 (0.8840) ですが、それにGemma 3 27B IT (0.8550) が続くというのは凄いです。
0
31
117
@stjohn2007
Masanari Oi
8 months
Llama 3.3 Swallow の開発の際にSwallowチームで使用した評価スクリプトを公開しました。 新しいモデルの評価や、手元で Swallow の結果を再現する際にぜひご活用ください。 https://t.co/kRRRQmT3nV
github.com
主な変更点 Language Model Evaluation Harness 数学のベンチマークである MATH の評価を行えるようにしました。 博士課程レベルの科学的知識や能力のベンチマークである GPQA の評価を行えるようにしました。 FastChat 日本語MT-Benchに用いる設問・審判・模範解答のバージョンを更新しました。 Code Generation LM ...
@stjohn2007
Masanari Oi
9 months
Swallowチームで実施したモデル評価結果を公開しました。 GPT-4oなどのプロプライエタリなモデルやIlm-jp-3などの国産モデルを含めて100個以上のモデルを評価しています。 評価の苦労話や細かい設定も公開しているので、参考にしていただければ幸いです🙌 https://t.co/qpF3UDkGD4
1
19
68
@chokkanorg
Naoaki Okazaki
8 months
Swallow LLMをNLP2025言語資源賞に選出して頂き、ありがとうございました。NLP2024論文投稿時からメンバーが増えていますので、現チームおよび産業技術総合研究所に感謝いたします。日頃からモデルをご活用頂き、Swallowを支えて頂いている利用者や開発者、研究者の皆様にもお礼申し上げます。
1
29
168
@ayase_lab
Kakeru Hattori
10 months
#NLP2025 は主著2件、共著1件で参加します! 主著2本はLLMの事前学習関連です。 1本目では教育的なWeb文書を用いた学習が、LLMの能力を改善することを示します。 2本目では朝日新聞社さんと共同で、新聞の有効性を調査しました。記事由来の合成データ構築も行い、LLMの時事・社会知識を強化します。
1
9
54
@chokkanorg
Naoaki Okazaki
9 months
📢 Llama 3.3 Swallow 70B v0.4を公開しました。 - ベースLLMをLlama 3.1からLlama 3.3に変更 - 日本語の訓練データの大規模化・高品質化 - 数学やコーディングの訓練データの高品質化 https://t.co/SryQUfwd3D 日本語理解・生成タスクではGPT-4oにも迫る性能を達成しました。
0
82
272
@stjohn2007
Masanari Oi
9 months
年次大会で3/11 (火)の13:00- C3 マルチモーダルで発表する内容の拡張版です! 興味ある方はぜひ発表聴きに来てください🚢
@stjohn2007
Masanari Oi
9 months
Our paper proposes HarmonicEval, a metric integrating multiple criteria to evaluate multiple V&L tasks. We also introduce MMHE, a meta-evaluation dataset with 18K annotations. HarmonicEval outperforms existing metrics on MMHE and other datasets🤞 📜: https://t.co/RCHP75r5kI
0
2
14
@ayase_lab
Kakeru Hattori
9 months
こちらの発表は明日3/11(火)9:30頃と3/13(木)13:00頃、いずれもC会場です。よろしくお願いします! #NLP2025
@ayase_lab
Kakeru Hattori
10 months
#NLP2025 は主著2件、共著1件で参加します! 主著2本はLLMの事前学習関連です。 1本目では教育的なWeb文書を用いた学習が、LLMの能力を改善することを示します。 2本目では朝日新聞社さんと共同で、新聞の有効性を調査しました。記事由来の合成データ構築も行い、LLMの時事・社会知識を強化します。
1
3
12
@chokkanorg
Naoaki Okazaki
9 months
LLMの評価結果を閲覧するサイトをリニューアルして、リーダーボード形式にしました。 - 評価タスクにMATHを追加 - モデルごとのページを作成 - グラフをSVGやPNG形式でダウンロード可能 サイト: https://t.co/xZAWFu08wJ 日本でのLLMの研究開発・活用のための参考情報としてお役に立てると幸いです。
0
38
144