Kyosuke Nishida Profile
Kyosuke Nishida

@kyoun

Followers
5,293
Following
246
Media
508
Statuses
1,696

NTT人間情報研究所 上席特別研究員.人工知能全般,特に,自然言語処理,Vision-and-Languageに興味があります.大規模言語モデルに関するプロジェクトの統括をしています.

品川
Joined June 2008
Don't wanna be here? Send us removal request.
Explore trending content on Musk Viewer
@kyoun
Kyosuke Nishida
6 years
Machine Theory of Mind (Google DeepMind) 他者の心を類推し、理解する能力についての「心の理論」に基づいた振る舞いが出来るようなモデルを深層強化学習で実現.grid-worldに落とし込んだSally−anne課題をパスしたとのこと. 心の理論の参考:
Tweet media one
Tweet media two
0
221
544
@kyoun
Kyosuke Nishida
2 years
人工知能学会全国大会 #JSAI2022 チュートリアル講演『自然言語処理とVision-and-Language』の資料をアップロードしました. 本日は現地・オンラインにて多数のご参加ありがとうございました!初めてのハイブリッド形式での講演でしたが議論も盛り上がり楽しかったです!
0
116
529
@kyoun
Kyosuke Nishida
5 years
#xpaperchallenge にて講演しました「事前学習言語モデルの動向」について資料をアップロードしました! ELMo, BERTから最近のALBERT, T5, BARTまで24モデルの概要をまとめました.
0
151
518
@kyoun
Kyosuke Nishida
1 year
#DEIM2023 チュートリアル講演『NLPとVision-and-Languageの基礎・最新動向』(私, @kosukebs @rtanaka_lab ,斉藤 )の資料をアップロードしました. Part1: NLP Part2: V&L ChatGPTなど最新動向も含めた渾身の資料となっております!
2
115
420
@kyoun
Kyosuke Nishida
4 years
東工大・産総研 勉強会にて本日講演しました「事前学習済言語モデルの動向」について資料をアップロードしました!講演後,今後の研究の方向性について議論させて頂き,とても有意義な時間でした.前回(2019/11)から資料を大幅に更新しています!
2
86
385
@kyoun
Kyosuke Nishida
5 years
AAAI19の統計情報です。投稿数7095件、採択率16.2%。学生が1stの投稿が68.5%。国別投稿・採択数は中国が抜けてトップ、日本は投稿・採択共に3位。機械学習・言語・ビジョンが人気トピック。〆切ギリギリの投稿は採択率かなり低い。
Tweet media one
Tweet media two
Tweet media three
Tweet media four
0
156
370
@kyoun
Kyosuke Nishida
4 years
法政大学の兼任講師として担当したB3向け「自然言語処理」の講義が終わりました!Google Colaboratoryを毎週使って形態素解析からニューラル機械翻訳まで実践的に学んで貰いました.初年度で手探りな講義でしたが,熱心に取り組んでくれた学生が居て嬉しかったです!シラバス
1
51
381
@kyoun
Kyosuke Nishida
5 years
NTT研究所がSIGNATEにてコンペを開始しました!「NTT corevoチャレンジ: 話者の性別・年代識別」 タスクは短い音声データの分類とシンプルなので、音声分野の方はもちろん、他分野の方でも面白く取り組めるかと思います。賞金も出ます!(1位120万円)ぜひご参加ください~
Tweet media one
0
127
288
@kyoun
Kyosuke Nishida
5 years
「事前学習言語モデルを用いたVision & Languageの動向」について資料をアップロードしました.BERTを基に,画像/動画キャプションデータを用いてV&Lの汎用的な事前学習を行う9モデルと関連データの概要をまとめました.
0
69
275
@kyoun
Kyosuke Nishida
5 years
⚡️ "事前学習モデルを用いた言語生成" BERTなどの事前学習モデルを翻訳,要約などの言語生成タスクに利用する最近の論文をまとめました.
0
58
271
@kyoun
Kyosuke Nishida
6 years
2018/03-04に読んだ深層学習論文60本の概要をまとめました.主なトピックは汎用技術、言語処理、マルチモーダル(言語+ビジョン、音声、etc.)になります.内訳はarXiv 26, NAACL 14, CVPR12, AAAI 4, ICLR 2, ICASSP 1, KDD 1です.
0
54
244
@kyoun
Kyosuke Nishida
6 years
YOLOv3: An Incremental Improvement (ワシントン大) 説明不要に面白いのでぜひ一読を.v3で加えた改善点&試したけど上手く行かなかったことの報告.同程度の性能のRetinaNetより3.8倍高速に物体認識.youtube code
Tweet media one
Tweet media two
0
101
229
@kyoun
Kyosuke Nishida
1 year
4/1付でNTT人間情報研究所 上席特別研究員に任命されました。大規模言語モデル、マルチモーダルモデルの研究開発に全力で挑戦します!今後とも宜しくお願い致します。
3
18
213
@kyoun
Kyosuke Nishida
6 years
⚡️ 最近の文書要約モデル (See et al., ACL17), (Pauluset al., ICLR18), (Hsu et al., ACL18) (Chen et al., ACL18)についてまとめました.
0
44
209
@kyoun
Kyosuke Nishida
1 year
東北大・鈴木先生 @drJunSuzuki ,東工大・岡崎先生 @chokkanorg と一緒に国際会議 PAKDD2023 のチュートリアル講演”A Gentle Introduction to Technologies Behind Language Models and Recent Achievement in ChatGPT" を行いました!私は技術動向パートを担当しました.
1
52
202
@kyoun
Kyosuke Nishida
1 year
NTT-ATのLLMチームから「LLMカスタマイズサービス」のリリースが出ました! 自然言語処理・大規模言語モデル技術のハイレベルスペシャリストが企業固有の知識との最適融合を実施するサービスです!
0
46
195
@kyoun
Kyosuke Nishida
5 years
XLNet: Generalized Autoregressive Pretraining for Language Understanding (Google&CMU) 自己回帰言語モデル.GLUE,読解,分類,ランキング等18タスクでBERTを大きく超えるSOTA.ARの良さとpermutationによる双方向文脈理解の良いとこ取り.コード
Tweet media one
Tweet media two
1
65
189
@kyoun
Kyosuke Nishida
6 years
Learning to Localize Sound Source in Visual Scenes (KAIST) 音と画像のペアから,音がどこで鳴っているかを教師なしで学習.音声特徴から画像にアテンションして,アテンションから音声特徴を再構築してlossを取るイメージ.CVPR18採録.youtube
Tweet media one
Tweet media two
Tweet media three
Tweet media four
0
64
184
@kyoun
Kyosuke Nishida
1 year
#LangRobo 研究会にて講演した「Collaborative AI: 視覚・言語・行動の融合」(私,壹岐さん @ikitaichi )の資料をアップロードしました. GPT-4,AutoGPTから始めて「人とAIの協調」に触れ,後半はPC環境で人と協働できる汎用ソフトウェアロボットの動向をまとめました!
0
40
168
@kyoun
Kyosuke Nishida
6 years
Automatic Academic Paper Rating Based on Modularized Hierarchical Convolutional Neural Network (北京大) 論文の採否を階層CNNで判定.17kのarxiv論文で学習して精度67.7%.論文を要素ごとに分割してエンコードするのが特徴で,著者,結論,アブストの順に影響大.ACL18
Tweet media one
Tweet media two
Tweet media three
1
65
162
@kyoun
Kyosuke Nishida
9 months
論文の被引用数が2000になりました😆
Tweet media one
2
0
165
@kyoun
Kyosuke Nishida
4 years
NTTデータから金融版BERTモデルに関するニュースリリースが出ました.NTTメディアインテリジェンス研究所で作成したBERTをベースにして金融文書向けに適応させています!
1
33
161
@kyoun
Kyosuke Nishida
6 years
Text2Shape (Stanford) 自然言語から3Dモデルを生成/検索.textをCNN+GRUで,shapeを3D CNNでエンコード.text-shape-text(TST)とSTSの変換と,同クラス内のtext/shapeの距離についてlossを計算して学習.textとshapeの演算もできる.データセット
Tweet media one
Tweet media two
Tweet media three
Tweet media four
0
61
156
@kyoun
Kyosuke Nishida
6 years
CFGAN: A Generic Collaborative Filtering Framework based on Generative Adversarial Networks (Hanyang Univ) GANによる協調フィルタリング.ユーザを条件として生成器がアイテム購入ベクタを生成し,識別器が真の購入履歴か否か識別.MovieLens-1M等でSOTA.CIKM18
Tweet media one
Tweet media two
0
57
157
@kyoun
Kyosuke Nishida
1 year
GPT-4 Technical Report 入力:画像とテキスト,出力:テキスト.Transformer-styleのモデルを次単語予測で訓練.モデルサイズ・構造,学習コーパス・ハードウェア・計算時間の詳細は公開なし.lossはscaling lawに従った.司法試験の模擬試験では受験者の上位10%に入った.
Tweet media one
Tweet media two
Tweet media three
1
52
155
@kyoun
Kyosuke Nishida
6 years
Everybody Dance Now (UC Berkeley) 「私の様に踊って」手本となる動作を他の人に転移した動画を生成.ポーズ推定を中間表現としてGANで学習し,画像→ポーズ→画像の変換を行う.動画の連続性のスムージングと顔の表情もGANに組込.素晴らしいデモ
Tweet media one
Tweet media two
Tweet media three
Tweet media four
2
45
145
@kyoun
Kyosuke Nishida
6 years
Finding Syntax in Human Encephalography with Beam Search (DeepMind他) ACL18ベストペーパー.構文木を考慮するRNN grammars (ACL16) +ビームサーチにおける生成時の複雑さの指標が,テキストを聞いた際の脳波のP600成分等と有意な関係があることを示す(LSTMだと非有意)
Tweet media one
Tweet media two
Tweet media three
1
43
139
@kyoun
Kyosuke Nishida
6 years
A Universal Music Translation Network (Facebook) 楽曲の楽器やジャンルを変換.マルチドメインなwavenetオートエンコーダを教師なし・ノンパラレルに学習.エンコーダが音楽データをドメインに依存せずエンコードする.変換サンプル(凄い)
Tweet media one
1
44
134
@kyoun
Kyosuke Nishida
1 year
NTT人間情報研究所 NLPグループでは,大規模言語モデル・対話モデル(ChatGPT)・Vision-and-Language分野に関して,随時中途採用を募集しております.私はDEIM,NLPに現地参加しておりますので,ご興味のある方は口頭やDMでお気軽にお声がけく���さい!博士・修士学生で説明希望の方も大歓迎です!
0
39
135
@kyoun
Kyosuke Nishida
9 months
8/24に #SES2023 にて「大規模言語モデル入門」というチュートリアル講演を @kosukebs と行いました! 基礎からLLaMA-2・コードLLM系について広くまとめています.そして8/27 には SNLP にて「LLaMA-2」の論文紹介をしました!
0
27
133
@kyoun
Kyosuke Nishida
4 years
Microsoftがパラメータ数17B(78層/4256次元Transformer)の言語モデル Turing-NLG と,その学習を可能にしたPyTorchラッパー DeepSpeed を発表.内部でデータ/モデル並列化を高速/効率化するオプティマイザ ZeRO を利用.
Tweet media one
1
34
133
@kyoun
Kyosuke Nishida
6 years
NTT研究所の夏期インターンシップが募集開始になりました! 我々のチーム@横須賀からも深層学習による言語処理のテーマ(要約、質問文生成、テキスト・画像のマルチモーダル意味理解)が出ていますので、ぜひご応募ください!
0
72
128
@kyoun
Kyosuke Nishida
3 years
#NLP2021 AI王ワークショップにて「言語と視覚に基づく質問応答の最新動向」について招待講演のスライドをアップロードしました.これまでの Vision-and-language の事前学習とQAや検索への適応と,新たな動きである視覚の中の言語情報の理解の研究動向をまとめたものです!
0
29
129
@kyoun
Kyosuke Nishida
2 years
NTT研究所の夏期インターンシップに関して,我々のチームからは ・Vision-and-Language文書画像理解 ・Vision-and-Language大規模画像検索のための事前学習 ・音声認識誤りに対する大規模言語モデルの頑健さの検証 の3テーマを募集しています!ぜひご応募ください!
0
33
127
@kyoun
Kyosuke Nishida
4 years
長い文章から自然な要約文を「生成」する『COTOHA Summarize』がNTTコミュニケーションズよりリリースされました!NTT メディアインテリジェンス研究所による要約技術の研究成果が活用されています!
0
33
125
@kyoun
Kyosuke Nishida
5 years
NTT研究所の夏期インターンシップが募集開始になりました!我々のチーム(@横須賀、アプリケーション分野)からも深層学習による言語処理のテーマ(機械読解、要約)がありますので、ぜひご応募ください!
0
74
125
@kyoun
Kyosuke Nishida
6 years
PackNet: Adding Multiple Tasks to a Single Network by Iterative Pruning (イリノイ大) 1つのNNで複数タスクを学習.畳込と全結合層の小さい重みを削除→残りを再訓練して固定.削除した重みを次タスクの学習に利用.単純で強力.CVPR18.pytorch
Tweet media one
Tweet media two
Tweet media three
0
37
120
@kyoun
Kyosuke Nishida
6 years
Transformer (All you need is attention) の解説付PyTorch実装.positional encoding, 学習率調整,label smoothing, byte-pair encoding, model averagingなど細かいテクニックもコード付で説明してくれていて素晴らしい!
@srush_nlp
Sasha Rush
6 years
The Annotated Transformer: Line-by-Line PyTorch implementation of "Attention is All You Need"
Tweet media one
5
279
709
0
24
117
@kyoun
Kyosuke Nishida
6 years
Deep k-Nearest Neighbors: Towards Confident, Interpretable and Robust Deep Learning (ペンシルバニア州立大) 学習済ネットワークを使って,層毎に訓練データに対するk-NNを実施.解釈性が高く,敵対的サンプルにも強い.学習未利用のデータを用意して出力の信頼度も計算
Tweet media one
Tweet media two
Tweet media three
0
24
115
@kyoun
Kyosuke Nishida
1 year
AAAI-23の統計。中国からの発表がダントツ(体感ではもっとぶっち切りと思っていました)。日本は11番目。ずっと上がり続けていた投稿数が遂にやや減少に転換。ML、CV、Speech&NLP、Data Miningあたりの分野の投稿が多い。採択率20.1%(1720/8536)。
Tweet media one
Tweet media two
Tweet media three
Tweet media four
2
18
115
@kyoun
Kyosuke Nishida
6 years
最近知ったのですが arxivから英語のコロケーションが検索できる Hyper Collocation が便利で素晴らしいです. 解説ブログ
Tweet media one
Tweet media two
0
26
109
@kyoun
Kyosuke Nishida
3 years
NTT研究所の夏期インターンシップが募集開始になりました。我々のチームからも「Vision-and-Language質問応答/文書画像検索」の2テーマを募集しています! 基礎研究/アプリケーション・アプライアンス/横須賀で表示されます。勤務はリモート想定です。ぜひご応募ください!
1
40
108
@kyoun
Kyosuke Nishida
6 years
⚡️ ACL18のベストペーパーについて概要をまとめました.
0
22
108
@kyoun
Kyosuke Nishida
6 years
Taskonomy (Stanford) CVPR18ベストペーパー。CVタスクの関連を転移学習でモデリング。(1) 26タスクを個々にEncDecで学習。Encの構造は共通。(2) ソースEnc固定でタスク間の転移し易さを学習。複数ソース考慮。(3) loss正規化 (4) ソースタスク数に制約を掛けて最適化・可視化
Tweet media one
Tweet media two
Tweet media three
Tweet media four
0
26
106
@kyoun
Kyosuke Nishida
5 years
我々のチームから機械読解に関する論文が ACL 2019 に2本 long paper で採択されました! 西田京介ら w/ 篠田さん(東大), "Multi-style Generative Reading Comprehension" 西田光甫ら, "Answering while Summarizing: Multi-task Learning for Multi-hop QA with Evidence Extraction"
0
24
103
@kyoun
Kyosuke Nishida
5 years
Sentence Mover’s Similarity: Automatic Evaluation for Multi-Sentence Texts (Microsoft) テキストの類似性の自動評価。Word Mover's Distance を文および文+単語レベルに拡張。Rouge-Lより人間の評価値との相関が高い。強化学習の報酬としても利用可能。 ACL19
Tweet media one
Tweet media two
1
27
100
@kyoun
Kyosuke Nishida
6 years
Sentence-State LSTM for Text Representation (SUTD) 文表現を獲得するLSTM.単語毎の局所表現hと文の全体表現gを持つ.単語の並びではなく,層の積み重ねを系列と捉える.hは単語xと前層の周辺hとgから更新,gは前層の全hから更新.コード ACL18
Tweet media one
Tweet media two
0
24
99
@kyoun
Kyosuke Nishida
5 years
Multi-Task Deep Neural Networks for Natural Language Understanding (Microsoft) GLUE, SNLI, SciTailでBERTを超えてSOTA.BERTをencoding層で共有して分類,回帰,ランキングをマルチタスク学習するMT-DNNモデル.GLUEからSNLI/SciTailへのドメイン適応が高速(図2,表5)
Tweet media one
Tweet media two
Tweet media three
Tweet media four
1
27
97
@kyoun
Kyosuke Nishida
3 years
7/1からNTT人間情報研究所の所属となりました.様々なシーンで人間を凌駕する/人間と協調可能な言語知能の実現を目指して,Vision-and-Language,言語モデル,QA,要約,検索,XAI等の研究を継続して取り組んで行きます!また,キャリア採用募集中です.ご興味のある方,ぜひ私にご連絡ください!
1
17
97
@kyoun
Kyosuke Nishida
2 months
サンフランシスコにやってきました!
Tweet media one
0
6
92
@kyoun
Kyosuke Nishida
6 months
LLMの視覚拡張の研究が AAAI2024に採択されました!田中涼太さん @rtanaka_lab 2021、2023、2024と主著で連続採択です、素晴らしい!
@rtanaka_lab
Ryota Tanaka
6 months
#AAAI2024 に主著論文「InstructDoc: A Dataset for Zero-shot Generalization of Visual Document Understanding with Instructions」が採択されました!🎉 LLMを活用して、自然言語の指示のみで視覚的に文書を読み解く技術とデータセットの提案です。
Tweet media one
2
23
136
0
8
91
@kyoun
Kyosuke Nishida
4 years
Fine-Tuning Pretrained Language Models: Weight Initializations, Data Orders, and Early Stopping (AllenAI) BERTのfine-tuningの調査(1) 重みの初期値と学習データの順序の違いで性能に大きな差が出る (2) Early stoppingが有効: 高性能のモデルは学習初期から性能が良い
Tweet media one
1
27
89
@kyoun
Kyosuke Nishida
3 months
AAAI-24の統計情報。投稿数1万超、採択率24.1%。投稿数の国別は中国、アメリカ、韓国の順。日本はtop10は入らず。(N/Aはgmailなどで不明のもの)。採択論文の半数はCV、続いて機械学習、NLP。V&Lも多い。
Tweet media one
Tweet media two
Tweet media three
Tweet media four
0
18
90
@kyoun
Kyosuke Nishida
2 years
NTT研究所の冬期インターンシップを募集しています(〜11/24まで).我々のチームからは「視覚と言語の融合理解」のテーマを募集しています. 勤務は完全リモートです.ぜひご応募ください!
0
34
86
@kyoun
Kyosuke Nishida
7 months
11/14〜17、NTT R&D FORUM 2023の特別セッションでNTTのLLM「tsuzumi」に関して講演を行います!11/15は @SakanaAILabs の David Ha さん @hardmaru 、Llion Jonesさん @YesThisIsLion との共同セッションです。オンライン配信がありますので、ぜひご参加ください!
1
27
86
@kyoun
Kyosuke Nishida
5 years
ALBERT: A Lite BERT for Self-supervised Learning of Language Representations (Anonymous) (1)全層でパラメータ共有,(2)単語埋込を一度低次元に射影,(3)文の順序の分類(SOP)をBERTに導入.主に(1)収束が高速,(2)少サイズ,(3)精度向上の効果.GLUE,RACE,SQuADでSOTA
1
23
83
@kyoun
Kyosuke Nishida
6 years
Universal Sentence Encoder (Google) 感情分類や質問タイプ分類など様々なタスクに汎用的に使える文エンコーダの提供.高精度なTransformerと高速なDAN (単語平均+FNN) の学習済モデルを用意.TF hub で公開(今は404)
Tweet media one
Tweet media two
1
26
85
@kyoun
Kyosuke Nishida
6 years
"On the Convergence of Adam and Beyond" Adamの収束性について証明の問題を指摘.計算量とメモリ量は増やさずに問題点を解消したAMSGradを提案.ICLR18の査読中で8/8/9の高評価.PyTorchのadamにはもう実装済(数行追加されただけ)
Tweet media one
1
33
83
@kyoun
Kyosuke Nishida
2 years
人工知能学会全国大会( #JSAI2022 )初日(6/14 14:20~16:00)に『自然言語処理とVision-and-Language』についてチュートリアル講演を行いますので,ぜひご参加ください!私は京都から講演します! 基礎から最新動向・今後の展望まで,研究分野を幅広くご紹介する予定です.
1
19
84
@kyoun
Kyosuke Nishida
5 years
DistilBERT (huggingface) BERT baseから蒸留にて6層に小型化(40%減)。推論は60%高速化、精度はGLUEで95%程度保持。8個の16GB V100 GPUで3.5日ぐらいで学習。hidden sizeは768のままで、層数の方が高速化には効果があるとのこと。github blog
1
24
82
@kyoun
Kyosuke Nishida
6 years
我々の論文が CIKM2018 にfull paperとして採録になりました! "Nishida et al.: Improving Information Retrieval for Reading Comprehension by Learning from Answer Spans" 内容は大規模機械読解のためのニューラル情報検索の改善についてです.fullの採録率は147 / 862 = 17%でした.良かった😆
1
8
81
@kyoun
Kyosuke Nishida
3 years
NTT研究所の冬期インターンシップの募集が始まっています.我々からは,ドキュメント画像理解に向けた事前学習,任意の観点で制御可能な生成型テキスト要約,Vision-and-Language大規模画像検索の3テーマを募集しています! 勤務は完全リモートです.ぜひご応募ください!
1
39
82
@kyoun
Kyosuke Nishida
5 years
BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension (Facebook) Seq2Seq事前学習.トークンマスク・削除,範囲マスク,文の入替,文書の回転を全て学習.CNN/DMでT5超え,WMT’16 RO-ENで逆翻訳を超えてSOTA
Tweet media one
Tweet media two
2
22
78
@kyoun
Kyosuke Nishida
6 years
言語処理学会 #nlp2018 にて我々の論文「情報検索とのマルチタスク学習による大規模機械読解」が最優秀賞(ベストペーパー)をいただきました!大規模なテキスト集合を知識源として、関連テキストの検索と回答を見つける読解を同時に行うニューラルモデルの提案です。
Tweet media one
1
19
79
@kyoun
Kyosuke Nishida
6 months
EMNLP2023の統計情報。投稿5000件弱。採択率21.3%。findingsまで含めると42.9%。採択数上位のトラックは、NLP応用、LLM、リソースと評価、情報抽出、対話。
Tweet media one
Tweet media two
Tweet media three
Tweet media four
0
13
79
@kyoun
Kyosuke Nishida
6 years
Finding beans in burgers: Deep semantic-visual embedding with localization (Sorbonne大) 画像とテキストを同じベクトル空間に埋込.正しい(画像,テキスト)の組合と誤った組合のランキングlossで学習.テキストによる画像検索/画像中の物体位置の理解が可能.CVPR18
Tweet media one
Tweet media two
Tweet media three
0
25
76
@kyoun
Kyosuke Nishida
6 years
SO-Net: Self-Organizing Network for Point Cloud Analysis (NUS) SOMを使って点群を表現.点群の分類,セグメンテーション,検索などいろいろ使えるSO-Netを提案.CVPR18採録.pytorch
Tweet media one
Tweet media two
Tweet media three
0
25
77
@kyoun
Kyosuke Nishida
6 years
Facebookより,異なる言語間の単語を教師なしで対応付ける手法 .各言語の単語埋込X,Yを使って敵対的学習.識別器はWXとYが違う言語であることを見分け,マッピング器は識別器を通過させる変換Wを獲得.さらに頻度と近傍単語を考慮してrefine.近い言語では高精度達成.ICLR18
Tweet media one
Tweet media two
Tweet media three
0
14
76
@kyoun
Kyosuke Nishida
1 year
言語処理学会年次大会 #NLP2023 にて,NTT人間情報研究所NLPグループの論文が優秀賞1件・言語資源賞1件・委員特別賞2件を受賞しました.これを励みに,引き続きNLPとVision-and-Languageの研究開発に取り組んでいきます! ■ 優秀賞・言語資源賞 - SlideVQA: 複数の文書画像に対する質問応答
Tweet media one
Tweet media two
Tweet media three
0
9
78
@kyoun
Kyosuke Nishida
6 years
ICML初参加ですが、規模感、パワーが凄くて驚いてます。企業ブースも力の入り方が凄い。研究は強化学習関連のみで組まれた17セッションと、敵対的〜関連の6セッションが印象的。Deep learningへの流れはさらに加速中なのだと強く感じました。
Tweet media one
Tweet media two
Tweet media three
Tweet media four
0
13
73
@kyoun
Kyosuke Nishida
1 year
AI分野の難関国際会議AAAIにNTTから5件採択 今回,田中涼太( @rtanaka_lab )さんの論文が口頭発表で採択されています!私も現地参加予定で,沢山の人とお会いできるのを楽しみにしております!
0
15
75
@kyoun
Kyosuke Nishida
6 years
Reversible Recurrent Neural Networks (Toronto Univ) GRU/LSTMの精度を悪化させずに学習時メモリ量を5-15分の1に削減.forwardでは隠れ状態の遷移を(ほぼ)保存せず,backprop時に再構築する.Reversible ResNet (NIPS17) のアイデアの応用. NIPS18
Tweet media one
0
24
74
@kyoun
Kyosuke Nishida
6 years
PRNN (Alibaba) 外部メモリ付RNN.状態をクエリにしてメモリにアテンションを掛ける.メモリには主要な状態が獲得され,EM的クラスタリングとみなせる.サンプルにカテゴリ等の事前知識変数がある時,変数値毎にメモリを用意して精度向上可.高速なコード出ればすぐ流行りそう
Tweet media one
Tweet media two
1
16
74
@kyoun
Kyosuke Nishida
6 years
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (Google) ELMo(双方向RNNの結合)やOpenAI GPT(単方向Transformer)と異なり,双方向Transformer言語モデルを大規模に事前学習. BERTに出力層を1層追加するだけで様々なタスクでSOTA.
Tweet media one
Tweet media two
Tweet media three
1
27
73
@kyoun
Kyosuke Nishida
6 years
Group Normalization (Facebook) Batch Normが小さいバッチで不安定な問題を解決.畳込のチャネルをグループに分割して,グループ内で正規化.ImageNetをResNet-50,バッチサイズ2で学習した際,BNのエラーを10.6%改善.Layer / Instance Normよりも高精度.RNNは今後の課題.
Tweet media one
Tweet media two
Tweet media three
1
19
74
@kyoun
Kyosuke Nishida
6 years
素晴らしいまとめが出てました / ACL 2018 Highlights: Understanding Representations and Evaluation in More Challenging Settings
0
13
73
@kyoun
Kyosuke Nishida
6 years
End-to-end deep image reconstruction from human brain activity (ATR & 京大) 脳活動から人間が見た画像をGANで再構築.fMRI信号から画像生成.真偽識別に画像分類のlossも追加,訓練済CNNを活用.文字や単純図形はかなり良い結果.データ(6000件)が増えればさらに有望.
Tweet media one
Tweet media two
Tweet media three
0
40
70
@kyoun
Kyosuke Nishida
5 years
Reducing BERT Pre-Training Time from 3 Days to 76 Minutes (Google) BERT-Largeの事前学習を3日(16TPUv3s)から76分(1024TPUv3s)に短縮.SQuADで精度低下無し.新たな最適化法LAMBを提案.学習は2ステージ制.全体の9/10はsequence長128,残りは512.バッチサイズは64k/32k
Tweet media one
Tweet media two
0
17
71
@kyoun
Kyosuke Nishida
6 years
Retrieve-and-Read: Multi-task Learning of Information Retrieval and Reading Comprehension CIKM18に採択された論文をarXivに投稿しました.情報検索と機械読解をマルチタスク学習し,ニューラル検索モデルの精度を向上.Wikipedia500万記事からの大規模な読解で高精度.
Tweet media one
Tweet media two
Tweet media three
0
16
68
@kyoun
Kyosuke Nishida
6 years
Toward Diverse Text Generation with Inverse Reinforcement Learning (Fudan) テキスト生成を逆強化学習で.出力単語毎に報酬を推定し,これを最大化.自己回帰のexposure-bias,文の識別結果を報酬とするGANのモード崩壊と報酬のスパースさを解決.多様さが改善. IJCAI18
Tweet media one
Tweet media two
0
15
68
@kyoun
Kyosuke Nishida
6 years
Adafactor (Google) 少メモリ最適化.AxBの行列の場合,AdamならAB個の2次モーメント項を保持する所,AdafactorはA+B個でOK.さらに,勾配の代わりに更新量を抑えるupdate clippingを提案.Adamと同程度の性能を少メモリで実現.tensor2tensorで公開
Tweet media one
0
21
68
@kyoun
Kyosuke Nishida
4 years
Reformer: The Efficient Transformer (Google) 効率的なTransformer.(1) アテンションをLSHにして計算量をO(L^2)→O(L log L).(2) 各層の出力を記憶せず逆伝播時に再計算して省メモリ化.ブログでL=1Mの系列を16GB(1GPU)で処理可能と報告.ICLR20
Tweet media one
1
24
66
@kyoun
Kyosuke Nishida
6 years
Social GAN (Stanford) 複数人の移動軌跡の予測.物理的には尤もらしくても社会的におかしい(ぶつかる等)軌跡の予測を避ける.生成器をEncoder-PoolingModule(PM)-Decoderの構成として,PMで複数人の相互作用を考慮.PMはEncodingされた各人の状態と他人と相対位置を利用
Tweet media one
Tweet media two
Tweet media three
0
26
66
@kyoun
Kyosuke Nishida
6 years
Probabilistic FastText for Multi-Sense Word Embeddings (Cornell & Amazon) 多義性を考慮可能なfasttext.各単語はK個(実験では2)のgaussian mixture,各gaussianの中心が異なる語義を捉える.単語間の距離はヒルベルト空間の内積.コード ACL18
Tweet media one
Tweet media two
Tweet media three
Tweet media four
1
17
64
@kyoun
Kyosuke Nishida
6 years
A Capsule Network-based Embedding Model for Search Personalization (Deakin 大) CapsNetによる検索結果パーソナライズ.(クエリ,ユーザ,文書)を同じ空間に埋め込んでkx3行列を獲得→CNNで特徴抽出→CapsNetで3つ組のスコア算出.通常の検索結果やグラフ埋込に比べて高精度
Tweet media one
Tweet media two
Tweet media three
0
13
64
@kyoun
Kyosuke Nishida
5 years
NTT研究所では夏季実習中の成果に関する論文投稿は可能です.最近では私のACL’19論文にも実習生に共著者として入って頂きました.主著者として国際会議等への投稿も可能です.共同研究契約があれば実習終了後も連携がスムーズになり,長期テーマにも取り組み易いです.皆様宜しくお願い致します.
0
37
64
@kyoun
Kyosuke Nishida
9 months
明日15:30〜 #FIT2023 にて「Vision-and-Languageの最前線」が開催されます.ソニー 石井雅人さん(拡散モデル),LINE 佐藤敏紀さん(LLM),阪大 中島悠太さん(モデルのバイアス)の招待講演3件がありますので,ぜひ現地・オンラインにてご参加ください!
1
19
64
@kyoun
Kyosuke Nishida
4 years
#AAAI2021 に 田中さん @rtanaka_lab との共著 "VisualMRC: Machine Reading Comprehension on Document Images" が 採択されました!文書の「画像」を視覚的に理解して機械読解を行うためのデータセットと技術の提案です.2年間やってきたプロジェクトが遂に形になってきました😃
0
5
64
@kyoun
Kyosuke Nishida
5 years
#NLP2019 初日3/12 10:30〜 チュートリアル(1)にて「機械読解の現状と展望」について講演いたします! タスクの説明,BERTなどのモデル,データセットの紹介,スコア競争・分析研究の状況,今後の展望など,自分なりに一生懸命まとめましたので,みなさま宜しくお願い致します!!
1
11
62
@kyoun
Kyosuke Nishida
3 years
#NLP2021 にて最優秀賞を頂きました!嬉しいです! 明日のAI王ワークショップにて,本発表の内容も含めた Vision-and-LanguageのQA・検索・事前学習に関する最新動向について講演させて頂きます.今後の方向性について皆様と議論できることを楽しみにしています!
@rtanaka_lab
Ryota Tanaka
3 years
#NLP2021 にて @kyoun さんと取り組んだ「VisualMRC: 文書画像に対する機械読解」の論文が最優秀賞を頂くことができました!国内のVision&Languageの研究をより一層盛り上げられる起爆剤となると嬉しいです💣
Tweet media one
1
6
69
1
4
63
@kyoun
Kyosuke Nishida
6 years
From Neural Re-Ranking to Neural Ranking: Learning a Sparse Representation for Inverted Indexing (UMASS) 高速・高精度なニューラル検索モデルSNRMを提案.従来のニューラル検索は高速なモデルのre-rankerでしか効率的に検索できなかった問題を解決.大注目.CIKM18
Tweet media one
1
14
61
@kyoun
Kyosuke Nishida
6 years
DeepHeart (Cardiogram) 市販のApple watchで計測した心拍数と歩数の系列データを使って糖尿病,高血圧,睡眠無呼吸などの判定を14011人のデータからDNN(時間方向の畳込+双方向LSTM)で学習.ラベルなしデータも事前学習に利用.精度は約74〜84%(従来+5〜15%).AAAI18
Tweet media one
Tweet media two
0
18
60
@kyoun
Kyosuke Nishida
1 year
Stanford Alpaca self-instruct によりtext-davinci-003(GPT-3.5 175B)から52Kのinstruction-followingデータを生成,LLaMa 7Bをfine-tuning.7Bにて175Bレベルの動作を実現. github: demo:
Tweet media one
1
19
60
@kyoun
Kyosuke Nishida
5 years
NTT研究所の夏期インターンシップは6/10(月)が申込〆切になります.我々は下記のテーマで募集しております. ・深層学習による機械読解と自然言語理解 ・深層学習による自動要約技術の検討 ぜひご応募ください!
@kyoun
Kyosuke Nishida
5 years
NTT研究所の夏期インターンシップが募集開始になりました!我々のチーム(@横須賀、アプリケーション分野)からも深層学習による言語処理のテーマ(機械読解、要約)がありますので、ぜひご応募ください!
0
74
125
0
26
61
@kyoun
Kyosuke Nishida
6 years
"Recent Advances in Recurrent Neural Networks" (University of Toronto)   RNNの基礎,LSTMの派生,勾配降下法,正則化,応用事例など一通りまとまっている印象.最新どころで浮かぶのだとQRNN とかSRU も見たかった
Tweet media one
Tweet media two
0
11
57
@kyoun
Kyosuke Nishida
5 years
ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks (Georgia Tech等) 画像&言語の同時事前学習モデル.画像キャプションデータから,masked言語/物体モデルと,画像/言語の対応識別を学習.VQA, VCR, 画像検索等でSOTA.
Tweet media one
Tweet media two
1
19
59