SIhara
About
Blog
Chisiki
Blog
tech diary
Language Models are General-Purpose Interfaces
2023-07-19
category:
papers
どんなものか
Language Model (GPT)は言語タスクだけでなく視覚やマルチモーダルなタスクにも対応する汎用的なインターフェースとして機能することを示した
マルチモダリティにも関わらずZero-shot性能やin-context learningなどを可能にし、言語ベンチマークや視覚言語ベンチマークの実験結果からタスク専門のモデルを凌駕しうる結果が得られた
MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models
2023-07-03
category:
papers
どんなものか
GPT-4などの高度な大規模モデルはマルチモーダル能力を獲得してるとして、その能力を引き出すために1つの全結合層だけを用いた Vision and Language モデルを提案した
Dropout Reduces Underfitting
2023-06-16
category:
papers
どんなものか
訓練初期のドロップアウトの適用が、モデルのunderfittingに対して効果があることを実証した
ミニバッチ間の勾配の方向性のばらつきを学習初期段階において減らし、データセット全体の勾配と一致させる効果があることを実証
LIMA: Less Is More for Alignment
2023-05-23
category:
papers
どんなものか
GPTを使用したfine tuningにおいて質の高い1000の対話データのみを用いることで、GPT-4のような大量の対話データを用いてinstract tuningされた対話モデルに匹敵する性能を出せた
AttentionViz: A Global View of Transformer Attention
2023-05-22
category:
papers
どんなものか
トランスフォーマーモデルに対して、QueryとKeyを同じ空間にて可視化させることでグローバルな分析が可能な可視化を提案した
ここでのグローバルはある単一の入力ではなく複数の入力に対してまとめて可視化ができるという意味
Previous
Page: 3 / 10
Next
*****
Non sunt multiplicanda entia sine necessitate
Pudhina
is a free Jekyll theme by Knhash.
copyright ©️ 2022 - 2024