左は予測確率であり, aではどちらもauthor(正解)に対するAttentionが強く出ていることが分かる。対してbではAttention flowでのみmary(正解)に対するAttenitonが強くなっている.
BERTに対するAttention map. マスクの埋め込みから, それに対する2つの参照候補, 例えば(a)では「著者」と「サラ」, (b)では「メアリー」と「ジョン」への注目度合いを見てみます. 左の棒グラフは, 「彼」と「彼女」という2つの代名詞の可能性に対する相対的な予測確率を示している.