TransformerでのSelf-Attentionの可視化

4月 01, 2023

現在、fairseqというキットを用いて機械翻訳のモデルをいじっています。
そのモデルに対して、学習時と推論時に各テキストごとにどの様なself-attentionが張られているのか知りたいです。

複数のクラスのプログラムの中で、どの部分でattentionを出力すればself-attentionが求められるのか教えていただけるでしょうか?