結果は以下。 $\mathrm{BERT_{BASE}}$および$\mathrm{BERT_{LARGE}}$いずれもそれまでのSoTAモデルであるOpenAI GPTをはるかに凌駕しており、平均で $\mathrm{BERT_{BASE}}$は4.5 %のゲイン、$\mathrm{BERT_{LARGE}}$は7.0%もゲイン が得られた。 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, Devlin, J. et al. (2018) 1.4.2 SQuAD v1.1 SQuAD(Stanford Question Answering Dataset) v1.1[Rajpurkar (2016)]はQ&Aタスクで、質問文と答えを含む文章が渡され、答えがどこにあるかを予測す