chap10 注意力机制(Transformer)

layer norm 是对每个句子的全部字归一,batch norm 是全部句子的第 d 个字归一