首页
归档
分类
标签
关于
搜索
chap10 注意力机制(Transformer)
发表于
2021-12-26
更新于
2021-12-26
字数统计
28
阅读时长
1分
layer norm 是对每个句子的全部字归一,batch norm 是全部句子的第 d 个字归一