Bi-Directional Attention Flow For Machine Comprehension

发布时间：2020-12-14 04:47:54 所属栏目：大数据来源：网络整理

导读：。这种网络最大的优点是能够利用 SGD 训练更深的网络，在实验中，即使加到 100 层也能够有效训练。简评文中采用新的 attention 机制，从实验效果来看确实提高了效果，在 development set 和 test set 上分别取得了 77.8% 和 78.1% 的 F-score。同时在 dev

。

这种网络最大的优点是能够利用 SGD 训练更深的网络，在实验中，即使加到 100 层也能够有效训练。

简评

文中采用新的 attention 机制，从实验效果来看确实提高了效果，在 development set 和 test set 上分别取得了 77.8% 和 78.1% 的 F-score。同时在 development set 上去掉 C2Q 与去掉 Q2C 相比，分别下降了 12 和 10 个百分点，也就是说 C2Q 这个方向上的 attention 更为重要。

这篇文章中的 attention 计算后流动到下一层中，而不是像 Memory Networks 里面动态计算 attention。这么做一方面可以减少早期加权和造成的损失，另一方面也能够将之前错误 attention 的信息恢复。

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!