Bi-Directional Attention Flow For Machine Comprehension
发布时间:2020-12-14 04:47:54 所属栏目:大数据 来源:网络整理
导读:。 这种网络最大的优点是能够利用 SGD 训练更深的网络,在实验中,即使加到 100 层也能够有效训练。 简评 文中采用新的 attention 机制,从实验效果来看确实提高了效果,在 development set 和 test set 上分别取得了 77.8% 和 78.1% 的 F-score。同时在 dev
简评文中采用新的 attention 机制,从实验效果来看确实提高了效果,在 development set 和 test set 上分别取得了 77.8% 和 78.1% 的 F-score。同时在 development set 上去掉 C2Q 与 去掉 Q2C 相比,分别下降了 12 和 10 个百分点,也就是说 C2Q 这个方向上的 attention 更为重要。 这篇文章中的 attention 计算后流动到下一层中,而不是像 Memory Networks 里面动态计算 attention。这么做一方面可以减少早期加权和造成的损失,另一方面也能够将之前错误 attention 的信息恢复。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |