加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

序列标注中的BIO标注介绍

发布时间:2020-12-14 04:39:26 所属栏目:大数据 来源:网络整理
导读:序列标注一般可以分为两类: 原始标注(Raw labeling):每个元素都需要被标注为一个标签。 联合标注(Joint segmentation and labeling):所有的分段被标注为同样的标签。 举个联合标注的例子。一个句子为:Yesterday,George Bush gave a speech. 其中包括

序列标注一般可以分为两类:

  • 原始标注(Raw labeling):每个元素都需要被标注为一个标签。
  • 联合标注(Joint segmentation and labeling):所有的分段被标注为同样的标签。

举个联合标注的例子。一个句子为:Yesterday,George Bush gave a speech. 其中包括一个命名实体:George Bush。我们希望将标签“人名”标注到整个短语“George Bush”中,而不是将两个词分别标注。这就是联合标注。
解决联合标注问题的最简单的方法,就是将其转化为原始标注问题。标准做法就是使用BIO标注。
BIO标注:将每个元素标注为“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。
? ? ?比如,我们将标注商品名称(cp),则BIO的三个标记为:

  • (1)B-cp:商品名称的开头
  • (2)I-cp:商品名称的中间
  • (3)O:不是商品名称
我   O
要   O
买   O
一   O
台   O
游   B-cp
戏   I-cp
本   I-cp

参考?:
https://nlpers.blogspot.com/2006/11/getting-started-in-sequence-labeling.html

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读