
了标注对象和标注集,那又如何行中文词呢?前面的子例,只
过没行中文词
瓦西的船只中4%驶向东,个几乎都条船停靠中港口沔
首先,你需要将标注对象独立出来,实就是给个符空格
瓦 西 的 船 只 中 4 % 驶 向 东 , 个 几 乎 都
条 船 停 靠 中 港 口 沔
,假你经训好了一个标注器,那就直接给行标注
瓦/B 西/I /B /I 的/B 船/I 只/B 中/B /B 4/I /I %/I 驶/I 向/B
/I 东/B ,/B /B 个/I /I 几/B 乎/I 都/B /I /B /B 条/B 船/I
停/B 靠/I 中/B /I 港/I 口/I 沔/B
最,需要你做得就是按照个标记的意思原中文词,并且除去标记
瓦西 的船 只 中 4%驶 向 东 , 个 几乎 都 条船
停靠 中港口 沔
好了,就是标注方法的流程和词结果,很遗憾,个标注器的效果好,
过没关系,你可计更好的标注器,英文词性标注的被老外研究 的充
了,什 HMM沓TBL沓最大熵沓条件随机场沓策树等等等等,仅仅是方法,
连开源工都给你提供,完全可拿来沔
那又怎拿来计自的标注中文词器呢?知读者可记着 Citar,
记得的可温一沙
HMM 在自然语言处理中的用一词性标注 6沚,Citar
是一个毐Hi北北优次 Ma严k欢天 M欢北优速 吧严i会严a造 PO分 吧a会会优严毑,需要标注好的语料来
训相语言的词性标注器,心的 HMM 标注框架是依赖于语言的,但是在
处理未登录词时 Citar 是要利用英 文词缀信息行标注的,因对于英文
词性标注来说效果相对较好,对于他语言,特别是中文种没词形的孤
立语来说,词性标注效果要一点折扣沔 过没关系,要谈的是思想,
而是工程的用,因暂时可忽略点影响,对于本文利用所计的
标注器来说,适用沔
可是哪的训语料呢?俗说得好自动手,丰衣足食沔虽然没哪
个提供的标注语料,但是们 SIGHAN Bakeoff 提供的
icwb2-data,你完全可利用自熟悉的编程语言写一个前处理程序,将转
们所需要的标注训语料形式沔一节 们将微洲研究院提供
的中文词语料例,利用 Citar 完一个基于 HMM trigram 的标注中文词
程序沔
评论