暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

欧洲议会平行语料库介绍

Python时代与机器学习 2019-05-10
571

  平行语料库对于统计机器翻译(SMT)的研究至关重要,欧洲议会平行语料库是目前互联网上可免费获取的非常规范的平行语料库。本文主要根据欧洲议会平行语料库的英文主页介绍进行了粗略翻译,其时间跨度从1996年至2006年,目前这个语料库还在继续扩建中。

  欧洲议会平行语料库是从欧洲议会的会议记录里抽取出来的,包括11个欧洲语言的版本:包括拉丁语系的4种语言(法语,意大利语,西班牙语,葡萄牙语),日耳曼语系的5种语言(英语,荷兰语,德语,丹麦语,瑞典语)以及其他两种语言
  欧洲语料库第三版数据情况如下:
  1、总的可供使用或下载的资源(包括文本文件、预处理工具及句对齐工具)为783MB,以英语为中间语言,具体如下:
  • 丹麦语-英语(Danish-English)平行语料库,126MB, 04/1996-10/2006 ;
  • 德语-英语(German-English)平行语料库, 136 MB, 04/1996-10/2006;
  • 希腊语-英语(Greek-English)平行语料库,82MB,04/1996-10/2006 ;
  • 西班牙语-英语(Spanish-English),130 MB, 04/1996-10/2006 ;
  • 芬兰语-英语(Finnish-English)平行语料库,124 MB, 01/1997-10/2006 ;
  • 法语-英语(French-English)平行语料库,136MB,04/1996-10/2006 ;
  • 意大利语-英语(Italian-English)平行语料库,130 MB, 04/1996-10/2006 ;
  • 荷兰语-英语(Dutch-English)平行语料库,133 MB, 04/1996-10/2006
  • 葡萄牙语-英语(Portuguese-English)平行语料库,132MB,04/1996-10/2006 ;
  • 瑞典语-英语(Swedish-English)平行语料库,114 MB, 01/1997-10/2006 ;

  2、语料库规模:
A、在tokenizing和去除XML标记之后的单语语料库规模数据如下:
语言         句子数         单词数
丹麦语(Danish)   1,563,012       37,467,445
德语(German)    1,517,987       37,614,344
希腊语(Greek)    962,820        26,306,875
英语(English)    1,461,429       39,618,240
西班牙语(Spanish)  1,476,106       41,408,300
芬兰语(Finnish)   1,407,544       26,413,278
法语(French)    1,487,459       44,688,872
意大利语(Italian)  1,405,282       39,504,158
荷兰语(Dutch)    1,616,104       39,778,617
葡萄牙语(Portuguese) 1,441,203       40,862,310
瑞典语(Swedish)   1,475,195       33,407,005
注:单语语料库主要用于统计机器翻译(SMT)中语言模型的训练。

B、在句对齐,tokenizing和去除XML标记之后的双语平行语料库规模数据如下:
平行语料库(语言1-语言2)  对齐句子数  语言1单词数  语言2单词数
丹麦语-英语(Danish-English) 1,304,947 34,169,707 36,225,880
德语-英语(German-English) 1,313,096 34,700,362 36,663,083
希腊语-英语(Greek-English) 662,090 18,834,758 18,827,241
西班牙语-英语(Spanish-English) 1,304,116 37,870,751 36,429,274
芬兰语-英语(Finnish-English) 1,257,720 24,895,790 34,802,617
法语-英语(French-English) 1,334,080 41,573,117 37,436,222
意大利语-英语(Italian-English) 1,251,315 36,411,166 36,510,033
荷兰语-英语(Dutch-English) 1,326,412 36,784,168 36,690,392
葡萄牙语-英语(Portuguese-English)1,287,757 37,342,426 36,355,907
瑞典语-英语(Swedish-English) 1,164,536 28,882,142 32,053,628
注:平行语料库主要用于统计机器翻译(SMT)中翻译模型的训练。

C、用于SMT测试集和开发集的规模对应每种语言对均为2000句对。

  欧洲平行语料库第三版由Cameron Shaw Fordyce (意大利CELCT), Josh Schroede和 Philipp Koehn (二人均属于英国爱丁堡大学 )主持,由欧洲委员会资助的EuroMatrix项目支持。

注:原创文章,转载请注明出处“我爱自然语言处理”:www.52nlp.cn

本文链接地址:http://www.52nlp.cn/european-parliament-proceedings-parallel-corpus-introduce/


相关文章:

  1. 自然语言处理公司巡礼四:Systran (7.8)

  2. 机器翻译:多一点宽容 (5.5)

  3. SMT经典再回首之Brown90:远见卓识 (5.1)

  4. EuroMatrix与开放精神 (5)

  5. 最有影响力的自然语言处理论文 (4.9)

  6. 统计机器翻译与资源建设思考 (4.1)

  7. 统计机器翻译英雄谱一:Franz Josef Och (4)

  8. 机器翻译的八大挑战 (4)

  9. Moses最新版本发布 (4)

  10. 自动作文评分与自然语言处理 (3.4)


文章转载自Python时代与机器学习,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论