暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

用Python写简单的机器翻译程序(2)

语和言 2022-09-16
355


一、引言


分享知识+推广我的Python书

上次本号的文章介绍了一个调用谷歌翻译网页版接口的Python程序,文章如下:

用Python写简单的机器翻译程序(1)

这次介绍一个调用谷歌翻译扩展库的Python程序,比调用谷歌翻译网页版接口更方便。

环境:64位Win 10中文版 + 64位Python 3.10



二、新书推广

《Python程序设计(基于计算思维和新文科建设)》,ISBN:9787121435577,胡凤国,电子工业出版社,2022年6月。


本书是电子工业出版社在国内较早采用纸质版+电子版的创新图书发行模式的第一次尝试。本书是这套创新图书的纸质版部分,与之内容互补的电子版图书将稍后出版。

本书的内容包含基础篇排错篇两部分:

基础篇介绍Python程序设计的入门知识,共12章,包括:

⑴ Python简介
⑵ Python软件的安装和Python程序运行;
⑶ Python的基本概念(对象、数据类型、表达式、内置函数);
 输入和输出;
⑸ 程序设计的三种基本结构;
⑹ 函数和类;
⑺ 序列操作(列表、元组、集合、字典);
⑻ 字符串;
⑼ 正则表达式;
⑽ 文件读写;
⑾ 目录与文件操作;
⑿ 常用标准库介绍。

排错篇总结初学者常遇到的错误并介绍程序调试方法,包含2章:

⒀ Python错误类型;
⒁ Python代码调试。 

与本书内容互补的电子版图书包含文本篇应用篇两部分:

文本篇:介绍字符集、编码和文本文件读写的知识,包含了对国家规范《通用规范汉字表》8105个汉字当中难以输入和难以显示的汉字的处理。

应用篇:介绍Word、Excel、PPT、PDF、图片等常用办公文件的处理,是大家提高办公和科研效率的好帮手。

本书配套有详细的PPT和教学大纲,还有全部例题的程序代码和绝大部分思考题的程序代码。

本书配套PPT里面还加入了配套电子版图书中的部分内容,比如字符集和编码,不同编码的文本文件的读写,Word、Excel、PPT、PDF等一些常用办公文件的读写。

本书的配套资源可以在电子工业出版社官网下载。

本书的读者对象:

1、大学文科生 可选本书当Python教材或自学Python的参考书。

2、大学理工科学生 可选本书当自学Python的参考书。

3、文科领域的教师、科研人员和研究生
可拿本书当工具书,本书的配套程序会为您节省效率,在当前大数据和新文科的背景下,本书可以为相关领域的量化研究提供技术支持。

4、理工科领域的教师、科研人员和研究生

本书配套的电子版图书中的编码和文本处理知识也可以作为理工科教师和科研人员处理文本数据的参考资料之一,毕竟专门开辟章节介绍国家标准《通用规范汉字表》汉字处理的程序设计图书并不多见。

5、青少年学生
本书有专门的海龟画图章节,有大量的有趣数学题目,可以培养学生的计算思维,适合对编程感兴趣的中小学生阅读,也适合打算让娃参加编程辅导班的家长朋友参考。

本书在各大实体书店和网店均有销售。京东、天猫、当当的购买渠道如下(可扫码直达购买页面)。








三、调用谷歌翻译网页版接口的局限性

本号在文章用Python写简单的机器翻译程序(1)》中给出了一个调用谷歌翻译网页版接口的程序,可以实现一个简单的机器翻译功能。这个程序有一定的局限性,就是每次能翻译的汉字数有限制。经反复试验发现:

  • 每次运行程序最多能翻译1840个汉字(对应构造的网址包含16407个字符),再多一个汉字就得不到翻译结果。

  • 每次运行程序最多能翻译5000个字符的英文文本(对应构造的网址包含7309个字符),再多一个字符就得不到翻译结果。


现在我们给出另外一个调用谷歌机器翻译的方案:用扩展库。



四、通过调用谷歌翻译扩展库来构造机器翻译系统
首先安装谷歌机器翻译扩展库4.00版(需要安装Python 3.7或更高版本):
pip install googletrans-py

注意扩展库的名称后面有-py这个后缀,如果用如下命令:
    pip install googletrans

    则安装的是早期版本的谷歌翻译扩展库,早期版本可以在Python 3.6中安装,本文测试时用的是新版的机器翻译扩展库4.00

    安装完之后,运行如下代码即可进行机器翻译。


    调用谷歌翻译扩展库只需要用4行代码就实现了一个机器翻译玩具系统,比调用谷歌翻译网页版接口的12行代码还要简单不少。


    上述代码的运行结果如下:

      I like kittens.


      我们还可以翻译多行文本。



      上述代码的运行结果如下:


        原文本:
        春天来了!春天来了!
        我们几个孩子,脱掉棉袄,冲出家门,奔向田野,去寻觅春天。
        春天像个害羞的小姑娘,遮遮掩掩,躲躲藏藏。我们细心地找啊,找啊。
        小草从地下探出头来,那是春天的眉毛吧?
        早开的野花一朵两朵,那是春天的眼睛吧?
        树木吐出点点嫩芽,那是春天的音符吧?
        解冻的小溪叮叮咚咚,那是春天的琴声吧?
        春天来了!我们看到了她,我们听到了她,我们闻到了她,我们触到了她。她在柳枝上荡秋千,在风筝尾巴上摇啊摇;她在喜鹊、杜鹃嘴里叫,在桃花、杏花枝头笑……


        目标文本:
        spring is coming!spring is coming!
        A few children took off the cotton jacket, rushed out of the house, rushed to the field, and went to find spring.
        Spring is like a shy little girl, covering up, hiding from Tibet.We are looking for it carefully, looking for it.
        Xiao Cao poked from the ground underground, is it the eyebrows of spring?
        One or two wild flowers in early, is that spring eyes?
        The trees spit out a little bit of buds, is it the notes of spring, right?
        The thawed creek Ding Ding Ding, is it the sound of spring?
        spring is coming!We saw her, we heard her, we heard her, and we touched her.She swayed on the willow branches and shake it on the tail of the kite; she screamed in the mouth of the magpie and azalea, and laughed on the peach blossoms and apricot blooms ...

        经测试,谷歌翻译扩展库每次汉译英调用可翻译不超过5000个汉字的汉语文本。


        如果我们想英译汉,加一个参数就行。



        英译汉每次最多能翻译多少英语文本,这个没有测试,想来应该有字符数或单词数限制。


        目标语言还可以设置成其他语言类型,这个不再多说。



        、联系交流

        欢迎跟图书《Python程序设计(基于计算思维和新文科建设)》的作者胡凤国老师进行交流,作者电邮:cuchufengguo@163.com ,也可以给公众号留言进行交流。

        欢迎关注微信公众号“语和言”,本公众号将不定期发布对本书Python知识点的解读和补充内容。


        语和言公众号还有读者交流群,经常跟作者交流的读者朋友可以入群一起讨论问题。


        文章转载自语和言,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

        评论