暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

如虎添翼:用Python与C++扩展R语言的应用场景

荷兰心理统计联盟 2020-09-12
716


R语言是心理与统计学界中最受欢迎的编程语言之一。相比商业统计软件,R语言免费、开源、扩展性强;而相比其他开源编程语言,R的基本操作相对简单,统计与作图模块完善,适合进行统计分析工作。


然而,R语言并非没有劣势。首先,R程序包的覆盖范围没有那么完美,在有些情况下可能会面临“无R包可用”的情况。第二,R是一种脚本语言,而且许多底层运算模式没有针对运算速度做出太多优化。因此,R的运行速度相对较慢,尤其在进行数据量较大的循环运算时,运行时间可能会达到编译语言的数十倍。

R的短处恰恰是其他编程语言的长处。例如,Python作为应用范围最广的脚本语言之一,在许多领域有更多的程序包支持;而C++作为一种编译语言,在进行复杂运算时有明显的速度优势。幸好,R语言中提供了与Python和C++的协作程序包。利用这些程序包,我们可以把R处理起来较为困难的部分在另一种程序中运行,之后将运行结果反馈给R,在R中进行下一步分析。当然,为了完成这一任务,对参与协作的另一种语言也需要有一些基础的了解。Python和C++入门知识超出了本文的范围,对Python和C++还比较陌生的读者可以在网上找一些相关的基础资料。

下面,我们会在两种典型心理学使用场景中介绍R与Python、C++连接的程序包。

R与Python的协作:reticulate
基本信息
reticulate是一个连接R与Python的程序包(官方网站如下)。
    https://rstudio.github.io/reticulate/
    我们可以使用这一程序包调用Python模块的功能。reticulate的安装方式和其他CRAN程序包一样,可以直接通过install.packages命令来安装:
      install.packages("reticulate")
      同时,为了调用Python模块,我们还需要在计算机中装好Python和需要的模块,并将Python程序所在目录放在PATH中。

      之后,就可以采用reticulate的import功能来导入模块,并使用“$”符号代替“.”进行Python的面向对象编程。
      (ps. 这个包的名称来自于东南亚的一种蟒蛇网纹蟒 reticulated python,估计当时作者为了找一个r开头的蛇的名字也是费了些心思……)

      应用示例
      我曾经遇到过的一个使用场景是这样:在一个皮肤电研究中,我需要从acq文件里读取皮肤电信号的源数据,并进行一些后续处理。然而,我只找到了一个可以读取acq文件的Python包:bioread。因此,我需要借助Python中的bioread包(如下)将数据读入,之后用R进行下一步处理。
        https://pypi.org/project/bioread/
        使用的代码如下(事先需要安装Python和bioread包):
          library(reticulate)
          bioread <- import("bioread") # 导入模块
          acqfile <- bioread$read_file('physio-5.0.1.acq') # 使用bioread中的read_file函数读取文件
          acqfile # 查看acq文件对象信息
          # AcqKnowledge file (rev 132): 4 channels, 2000.0 samples/sec


          acqfile$channels # 查看acq文件中的通道
          # [[1]]
          # Channel EDA filtered, differentiated: 123787 samples, 2000.0 samples/sec, loaded: True
          #
          # [[2]]
          # Channel EKG - ERS100C: 61893 samples, 1000.0 samples/sec, loaded: True
          #
          # [[3]]
          # Channel RESP - RSP100C: 241 samples, 3.90625 samples/sec, loaded: True
          #
          # [[4]]
          # Channel EDA - GSR100C: 123787 samples, 2000.0 samples/sec, loaded: True


          acqdata1 <- acqfile$channels[[1]]$data # 提取第一个通道中的数据


          str(acqdata1)
          # num [1:123787(1d)] -101 -101 -101 -101 -101 ...
          #可以看到,从Python对象中提取的acqdata1已经是一个R向量了。
          #因此,之后都可以直接使用R语言对其进行分析
          #例如:


          mean(acqdata1)
          # [1] -110.7604
          需要注意的是,只有Python中一些特定种类的对象可以被转换成R语言变量。reticulate官网上给出的对照表如下:

          因此,对于一些Python模块中自行定义的对象,需要提取出上述种类的子数据才能继续用R做处理。(例如,在上述示例中,acqfile是一个AcqKnowledge file对象,不能直接使用R语言进行处理;但acqfile$channels[[1]]$data就是一个常规的数组了,可以直接转化成R中的向量。)

          R与C++的协作:Rcpp
          基本信息
          Rcpp是最受欢迎的R语言扩展包之一(官方网站如下)。
            http://www.rcpp.org/
            我们可以使用这一程序包在R中调用C++函数。Rcpp同样可以直接通过install.packages命令来安装:
              install.packages("Rcpp")
              同时,我们还需要安装C++编译器。对于windows用户,直接安装Rtools即可。
                https://cran.r-project.org/bin/windows/Rtools/index.html
                要注意的是,使用Rcpp通常需要我们自己写出一个符合Rcpp要求的C++函数,对编程知识的要求相比reticulate要高一些。

                应用示例
                我遇到过的Rcpp使用场景是这样:我需要做一个心理模型的模拟,其中包含数亿次量级的迭代计算。这一工作可以使用R函数实现,但需要的运行时间太长,超出了接受范围。因此,我将这一函数使用Rcpp重写。示例代码如下(为简明起见,这里使用了一个非常简单的迭代函数):

                *add_one_zh.cpp*
                  #include <Rcpp.h>
                  using namespace Rcpp;
                  //在函数开始之前的部分,(#include <Rcpp.h>,using namespace Rcpp;,
                  //[[Rcpp::export]])
                  //是C++和Rcpp需要的一些头文件。
                  //如果在RStudio中创建新C++文件,RStudio会自动生成这些头文件。
                  //[[Rcpp::export]]
                  NumericVector add_one(int time) {
                  //这个函数会计算一个向量,其中第一个元素是0,之后每个元素相对上一个元素增加1
                  //注意:C++中的注释开头是“//”
                  //C++中,所有变量的类型和函数返回值的类型都需要主动声明 (例如NumericVector)。
                  //每一句代码要以分号结束
                  //而且数组序号从0开始
                  //NumericVector是Rcpp中的一种数据类型。
                  //使用这种类型,可以保证函数返回值可以被转化成R向量。
                  NumericVector x(time+1);
                  x(0) = 0;
                  for(int i = 1; i <= time; i++){
                  x(i) = x(i-1) + 1;
                  }
                  return x;
                  }

                  *R程序*
                    library(Rcpp)
                    sourceCpp("add_one_zh.cpp") #将Rcpp函数导入R中


                    t1<-Sys.time()
                    add_one(100000000) # 运行Rcpp函数
                    t2<-Sys.time()
                    t2-t1 # 计算运行时间
                    # Time difference of 1.545115 secs
                    #相同功能的R函数
                    add_one_slow <- function(x){
                    y <- vector("integer", x+1)
                    y[1] = 0
                    for(i in 1:x+1){
                    y[i] <- y[i-1] + 1
                    }
                    return(y)
                    }
                    t1<-Sys.time()
                    add_one_slow(100000000) # 运行Rcpp函数
                    t2<-Sys.time()
                    t2-t1 # 计算运行时间
                    # Time difference of 18.90944 secs
                    从运行时间可以看出,本例中实现相同功能的C++函数比R函数快了十倍有余。

                    结语
                    本文对R语言中连接Python和C++的两个程序包reticulate和Rcpp做了简单介绍。利用Python和C++的优势,我们可以扩展R程序可以应用的程序包,加快R语言的运行速度。以上介绍方法只是R语言扩展方式中的很小一个部分,还有许多其他的功能等待大家发现。感兴趣的朋友可以参考上述程序包官网上的手册和相关指导文件。祝大家写代码愉快!

                    本文涉及代码
                      https://github.com/Sciurus365/RPyCpp
                      其他资料
                      Advanced R中Rcpp相关的章节:
                        http://adv-r.had.co.nz/Rcpp.html
                        另一本Rcpp的参考书籍:Rcpp for everyone
                           https://teuder.github.io/rcpp4everyone_en/


                          作者信息:崔竞蒙 Radboud University行为科学硕士研究生
                          排版李昊


                          往期精选


                          重要通知
                          小伙伴们,感谢您浏览到这里 。我们在每周六晚八点准备了优质且精彩的学术资源分享,如果您不想错过,我们强烈建议您将“荷兰心理统计联盟”设为星标,三步搞定!
                          第一步:点击顶部蓝色字体“荷兰心理统计联盟”,进入我们公众号的主页;
                          第二步:点击页面右上角“...”,弹出选项卡;
                          第三步:点击“设为星标”。

                          文章转载自荷兰心理统计联盟,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

                          评论