点蓝字关注 设为星标 ☆ 优先赏阅
数据化审计-SmartAudit:问题导向、应用至上、解决痛点
不要被标题迷惑,这不是培训推广软文,是正经的系列教程!
引 子
在之前的推文中,写过一个系列的Python入门 “ 0基础教程 ”:
但仍不可否认,Python学习初始的学习曲线还是比较陡峭的,业务条线的科技小白还是容易陷入 “ 数据化审计,从入门到放弃 ” 的循环中。(参见文章《 “数据化审计,从入门到放弃”如何破?》)
不少审计人员的梦想就是:有这样一个系统或者软件,点一点、拖一拖、等一等,就能出结果、发现疑点,而不是需要学习 “ 天书 ” 一般的 SQL 语句、Python 语言。
Python 的世界博大精深,除了大量功能强大的库之外,也有大神推出很多所见即所得的工具,其中的佼佼者就是 Orange ,而且 Orange 主要是用python开发的。
当然,Orange 只是通过“拖拉拽”的方式基本实现了所见即所得的数字化审计分析,但离一建出底稿还有很远的距离。
因为工具只是数字化审计路上最容易翻越的山头,做好数字化审计需要的是一个能力体系(《数字化审计需要什么样的能力体系?》), 业务是数字化审计之本,数据化审计的空间:技术决定下限,业务决定上限。
本系列教程主要有如下四方面的内容:
介绍Orange的基本功能、主要操作 应用Orange进行探索性数据分析(EDA) 使用Orange复现之前使用Python代码实现的一些案例 Orange的高阶应用探索
本文是第一部分:介绍 Orange 的基本功能、主要操作。
Orange 基本介绍
Orange 提供了数据预处理、探索性数据分析、建模、模型评估、非监督机器学习、可视化等功能。
用户通过拖曳将 Orange 提供的相应组件放置到工作区( Canvas ),建立数据分析工作流,并设定相关的参数,即可自动进行数据处理、模型应用和结果展现。
下图为 Orange 的主界面。主界面主要由三个部分组成:左边为组件集( Widget ),中间为工作区( Canvas ),单击组件的帮助链接会在右边显示当前组件的帮助( Help )。

安装Orange
截至 2021 年 8 月29日,Orange 的最新版本为 3.29.3。读者可以直接从官网下载安装程序或者免安装的压缩包。
官网下载地址是:https://orangedatamining.com/download/

在 Python 环境下( 最新的版本只支持 Python3 和 64 位机器环境 ),也可以通过 pip 命令进行安装 pip install orange3 --user
通过 pip 命令安装完成后,执行 “ python -m Orange.canvas ” 命令即可启动 Orange。
Orange的组件
从 Orange 主界面图上可见,Orange 左边栏提供了 5 个组件集,组件的图标也很直观地展示了组件的功能。
数据( Data ):常见格式数据的导入、数据库数据读取、数据保存、抽样、创建透视表、转换、设置相关系数、编写 Python 脚本等。 可视化( Visualize ):树状图、箱体图、散点图、直方图、热图等。 模型( Model ):各类机器学习模型,如 KNN、随机森林、SVM、逻辑回归、神经网络、贝叶斯,模型加载和保存。 评估( Evaluate ):交叉验证、抽样程序、ROC 曲线等。 无监督算法( Unsupervised ):各类数据降维算法,如 PCA、t-SNE;各类无监督算法模型,如 K-Means 分析、层次聚类分析等。
如果使用过 SPSS Modeler, 就会发现 Orange 提供的功能非常类似。
除了提供的这些组件之外,Orange 还可以通过插件( Add-On )添加新的功能,还支持在 Python 环境下直接调用组件进行非可视化的代码级别分析。
组件的使用
组件拖放
用鼠标左键点击 Orange 左边栏中的组件,按住左键,拖放到工作区( Canvas ),松开左键,即可将需要的组件拖放到可操作位置。
在工作区( Canvas )中,已拖放的组件是可以任意位置移动的,双击组件可以编辑组件相关的参数。
使用帮助
在 Orange 的主界面中,当鼠标指针移动到组件的上方时,会出现一个 Tip 信息框,显示该组件的主要功能、输入要素和输出结果。
例如,当指针移到 Data Table 这个组件上时,Tip 信息框显示这个组件的主要功能是以表格的形式浏览数据,该组件的可输入类型为各类二维数据,输出为选中的数据或者全量数据,如下图所示。

链接组件
组件之间的数据交互依赖于组件间的链接( Link ),也就是可视化中组件间的那根“线”。
由于不同的组件有不同的输入要求和多个输出结果,链接的两端需要继续进行正确的选择。双击组件间的链接,即可进行链接编辑。
可以单击一个组件上相应输出类型方框(输入类型方框),并按住鼠标左键,拖曳到另一个组件的输入类型方框(输出类型方框)上,重新定义两个组件间的链接方式,如下图所示。

简单示例:预览数据
从 Data 组件集中拖入 CSV File Import 组件,并选择数据源为“iris.csv”。
从 Data 组件集中拖入 Data Table 组件,并将其与 CSV File Import 组件建立链接,双击链接,确保链接是 Data 到 Data。
双击 Data Table 组件,即可预览导入的数据字段名称和字段值,如下图所示。

相关阅读
应用 | 如何在不联网的离线环境下安装python库
思考 | 洞若观火:数据化审计的两类基本任务
Python | 一文学会探索性数据分析(EDA)
Python | 如何高效地翻凭证?
Python | 如何用Python挖掘照片背后的秘密?
Python | 如何批量在多个word文档中查找关键词?
Python | 关联规则挖掘:让“影子账户”无所遁形
Python | 利用社交网络分析(SNA)挖出“围标”线索
Python | 如何基于科学分类选择审计对象,降低审计风险?
Python | RPA在审计检查实质性测试中的应用
― End ―
“因为公众号平台更改了推送规则,如果不想错过新文章,记得读完点一下“在看”,这样每次新文章推送才会第一时间出现在您的订阅列表里。
”




