
在使用BI工具的时候,经常遇到的问题是:“不会SQL怎么生产加工数据、不会算法可不可以做挖掘分析?”
而专业算法团队在做数据挖掘时,数据分析及可视化也会呈现相对割裂的现象。流程化完成算法建模和数据分析工作,也是一个提效的好办法。
同时,对于专业数仓团队来说,相同主题的数据内容面临“重复建设,使用和管理时相对分散”的问题——究竟有没有办法在一个任务里同时生产,同主题不同内容的数据集?生产的数据集可不可以作为输入重新参与数据建设?
文 | 封声 来自字节跳动数据平台DataWind团队

DataWind 可视化建模能力来了

零门槛的 SQL 工具
数据的生产加工是获取及分析数据的第一步。
对于非技术使用者来说,SQL语法存在一定使用门槛,同时本地文件无法定时更新,导致看板每次都需要手动重做。获取数据所需的技术人力往往需要排期,数据的获取时效及满足度大大打折,因此使用零代码的数据建设工具变得尤为重要。
下方列举两个典型场景,零门槛完成数据处理在工作中是如何应用的。
【场景1】所想即所得,可视化完成数据处理过程
在产品运营迭代急需不同数据的及时输入反馈时,可以抽象数据的处理过程,通过可视化建模拖拉算子构建数据处理过程。


【场景2】多表快速结合,轻松解决多数据关联计算
在数据处理过程中,有多个数据源需要进行组合使用,常规通过Excel需要掌握高阶Vlookup等算法有些难度,且耗时长。同时数据量较大时,电脑性能可能没办法完成数据的组合计算。
如有两份数据量比较大的订单数据和一份客户属性信息表,需要根据账单金额和成本金额计算利润金额,然后按照利润贡献高低取Top100的用户订单信息。



AI 数据挖掘,不再高不可及
当基础的数据清洗已经没办法满足数据建设和数据分析,需要AI算法加持去挖掘数据更多隐藏的价值时。算法团队同学可能苦于无法很好与可视化图表联动使用,没办法生产好的数据快速被应用;而普通用户可能直接被AI代码的高门槛直接压灭了这个算法的苗头——提需求又怕需求太浅、价值无法很好评估输出,此时算法挖掘成为了一种奢望。
DataWind 的可视化建模封装了超过30类常见的AI算子能力,用户仅需了解算法的作用可以通过配置化的方式配置算法算子的输入和训练目标即可完成模型训练,根据配置的其他数据内容快速得到预测结果。



【初阶】不会Python也可做数据挖掘
拖入样本数据和全部数据作为数据输入 拖入分类算法,如XGB算法用于模型训练 拖入预测算子,搭建模型与全部数据的关系进行预测 实际数据和预测结果结合输出数据集,从而分析全部用户数据的意向分布

【高阶】不写Python也可构建复杂算法模型

合并行:将n个算子(图中的长方形)输出数据表根据一致的表头合并成一张总的数据表,用户销售数据没有增删新属性时此处不用改动。 缺失值替换:属性列存在空值(null)时,会影响后续模型计算,使用替换缺失值算子可以将空值替换为指定默认值,用户销售数据没有增删新属性时此处不用改动。 one-hot编码: 文本类型的属性无法直接被模型训练使用,需要one_hot编码成数字向量例如:

梯度提升树:负责拟合训练数据,输出一个可以用于预测的模型(图中没有标注的参数不需要维护人员修改):

聚合_1:去除预测数据中的重复项,取最大概率。 提取字段:提取必要的label和概率值输出。


多场景、多任务建设,管理不再分散
有用户想看订单的统计数据,那么可以搭建订单统计数据集的数据处理流程; 有用户就想看明细数据,但是需要对明细字段进行加工清洗,这时可以构建订单明细表数据集的处理流程; 有些用户又想结合用户属性去统计用户的订单分布,那么构建多表关联结合指标聚合生成完成用户订单统计数据集; 同样逻辑可以生成多表关联下的用户订单明细数据集。

产品介绍
火山引擎智能数据洞察DataWind:
智能数据洞察是一款支持大数据明细级别自助分析的增强型 ABI 平台。从数据接入、数据整合,到查询、分析,最终以数据门户、数字大屏、管理驾驶舱的可视化形态呈现给业务用户,让数据发挥价值。后台回复数字“5”了解产品,并参与30天免费试用!

点击阅读原文,立即参与DataWind免费试用



