排行
数据库百科
核心案例
行业报告
月度解读
大事记
产业图谱
中国数据库
向量数据库
时序数据库
实时数据库
搜索引擎
空间数据库
图数据库
数据仓库
大调查
2021年报告
2022年报告
年度数据库
2020年openGauss
2021年TiDB
2022年PolarDB
2023年OceanBase
首页
资讯
活动
大会
学习
课程中心
推荐优质内容、热门课程
学习路径
预设学习计划、达成学习目标
知识图谱
综合了解技术体系知识点
课程库
快速筛选、搜索相关课程
视频学习
专业视频分享技术知识
电子文档
快速搜索阅览技术文档
文档
问答
服务
智能助手小墨
关于数据库相关的问题,您都可以问我
数据库巡检平台
脚本采集百余项,在线智能分析总结
SQLRUN
在线数据库即时SQL运行平台
数据库实训平台
实操环境、开箱即用、一键连接
数据库管理服务
汇聚顶级数据库专家,具备多数据库运维能力
数据库百科
核心案例
行业报告
月度解读
大事记
产业图谱
我的订单
登录后可立即获得以下权益
免费培训课程
收藏优质文章
疑难问题解答
下载专业文档
签到免费抽奖
提升成长等级
立即登录
登录
注册
登录
注册
首页
资讯
活动
大会
课程
文档
排行
问答
我的订单
首页
专家团队
智能助手
在线工具
SQLRUN
在线数据库即时SQL运行平台
数据库在线实训平台
实操环境、开箱即用、一键连接
AWR分析
上传AWR报告,查看分析结果
SQL格式化
快速格式化绝大多数SQL语句
SQL审核
审核编写规范,提升执行效率
PLSQL解密
解密超4000字符的PL/SQL语句
OraC函数
查询Oracle C 函数的详细描述
智能助手小墨
关于数据库相关的问题,您都可以问我
精选案例
新闻资讯
云市场
登录后可立即获得以下权益
免费培训课程
收藏优质文章
疑难问题解答
下载专业文档
签到免费抽奖
提升成长等级
立即登录
登录
注册
登录
注册
首页
专家团队
智能助手
精选案例
新闻资讯
云市场
微信扫码
复制链接
新浪微博
分享数说
采集到收藏夹
分享到数说
举报
首页
/
数据分析师,要懂多少算法模型?
数据分析师,要懂多少算法模型?
数据运营与数据分析
2021-04-12
276
随着数据分析岗位招聘越来越内卷,问“你用过/建过什么模型”的也越来越多。这个问题很容易给人“
面试造航母,工作拧螺丝
”的感觉。实际工作中,真的要搞那么多模型???
搞得很多同学在、疑惑:
l
到底数据分析师要懂多少算法模型?
l
工作中真的要用到那么多模型?
l
我干的到底算不算模型?
今天系统讲解一下
1
盘点各路人马口中的“模型”
这个问题的本质来自于
不同人口中的“模型”含义不一样。
广义上讲,只要是对现实问题的抽象,都可以叫“模型”。
但一旦要结合数据、计算过程、使用场景,就会发现这些千奇百怪的模型完全不一样。
因此了解清楚,我们得先对各路人马口中的“模型”全盘梳理一下。
类型一:纯理论模型
这些模型往往来自《管理学》《营销学》课程,和数据的结合度几乎为0。就比如PEST,就问一款APP的DAU在8月份涨了10万,有多少来自国家出的文件?又有多少来自2017年新生人口1723万?又有多少来自华为——没有一个能算得清楚的。
所以这些东西严格来说不能算数据分析模型,只是一个思考方式。除非是政策敏感性特别强的行业+政策风向猛烈波动(比如互联网金融),才能直观的从PEST看到数据变化;或者处于垄断竞争行业(比如三大电信运营商)业务才会直接受到对手挑战。其他场景下,这些玩意就是美化PPT用的。
类型二:半理论模型
这些模型是经典的营销分析模型,但正因为经典,所以它们大部分基于调研数据,诸如用户态度,感觉,评价,是基于传统调研的手段获取数据。在当下,能获取用户数据方法很多,直接ABtest,比通过问卷问态度再反推更直观。因此这些模型适用范围已大大缩水。理论可以看,但是直接搬运就省省了。
有意思的是,为了体现自己的价值,调研公司、咨询公司、广告公司还是很喜欢讲这一类的模型,毕竟用户脑袋没有开接口,行为数据记录再多,还是不能直接推导出用户想法。因此在产品经理\运营\研发很迷惑的时候,还是会求助于市场调研。
类型三:基于指标计算模型
这些模型才是业务提及率最高,讲得最多的模型。这些模型,往往直接使用业务部门的KPI指标,以有逻辑的方式呈现,因此业务部门在讨论问题的时候可以直接往里边套,非常好用。同时,这些模型都是可以基于指标继续拆解的,因此业务讨论完了,可以直接按小组分配任务,并且监督任务完成情况。这两项优势,使得业务非常喜欢用这一类模型,时不时还自己创造两个。
但是,这一类模型有个致命缺点,就是:关键参数来自经验,未来预测全凭拍脑袋。你问业务为啥估计转化率是20%,得到的回答不是:“最近几个月都是20%”,就是“我觉得它会是20%”——建算法模型的时候还有各种检验值呢,这里就纯拍脑袋了。
类型四:指标计算模型
曲线拟合一般用来预测整体指标走势,比如整体销量、整体商品数量、用户流失数量等等。这种做法简单粗暴:不看原因,只看结果,拿结果数据的过往走势,拟合未来走势。
虽然看起来粗暴,但是却非常好用。因为需要的数据量少!只有一个结果数据即可(很多情况下,简单省事就是王道)。因此适用范围非常广。
线性规划模型是经典的科学管理模型,往往用在已定目标,分配任务的场景(如下图)。
有意思的是,线性规划模型常常是用在供应链的,营销端理论上可用,但是用的少。
其中最大的制约,来自基础数据的积累
:供应链往往对生产力、运力、人力有比较多的评估和积累,因此有大量数据可用于建模。营销端一天100个花样,业务方又太执着于玩法创新,懒得打业务标签和积累数据,自然没有多少数据可参考。
类型五:算法模型
这里才是近几年大火的机器学习算法。但是,这些算法大部分不是用来解决企业经营问题的,而是工业应用,比如安防,辅助驾驶,语音识别,语音控制,内容推荐,商品推荐,反欺诈,风控等等。这些都是生产系统,非数据分析/BI系统。在架构上一般都是专门的算法组/风控模型组负责,不会和数据分析组重叠。
在企业经营方面,算法有一些经典应用场景,比响应率预测,消费能力预测等等,但始终不是数据分析工作重点。因为大部分企业经营场景,面对的问题是:没数据!采集数据,整理数据,分析数据才是数据分析组主要任务。且大部分算法解释性差,业务既无法参与,无法理解,因此能输出的成果非常有效,从而限制了算法在分析上使用。
至于为啥面试的时候喜欢问算法的越来越多,其实是数据分析岗位内卷的明显标志:只是单纯报这个岗位的人太多了,咱问点难的东西淘汰一批吧。没有独立算法组,指望招
一个孤零零
的数据分析师把模型搞出来,就是做梦。
2
模型到底需要懂多少
比如预测12月销量,那么可以做:
这样直观对比,就能看出来,为啥统计学/机器学习算法模型,在实际场景中运用很少。这些模型需要的数据多,需要的数据颗粒度细,建模过程复杂,输出的结果反而更简单,业务看了能干的事也少。
相比之下,套用经营分析的模型进行拆解,虽然主要参数都是拍脑袋,但也变相的给各个部门下了军令状:你必须做到这么多!这样更容易驱动业务部门行动。用时间序列法虽然算出来的也不能落地,但是它需要的数据少,只有一串数照样用。因此省事。
注意:上边的对比,并不能说明机器学习方法不适合经营分析,
只是场景不合适而已
。换个场景照样好用。比如用二分类模型预测用户购买。就有两种典型好用用法:
1、在响应率低的时候,压缩业务工作量,提高产出率。
最典型的就是外呼,用户如果不接电话,任凭外呼员巧舌如簧也没用。
并且外呼成功率特别低,自然成功率1.5%-2%,因此哪怕模型只提高一个点的接听率,也能让外呼员的效率提高一大截。
2、
在响应率高的时候,识别自然响应群体,减少投入。
最典型的就是营销成本控制。
如果想压缩优惠券投放,最好的办法就是预测:
是否购买,之后把购买概率高的群体的券砍掉。
对于释放费用,非常好使。
所以在工作中,根据:
数据丰富程度
数据质量高低
结果使用场景
期望上线时间
来看菜吃饭,才是能发挥作用,争取认可的好做法。毕竟企业工作,追求的是低成本高效率的解决问题,如果一味追求复杂尖端,还是回去学校读个博士认真做科研的好。
数据库
文章转载自
数据运营与数据分析
,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。
评论
领墨值
有奖问卷
意见反馈
客服小墨