大数据的架构和技术不能的更新,处理数据技术的能力也逐渐增强。但是,不管如何变化,最终都还是需要数据产生商业价值,否则拥有再多的数据也只是一推“废品”。
大数据真正落地有很多方向,比如娱乐新闻产业的精准营销与推送,信息的精准预测等。这里来看看如何实现用户画像的功能。用户画像,说白了就是给终端用户进行打标签,根据掌握的数据和行为信息,给用户贴上一些“标签”,这些标签组合起来也就是用户的画像。
对于互联网公司来讲,虽然不能获取用户的个人私密数据,但可以获取很多终端用户使用各种App上网的日志,这里用户的号码已经加密处理,不能直接看出来。

我们可以通过设计标签库来标记用户使用App的习惯,标签库指示出每个App使用的男女性使用比例,以及各个年龄段的使用权重。
比如

接下来是通过用户行为日志对使用App习惯来预测用户的性别,年龄等标签。采用MapReduce处理的方式对日志数据进行处理。工程结构如图所示,
mapper类将获取的日志进行切分规整,然后给reduce类进行处理;

将工程上传至集群后,hadoop jar包后,我将output1作为HDFS的输出目录

在输出的目录里面,可以看到处理后的数据,加密用户使用app每天使用app的次数和时长。
比如clg这个用户,可以看出当前使用180229这个app累计时间较久,从标签库可以看出180229这款app是搜狐新闻。经过一次MR的处理后,可以再经过一个MR的处理,将该用户对应的年龄和性别进行判断。最终,可以将结果保存至Hbase。
写入Hbase的核心方法如下所示:

那么,价值最终体现的地方就是通过这些预测判断终端用户的喜爱以及年龄段,将合适的信息推送给终端用户。


文章转载自Nathan的笔记,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




