阿里用户画像标签体系 2分钟了解用户画像标签

最近,我开始了一个用户画像项目。这里面真的有很多“坑”。你肯定很想问,不就是用户画像吗?会这么讨厌吗?现在做这个项目可能要拆分成几个问题。什么是用户画像?用户画像,又称人群

本文最后更新时间:  2023-03-19 22:35:55

最近,我开始了一个用户画像项目。这里面真的有很多“坑”。你肯定很想问,不就是用户画像吗?会这么讨厌吗?现在做这个项目可能要拆分成几个问题。

什么是用户画像?

用户画像,又称人群画像,是基于用户的人口统计信息(自身属性)、社交关系、偏好和消费行为的抽象标签化画像。

如何制作用户画像

构建用户画像的核心工作是给用户贴标签。

什么是“标签”?

对特定群体或物体的特征的抽象分类或概括。那么你可能会得到这样一张图片:

“标签”是根据用户的行为数据直接获取的,其中一部分是通过一系列算法或规则挖掘获得的。得到的数据很好理解,比如用户在网站或app上主动填写上传的数据。一些严格的平台(如电商平台)会要求用户上传身份证、学生证、驾驶证、银行卡等。,所以这样的数据准确率更高。

所以,毫无疑问,阿里、JD.COM、腾讯在用户基础数据的准确性上打败了百度好几个街区(有唯一的用户识别账号,比如你的微信号号、淘宝账号、JD.COM账号)。

关于标签准确性,你会想到几个公司?没错,中国移动、中国联通、中国电信的标签系统本来就准确,而且准确得可怕。

为什么这么说?首先,申请一个手机号。你的所有信息几乎都被记录了,比如性别、年龄、居住地等用户基本信息。这时候你会想是不是只有这些东西会被记录下来。那你真的想多了,因为你用什么上网?流动。“流量”基本可以记录你用了什么app,访问了什么页面,每秒浏览了多长时间……。

当然,这些信息不算什么。最妙的是,只要带上手机,手机卡大约等于一个GPS。你住过的什么咖啡店,什么酒店都会有标注。未来5G出来的时候通信基站的定位精度应该在5m以内(这个时候可以了解一下基站和通信原理)。(不敢做多)

为什么被人像标签系统炸了?

根据这里的处理过程和获取标签的方式,标签分为三种:事实标签、模型标签和预测标签。不同类别有不同的处理方式。看下图:

事实标签:直接从原始数据中提取,如性别、年龄、常住户口、上网时间等。

模型标签:注意这里的模型不是指机器学习模型,而是类似于类别偏好、RFM模型之类的。

预测标记:预测标记有时与事实标记结合使用。例如,用户不会注册性别消息(无实名注册系统),或者他填写了虚假的性别。这时候我们就可以通过聚类分析和相似度计算,看看和这个用户相似的一些人(这群人已经知道性别)的行为,根据这些不同的规则来判断和标记这个人的性别。

通过算法和数据挖掘得到的预测标签也可以这样理解:比如一个用户最近开始购买母婴用品(比如新宝宝的一段奶粉和纸尿裤),可以根据用户购买的频率和数量,结合用户的年龄和性别,推断是否是新妈妈/爸爸。其实就是通过用户行为建立特征工程,然后进行预测。

这很容易理解,但实际上,这些任务是最耗时耗力的。有时候因为一个逻辑错误,可能需要重新计算ETL脚本作业,不断推翻重新开始,不断踩坑爬坑。然而,这是一项非常重要的任务。无论是下面的精准营销,还是个性化推荐,第一步都是要有一个完整精准的用户画像标注体系。最后,与业务线核对,调整现有的贴标体系,形成一个完善的闭环。

最后,Python无法解决上述工作。当我们真正做一些可视化的用户画像,或者建立相关的机器学习算法模型的时候,就需要使用各种计算好的标签表,开发相应的Python脚本,然后部署到线上。所以,要说一个好的分析师或者算法工程师,绝不是“[S2/]数据科学,而是你连HQL ”都不会。

总结:本文只是个人项目工作学习的一个思考过程,会有一些问题。希望大家多多指教,多多讨论。也希望大家每次都能脚踏实地,做好你们眼中的基础工作。如果你把你的分析定位为分子,那么你就是分子。如果你明白你的分析是为什么,那么你就是一个分析师,一个不可或缺的分析师。

温馨提示:内容均由网友自行发布提供,仅用于学习交流,如有版权问题,请联系我们。