用户模型和用户画像的区别 附用户画像定义及作用

用户画像的意义“人物角色”的概念最早是由交互设计之父艾兰·库伯提出的:“人物角色是目标用户的具体表征。”它是指真实用户的虚拟表示,是基于一系列属性数据的目标用户模

本文最后更新时间:  2023-02-26 23:36:25

用户画像的意义

“人物角色”的概念最早是由交互设计之父艾兰·库伯提出的:“人物角色是目标用户的具体表征。”它是指真实用户的虚拟表示,是基于一系列属性数据的目标用户模型。随着互联网的发展,我们现在所说的用户画像包含了新的内涵——通常情况下,用户画像是根据用户的人口统计特征、在线浏览内容、在线社交活动和消费行为抽象出来的标签化用户模型。构建用户画像的核心工作主要是对存储在服务器上的海量日志和数据库中的大量数据进行分析和挖掘,给用户贴上“标签”,“标签”是能够代表用户某一维特征的标记。具体的标签形式,请参考下图某网站给其中一个用户的标签。

用户画像的作用

提取用户画像需要花费大量的时间和人力,需要处理海量日志。尽管成本如此之高,大多数公司还是希望为自己的用户做一个足够精准的用户画像。

那么用户画像的作用是什么,能帮助我们达到什么目标呢?

一般可以概括为以下几个方面:

精准营销:精准直邮、短信、App消息推送、个性化广告等。用户研究:指导产品优化,甚至做到产品功能的私人定制等。个性服务:个性化推荐、个性化搜索等。业务决策:排名统计、地域分析、行业趋势、竞品分析等。

用户画像的内容

用户画像的内容并不是完全固定的,根据不同的行业和产品,用户关注的特点也是不同的。对于大多数互联网公司来说,用户画像包含了人口统计属性和行为特征。人口属性主要指用户的年龄、性别、所在省市、受教育程度、婚姻状况、生育状况、用户工作的行业和职业等。行为主要包括活跃度、忠诚度等指标。

除了上述一般特征,不同类型的网站提取用户画像的侧重点也不同。

基于内容的媒体或阅读网站,以及搜索引擎或通用导航网站,往往会提取用户在浏览内容时的兴趣特征,如体育、娱乐、美食、理财、旅游、房产、汽车等。

社交网站的用户画像也会提取用户的社交网络,从中可以发现关系密切的用户群体,以及在社区中扮演意见领袖角色的明星节点。

电商网站的用户画像一般提取用户网购兴趣、消费能力等指标。网购兴趣主要是指用户在网购中的品类偏好,如服装、箱包、家居、母婴、洗护、饮食等。

消费能力是指用户的购买力。如果做得足够细致,可以在每个品类中区分用户的实际消费水平和心理消费水平,分别建立特征纬度。

此外,还可以添加用户的环境属性,比如当前时间、游览地的LBS特征、当地天气、节假日等等。

当然,对于一个具体的网站或App来说,肯定有特别关注的用户纬度,所以需要把这些维度做得更细,从而为用户提供更精准的个性化服务和内容。

制作用户画像

特征提取是用户画像的制作过程,大致可以分为以下几个步骤:

用户建模,指确定提取的用户特征维度,和需要使用到的数据源。数据收集,通过数据收集工具,如Flume或自己写的脚本程序,把需要使用的数据统一存放到Hadoop集群。数据清理,数据清理的过程通常位于Hadoop集群,也有可能与数据收集同时进行,这一步的主要工作,是把收集到各种来源、杂乱无章的数据进行字段提取,得到关注的目标特征。模型训练,有些特征可能无法直接从数据清理得到,比如用户感兴趣的内容或用户的消费水平,那么可以通过收集到的已知特征进行学习和预测。属性预测,利用训练得到的模型和用户的已知特征,预测用户的未知特征。数据合并,把用户通过各种数据源提取的特征进行合并,并给出一定的可信度。数据分发,对于合并后的结果数据,分发到精准营销、个性化推荐、CRM等各个平台,提供数据支持。

以用户的性别为例,详细介绍了特征提取的过程:

1.提取用户自己填写的数据,比如注册或活动时填写的性别数据。这些数据的准确性一般都很高。

提取用户的称谓,如文本中有提到的对方称呼,例如:xxx先生/女士,这个数据也比较准。根据用户姓名预测用户性别,这是一个二分类问题,可以提取用户的名字部分(百家姓与性别没有相关性),然后用朴素贝叶斯分类器训练一个分类器。过程中遇到了生僻字问题,比如“甄嬛”的“嬛”,由于在名字中出现的少,因此分类器无法进行正确分类。考虑到汉字都是由偏旁部首组成,且偏旁部首也常常具有特殊含义(很多与性别具有相关性,比如草字头倾向女性,金字旁倾向男性),我们利用五笔输入法分解单字,再把名字本身和五笔打法的字母一起放到LR分类器进行训练。比如,“嬛”字的打法:『 女V+罒L+一G+衣E = VLGE 』,这里的女字旁就很有女性倾向。另外还有一些特征可以利用,比如用户访问过的网站,经常访问一些美妆或女性服饰类网站,是女性的可能性就高;访问体育军事类网站,是男性的可能性就高。还有用户上网的时间段,经常深夜上网的用户男性的可能性就高。把这些特征加入到LR分类器进行训练,也能提高一定的数据覆盖率。

数据管理系统

用户画像涉及大量的数据处理和特征提取,往往需要多个数据源,很多人并行处理数据和生成特征。因此,需要一个数据管理系统来统一存储和分发数据。我们的系统以约定的目录结构组织数据。基本目录级别是:/user _ tag/attribute/date/source _ author/。以性别特征为例,开发者dev1从用户姓名中提取的性别数据的存储路径为/user _ tag/gender/2017 01 01/name _ de v1,开发者dev2从用户填写的数据中提取的性别数据的存储路径为/user _ tag/gender/2017 01 02/raw _ de v2。

每个来源提取的数据可信度不同,所以每个来源提取的数据必须赋予一定的权重,约定一般是0到1之间的概率值。这样,系统自动合并数据时,只需要做简单的加权求和,并归一化到聚类中,存储在预先定义的Hive表中。下一步是将数据逐步更新到更多的应用服务集群,如HBase、ES和Spark集群。

* *应用示例:个性化推荐

**

以某电商网站页面的个性化推荐为例,考虑到模型的可解释性、可扩展性和计算性能,很多在线推荐系统都是用LR (logistic regression)模型进行训练的,这里我们也以LR模型为例。很多推荐场景会用到基于商品的协同过滤,基于商品的协同过滤的核心是一个商品相关矩阵W,假设有n个商品,那么W就是一个n ^ n矩阵,矩阵的元素wij代表商品Ii和ij之间的相关系数。根据用户访问和购买商品的行为特征,可以将用户表示为一个N维特征向量U=[ i1,i2,…,在]中.UW则可以视为用户对每件商品的兴趣V=[ v1,v2,…,vn],其中v1是用户对商品I1的兴趣度,v1= i1w11+i2w12+in*w1n。如果相关系数w11、w12、…将W1n作为所需变量,然后将LR模型代入训练集用户的行为向量U中求解。这样一个初步的LR模型已经训练好了,效果类似于基于商品的协同过滤。

此时只使用了用户的行为特征,而没有使用人口统计属性、网购偏好、内容偏好、消费能力、环境特征等其他上下文。在LR模型中加入上述特征,同时加入目标商品本身的属性,如文字标签、品类、销量等数据,如下图所示,进一步优化和训练原有的LR模型。因此,可以最大程度地利用提取的用户画像数据,实现更准确的个性化推荐。

评论

用户画像是大数据领域的典型应用,在网易互联网众多产品中也有广泛应用。本文结合网易的实践,深入浅出地分析了用户画像的原理和制作流程。

准确的用户画像依赖于从大量数据中提取正确的特征,这需要强大的数据管理系统作为支撑。网易猛犸,网易大数据产品体系中包含的一站式大数据开发管理平台,是在网易内部实践中打磨成型的。可以为用户画像和后续业务目标提供数据传输、计算、工作流调度等基础能力,有效降低大数据应用的技术门槛。

温馨提示:内容均由网友自行发布提供,仅用于学习交流,如有版权问题,请联系我们。