这个世界正在变得信息化,数据越来越多,越来越多的产品基于数据开发。通用数据产品包括以下典型流程:1.数据采集2.数据变换3.数据应用根据上面的数据流程,产品经理的工作主要包
这个世界正在变得信息化,数据越来越多,越来越多的产品基于数据开发。
通用数据产品包括以下典型流程:
1.数据采集
2.数据变换
3.数据应用
根据上面的数据流程,产品经理的工作主要包括三类工作,不同的数据PM工作偏向不同(以下分类不严格划分)。
一、数据采集和清理
做数据产品,首先要有数据和数据源。大概有两种方式:别人给的,自己找。
当然是给别人,但是要么你要付费,要么会有使用限制。其他人提供的数据质量也可能是一个问题,乱码和遗漏字段是常见的现象。
自己找会比较麻烦。自己的系统,可以加码埋单的产品,地图都需要定期更新。如果数据不在你的控制范围内,那就看看是否能被爬虫爬上来(爬虫帮你实现大数据的梦想)。基于爬虫的数据分析产品有很多,比如用户分析、舆情分析、价格分析、量化投资等。
在数据采集和清理过程中,数据PM需要:
1。将解释业务需求。
最终会转化为不同的数据需求。数据PM首先要确定如何获取这些数据,确定最终的方案。
2。特别注意数据质量和数据稳定性。
如果上游的数据质量差,下游的每一个环节都会浪费大量的时间去处理。可以检查和比较数据的质量,还可以监控数据的稳定性。数据的上游,要有怀疑数据质量的勇气,这是最容易出问题的。在这里,各种采样、枚举、比较和假设,各种SQL、ES和Hive查询,都擅长于数据的各种图表分析。比用户更早发现问题,比工程师更快检查问题原因。
3。评估数据的成本和收益。
数据是有成本的。数量越大,质量越高,成本也越高。因此,应合理设计数据采集策略:
Go接口,FTP,或者硬盘邮件;
数据更新的频率、是否进行了重复数据消除,以及如何进行重复数据消除;
热数据如何存储,存储多长时间,冷数据如何存储;
虽然都说数据越全,数据质量越好,但是一分钱一分货,最终的数据获取和清洗方案需要综合考虑成本、收益、开发难度、开发进度(似乎每个产品都是如此,不仅仅是数据产品@ @)。
我们经常需要谈数据合作,找数据打破头;
经常需要读取API文档,接口检查字段;
经常要和别人撕,别人的东西总是容易出问题。
二。数据转换和数据服务
基础数据已经有了,是时候大干一场了。数据转换的环节,用高端的话来说就是ETL。我简单的理解是:拿到基础数据后,根据不同的业务需求做数据清洗,然后将数据导入到各种数据转换或计算模型中,为进一步的下游应用提供数据服务。
这里的模型不一定是用户画像和推荐,也可以是基本的筛选、排序、匹配和简单的逻辑计算。
为了让应用层得到更高质量的数据,减少应用层的计算量,这一层有很多小的计算模块,经常做服务分层,分为基础数据服务层(弱业务关联层)和强业务关联层。
数据转换层可以对外提供商业计算和存储服务,也可以直接实现数据,比如ID匹配或者直接出售数据。
在数据转换的过程中,数据PM需要与架构师(或工程师)进行深入的沟通。数据PM的职责包括:
1。你需要了解很多关于数据存储和计算的知识
MySQL、Hadoop、HBase、Spark、Redis、Kafka & # 8230很多不需要了解的很透彻,但至少要了解它们的作用、特点和区别,这样才能更好的和工程师沟通,更好的参与方案设计。
2。全球设计能力
PM更懂业务,工程师更懂技术,他们合作完成数据处理流程的设计或优化。但是大公司可能分很多层,基础服务层,可能不需要PM,所以PM可以要。这部分比较虚,没什么经验就做不了。做久了,思考深了,慢慢就学会了(其实这一层和应用层有很大关系)。
3。成本效益评估、数据质量、服务稳定性
数据转换层会消耗更多的计算资源,这里通常会有一个巨大的集群。所以这里一个好的设计可以节省很多资源,同时也需要评估成本和收益,勇于拒绝应用层异想天开的要求。
这一块的数据质量和服务稳定性同等重要。我们要操心数据供应,也要对下游的数据应用负责。三明治的感觉很容易让人觉得出问题了!
数据转换层需要更强的逻辑分析能力。业务端反应的问题,很可能是自身的问题,或者是上游数据供应的问题。当然,更有可能是漫长的数据转换过程,某些环节出了问题。这个级别除了要能查询各种SQL、ES、Hive之外,还需要精通Excel或SPSS,需要熟练使用业务端产品(故障重现很重要)。您还需要监控业务级指标并发出警报。最重要的是,你需要提前想好各种情况下的应急预案,无论是难以提供服务、不利服务还是人工支持。
三。数据应用和数据表示
应用层,各个公司的数据应用层非常丰富多彩,有流量分析、广告分析、用户分析、销售分析、财务分析、传播分析、ERP & # 8230(嗯,这只狗只知道有限的数量)。而我们狗认为,用户画像、反作弊、广告策略、推荐、NLP等模型或策略产品都算是数据PM,比如BI产品、各种业务的指标维度、可视化展示(业务有多丰富,BI系统有多大),都应该归为商业(数据分析)产品。这种PM工作与具体业务绑定严重,往往有很多定制的功能。
这个环节的数据PM,能力偏差如下:
1。数学知识和数据分析能力
理解算法、建模和调整参数是必不可少的。贝叶斯、隐马、协同过滤……拿起矩阵论、数理统计的课本,拿出机器学习、人工智能的经典,亲自卷起R、python、java,准备一大叠白纸推公式…
但是大公司会有专门的算法工程师,所以PM可以理解。分析数据的能力也是必须的,这里更需要解读数据,尤其是异常数据。
2。对业务的深刻理解
用户画像、反作弊、广告策略、推荐和NLP都与商业密切相关。比如广告,打车都有反作弊。这些应用更接近于钱,指标的一点点提升就能带来一大笔钱。
产品和商业产品、消费产品有很大的区别,每天都要和数据打交道,所以我们需要深入了解各种数据分析方法、数据存储和计算。PM也需要对业务有深入的了解,否则就会成为数据分析师或者数据科学家。
我经常有这样的感觉:为什么数据质量这么差!前面的人打扫了吗?尼玛怎么洗完还这么烂…