你真的懂数据分析吗？4个方面深入了解数据分析

“大数据”、“数据驱动”这些词汇，对沉浮在互联网的厂工们来说并不陌生，隔着屏幕，一边在源源不断地生产数据，一边在紧锣密鼓地收集解读数据。这些数据是奇妙的，它可以让人更加直观、清晰地认识世界，也可以指导人更加理智地做出决策。

数据分析目的有俩：

挖掘问题，定位原因，对症下药验证假设，提供必要的数据支持

不能为了做数据分析而做，这是互联网小白甚至是白银段位产品汪也会犯的错误，你可能听到过这样的对话：

产品汪：“我们想看看跟贴用户里有多少是高活用户？”

几招过后，不想拉扯的数据分析师灵魂一问，“就先假设一个数，占比60%，你下一步的策略是什么？”

产品汪束手不及，瞪圆无辜的大眼，哑语。

此次谈判失败。

如果你只是想要一个值（日常指标监控不算在内），可以先假定，然后看看自己是否有进一步解决问题的思路，如果没有，说明这个问题你还没有想清楚，就不必大费周章做数据分析了，请给数据分析师减负。

数据流转/分析流程：

一、指标&指标体系

“好数据胜过大数据”，不要用装满数字的高压水枪把团队冲垮，那什么是好数据？

9个字简单概括：比率、比较性、简单易懂。

比率：避免“抛开剂量谈毒性是耍流氓”的情况，在有一定统计学意义的统计量上看转化率，如看页面转化率比单纯看页面访问PV更有意义；看点击率比单纯看文章推荐量更有意义；比较性：数据可以横向、纵向、环比等，能比较的数据才有意义；简单易懂：如字。

不同的商业模式有不同的数据指标，热门的模式大致可以分为以下几类：

电子商务，如亚马逊、淘宝；移动应用，如王者荣耀，今日头条；媒体网站，如腾讯新闻网页版。

移动应用以新闻资讯app为例（如今日头条、网易新闻、腾讯视频等），简单阐述其指标体系。

宏观指标（水池理论）

我们把活跃用户当做一个活跃的蓄水池，每天每月有新的水进来（水的来源和水质都不同，有付费发行、免费发行、回流等），也有部分水流出（流失率），没有流出的水暂时停留在水池里，这一出一进维持着蓄水池的水量，也就是我们常提到的DAU/WAU/MAU。

流入>流出，看涨；流入<流出，看跌，道理浅显易懂。

产品发展期间，增长负责人也许会有担忧（特别是创业团队）：“新增能够抵过流失吗？”

我们用水池理论来做一道数学题，已知数据：现存量用户500w，月平均上线率60%，月回流8%，月流失率20%，日活目标增率6%，即6个月后的日活目标是709w，请计算这半年每日发行量需达到多少？

（备注：以上数据仅作理论说明，不做实际参考）

1月月发行=预期增长+本月流失-本月回流=500/60%*6%+500/60%*20%-500/60%*8%=150(w)

1月日发行=月发行/30=150/30=5(w)

假设发行投入稳定（即日发行相同，发行增率为0），如果日活要达到709w，那月回流率或月平均上线率要提高多少或者月流失率要降低多少？假设月流失率和月平均上线率均降低1%时，发行需要多提高多少才能维持目标？

日常数学题，以此类推。这是一种理想状态下的数据预估，实际情况要复杂得多，例如还包括活动营销、版本迭代的影响等。但对这些数据了然于心才能避免瞎子打靶的盲目行动。

几个指标之间的关系你应该了解，例如：

月发行=月流失+月期望增加-月回流月流失=上月月活*本月月流失率月期望增加=上月月活*（1+增长率）回流率=回流的流失用户/日活用户月平均上线率=（上线1天的人数*1+上线2天的人数*2+…上线30天的人数*30）/（30日独立用户*30）其他

微观指标：

二、数据分析

基于了解了以上指标体系，怎么做数据分析？

了解现状关注趋势目标驱动

数据分析大致分为两类。一种是后验分析：无非是某个指标涨了/跌了，“某个指标”可以代入日活、留存率、流失率等。

原因分析两条路走：内部因素和外部因素，内部因素可能是版本迭代导致的功能缺失不可用、体验变差、统计错误或者推荐策略修改等等；

外部因素区分突发短暂的因素和长期潜移默化的因素，前者如突发新闻、节假日、发行改变、特别习俗等，后者可能是设备、网络、国家政策、头部网站的变化等等。

关注关键时间点，用排除法从广到窄层层收网找出差异点，提出大概率事件的假设。

另一种是先验分析，如拟降低无点击用户占比，分析无点击用户的行为特征和兴趣标签，这类分析根据不同业务有不同的侧重点。

数据分析过程强调1个思维2个指标（敲黑板，划重点了）。

1. 漏斗分析思维

漏斗思维在日常工作中很常见，运用漏斗分析的思维，便于环环监控，查漏补缺，对症下药。日常流量漏斗应用广：

推荐召回排序漏斗：

（以上数据仅做模型示意，不做实际参考）

打车软件漏斗模型：

移动页面营销流量漏斗：

（以上数据仅做模型示意，不做实际参考）

以H5营销活动为例，以下是漏斗中各环节指标，逐级递减。

曝光：评估触达多少用户；曝光点击率：评估物料优质程度；成功加载率：loading环节会损失多少用户，判断是否存在性能问题；各页面/按钮参与率：评估各互动环节设计是否合理，UI是否清晰明了等；病毒传播系数：自传播的可能性，综合评估获客成本。

根据不同业务需求，以上指标还能细拆，如总访问中关注不同渠道的流量，如区分微信、微博、端内流量，方便评估渠道质量，按需投放。

2. 北斗星指标

即“在任何时候抬起头看，他都在你前进的道路上”。北斗星指标是让团队聚力，少走弯路的一个指导性指标（也是KPI完成度的依据），正因如此，制定一个正确的北斗星指标非常关键，因为他回答了现阶段最重要的问题。

如某服务供应商，有一个指标高于其他指标：净增加，这个指标有助于快速发现退订量高的日子并寻找问题；餐饮业关注前一天人工成本占毛收入的比例，为了得要一个优秀的数值，你不得不推进人均消费和人力成本。

产品发展的不同阶段会有不同北斗指标，但每个阶段关注一个北斗指标即可，不贪多。

3. 虚拟指标

虚拟1：注重PV、UV等“量级”类的指标，忽略转化率。

某图片网站的日均访问人数访问次数过百万，但同时跳出率也高达75%，实际留下消费的用户寥寥无几。

某新闻app某频道日均访问十几万，无刷新无点击用户占比85%，实际有消费的用户仅有几万。

这种注意力转移时常会变成写汇报的“故意”技巧，“转化不好量级来凑”。制定正确的数据指标，避开虚荣指标，数据指标之间的耦合现象也值得注意，例如转化率和购买所需时间，病毒传播系数和病毒传播周期。

虚拟2：相对值和绝对值，只选其一。

新上架的某工具类app，DAU增长500%，实质原始基数只有20人，增长500%即增长至120人

相对值和绝对值，避重就轻就是耍流氓。

虚拟3：关注某指标下的全量用户，忽略真实有意义的用户行为。

某买卖二手书app一开始关注每月卖家人数、上传商品数量、卖家人均上传商品数量，数据很漂亮；若以月为单位关注一个月内有活跃的商家、一周内有搜索曝光次数大于3次的商品数量，就会发现趋势并不乐观。

“有效行为”可能含义丰富，需要寻找有意义的用户行为模式和机遇，虚拟数据的噪音会掩盖原本你应该要面对和解决的问题。

除了1个思维2个指标，了解数据瓶颈（也称“天花板”）和同行大盘，能让你把精力和财力花在刀刃上。如，某CEO对8%的流失率心烦意乱，和同行沟通后发现8%已经是一个较低值，他便改变了关注点，“流失率维持即可，精力放在其他指标”。

三、数据采集

常见的数据采集有以下四个渠道：

行为数据（埋点）流量数据（JS采集或第三方，如Google Analytics、百度统计）业务数据（运营后台）外部数据（第三方或爬虫）

to C的产品如腾讯新闻，产品汪最常接触的是行为埋点数据，埋点展开说是长篇幅的技术统计学（详见下一篇推送）；品牌推广、H5营销PR常关注流量数据；关注订单成交的运营喵日常跑后台数据；竞品分析外部数据爬起来。

四、数据清洗

数据清洗根据不同的业务场景有不同的标准，主要是一些空值、异常值的处理，使数据得出的结论可靠可信。

栗子1：取非0数据时要排除。

…… where click !=0 or click not or ……

栗子2：统计时长（duration）相关行为时，过高或过低的时长为异常值，假定>=10 ms 和 <=10000000 ms 的阅读行为有效行为。

select date, itemid, count(itemid) as rec, sum(isexposure) as exposure, sum(case when duration>=10 and duration<10000000 then isread else 0 end) as click, sum(case when duration>=10 and duration<10000000 then duration else 0 end)/1000 as read_time from all_user_active_info ……

栗子3：记录用户点击历史时，排除停留时长<=1s的点击。

排除虚假点击，让记录的用户数据更贴近用户的真实意图，提高推荐策略的准确性。

其他

数据分析重在思维，可能有人会问“我需要学习获取数据、分析数据的工具技能吗”？

如果你在UC、腾讯这类大厂工作，一群兢兢业业的BI工程师会将苦涩难懂的数据可视化，你只要懂得提需求+善用“筛选”功能即可得到你想要的数据；

如果你在中小公司工作，Excel要玩得溜的同时，学点SQL和Python总没错，不然你可能会面临“取一个数据要排期一两周”的尴尬。

学习一些基础的工具技能，例如在Python尝试用pearsonr(x, y)分析各项指标的相关性，用SQL percentile(BIGINT col, p)引发对不同分位点的思考，对思维益处多多且效率提高不少（Skill：Excel->SQL->Python）。做一个数据驱动的产品汪，如获武林秘诀。

结语

Accenture的首席科学家肖尔·斯瓦米纳坦说：“科学是纯粹经验主义和不带偏见的，但是科学家不是。科学家是客观和机械的，但是科学家不是。科学是客观和机械的，但是它同样重视那些有创造力、直观思考、能够转变观念的科学家。”

注重数据善用数据的同时，避免唯数据论，毕竟它是验证直觉、提高效率少走弯路的手段而已。

在互联网+时代，“你的用户用每次点击、浏览、喜欢、分享和购买都会留下一条洒满数字面包屑的轨迹，这条轨迹从他们第一次听说你开始，到永远流失那天结束”。

突然觉得生活在这个时代从事着互联网工作（推荐产品+数据分析）很幸福，“熟悉的陌生人”的无声交流，让事情一点点变好，就暂且抛开数据泄露数据利用这种恼人的话题吧。

备注：部分引用来自[美]埃里克·莱斯编著的《精益数据分析》，进阶级的数据分析推荐阅读。

本文由 @张小喵Miu 原创发布于人人都是产品经理，未经作者许可，禁止转载。

题图来自Unsplash，基于CC0协议。