热搜:
无论是产品还是运营,都离不开去用数据分析、解决异常问题。但是,在我们找到数据后,数据并不会直接告诉我们答案,我们需要做的就是把问题转译成维度和指标,然后提取数据,之后才是分析、解决问题。

数据分析是产品、市场、运营等岗位的基本技能,越来越多的招聘要求中,将数据分析视作基本要求。当然,大部分情况下,业务需要的数据分析是非常基础的,只需用Excel做基本的统计计算,无须像专业的数据分析师,手握SQL和R,运用回归、分类树等算法,输出高精尖的报告。

从业务场景出发,数据分析是问题驱动的。也就是说,每一次启动数据分析,本质是发现问题、翻译问题、归因问题和解决问题。

基于数据,发现问题是数据分析的第一步。问题之所以被称为问题,是因为数据表现不符合“常理”或逻辑,正所谓“事出反常必有妖”。

01 发现问题:异常与锚点

大学时上普通心理学课程,讲到精神障碍一章定义“正常行为”时,老师课上讨论过“正常”的定义——是取平均值,还是取众数,还是取中位数?

数据分析中也是如此,“常”是什么?

“常”可以是时序中的历史数据。比如App的日活用户数(DAU),我们要判断它是否正常,通常需要参考T-1、T-7、T-30的DAU,计算环比增幅(降幅)。

“常”也可以是竞品或者行业均值的指标表现。例如,微信公众号头条文章的粉丝打开率为5%(一个虚拟的数字不具备实际参考意义,即100个公众号粉丝,平均5个会打开公众号推送的头条文章)。如果你的公众号的粉丝打开率低于这个数值,那么就要反思,是否是头条文章的内容不够吸引人。

或许你也发现了,“正常”也好,“异常”也罢,都是基于比较产生的。增速“快”、渗透率“高”、客户数“少”,都是相对而言的。因此,基于数据定位问题的第一步,在于找到正确的锚点。

再看一个简单的例子,你就会明白选择正确的“锚点”对于定义问题是多么的至关重要,因为只有选对锚点才能发现真问题。

互联网广告有一个显著的特点,广告主特别是中小广告主倾向在周末减投或者停止投放,因此周末大盘的广告主数量都会比较少因此。如果是将周六在投的广告主数量与T-1(昨天,也就是周五)的投放广告主数量相比,在部分行业会出现“断崖式”的下跌。但是如果你去对比T-7(也就是上一个周六)在投广告主数量,你会发现数据并没有发生显著变化。

假设我们已经定义清楚了问题,那么接下来就是找到引起问题的因素,而这则需要数据指标按维度的拆解。

02 翻译问题:维度与指标

工作当中,无论是刚入职场的新手,还是已经在职场打磨十几年的老兵,面对数据分析时,最常犯的错误是混淆维度与指标。

维度是针对对象的描述性特征或者属性,比如城市的分级、性别、行业等;指标是用户衡量对象的单位或者方法。维度与指标一般成对出现,共同构成一组数据。

例如,我们要分析北京、上海、广州和深圳4个城市2019年的GDP,那么城市就是维度,GDP就是指标。

再举一个例子:最近疫情发展牵动着很多人的心,我每天早上醒来除了睁眼,第一件事情就是查看昨天全球新增患病人数,特别是每个国家的新增患病人数。在这里,维度就是国家/地区,指标就是昨日新增患病人数。

数据提取时,我们还需要定义的是“筛选条件”。严格意义上,它只是维度或者指标的二次使用,与维度、指标并不在同一个逻辑层面。

现实业务中,我们的数据表中存储着多个主体的多个指标数据,但是不是所有的维度和指标是需要我们关注的。因此,我们通常会通过维度或者指标,对将要提取的数据进行限制,避免数据量级过大,同时也避免我们的注意力分散。

还是以本次疫情中每个国家新患病人数为例。假设我只关心那些已经出现新冠肺炎病例的国家,因此筛选条件为截至到昨日,累计感染新冠肺炎病例数(指标)>0的国家和地区;那些还未出现感染患者的国家和地区暂时就不用考虑。

当然,如果只希望关注亚洲国家的疫情进展情况,那么在国家这个维度中,只需将国家限定为中国、日本、韩国、伊朗等亚洲国家。

在我们正式进入后面的内容之前,请记住:维度、指标与筛选条件,是我们进行数据分析的基石。

尽管我们每天都会遇到各种各样的数据分析需求,然而,数据本身是不会说话的,不会直接告诉你答案,你需要做的是把问题转译成维度和指标,然后提取数据,之后才是分析。

所以,收到数据分析的需求,不要急着写SQL或者打开Excel,先明确下问题是什么,以及希望达到什么样的目标。

怎么样才能准确翻译成维度和指标呢?不要着急,我们一步步来。

假设,某一天我们被问到这样一个问题:为什么2019年我们公司拳头产品——洗面奶的GMV下降了?

步骤1:明确分析的主体-限定筛选条件

公司的产品线非常丰富,从洗面奶、面膜、面霜、BB霜等,护肤类和彩妆类产品线基本都覆盖。

好了,现在很明确,我们需要分析的数据是洗面奶,其他的产品如面霜、口红等产品,暂时不需要我们操心。

聪明的你,肯定会记得,我们需要在筛选条件中,将产品种类这个维度限定为洗面奶。同时!!!时间维度限定为2019年,但是为了对比(参见上一篇),我们也需要提取2018年洗面奶的GMV数据。

步骤2:观察数值——明确指标

我们拿到的问题是:为什么2019年洗面奶的GMV下降了。

假设GMV在我们的业务范畴为复合型指标,也即是由2个基础指标计算而来的,比如我们规定GMV=销量*售价。

为了简化问题,我们假设2019年洗面奶售价与2018年持平。也也就是说,2019年相比2018年,GMV下降的本质是销量下滑。

步骤3:大胆建设提出原因——拆解维度

分析洗面奶销量下降的原因,本质上就是找到在哪个维度上下降。

洗面奶销量下降,我们猜测可能的原因有如下:

① 时间维度:2019年双11促销活动复杂,用户参与度低;

② 渠道维度:2019年小红书下架,导致洗面奶在小红书上的销量下降;

③ 消费者维度:2019年,30岁以下消费者购买洗面奶的人数减少;

……

  • 针对第一个猜想,我们只需按月(时间维度)提取2018-2019年24个月的销量数据,比对2019年双11与2018年双11期间的销量情况;
  • 针对第二个猜想,我们需要按照渠道(小红书、天猫、京东、唯品会、KA卖场等渠道维度)提取销量数据,分析小红书渠道的销量相对于2018年的增幅;
  • 针对第三个猜想,我们只需分析每一个年龄层级购买洗面奶的消费者数量即可。

03 归因问题:维度与溯源

可能你已经发现了:我们一般依赖指标的“异常”来定义问题,然后通过维度拆解指标来定位和归因问题。

还是以洗面奶销量下滑原因拆解为例。通过多个维度的拆解,我们发现洗面奶在小红书渠道销量下滑,是导致洗面奶销量下滑的“罪魁祸首”。

为了验证你的观点,你可能还需要在维度间交叉验证:如,洗面奶销量下滑的时间,是不是也刚好是小红书被下架的时间?

事实上,维度非常多,如果我们只是粗浅地观察数据趋势,有可能得出的结论与真相大相径庭。当然,我们经常遇到的另外一个问题则是:导致销量下滑的原因多种多样,多个维度都可以解释销量下滑,我们只需关注主要的维度即可;否认这如果我们不停地进行维度下钻,或者维度间的交叉分析,只会陷入“维度灾”。·

接下来就是怎么做,让数据指标恢复到“正常”——由上面的成因,导出你的执行策略。

04 解决问题:针对维度,影响指标

假设我们已经成功定位到问题了,即定位到维度了,接下来就是输出策略的时刻。

其实,这是一个需要case by case讨论的话题,毕竟业务场景不同、资源条件不同,方案也会不一样。

这里,只强调一点:你的方案,必须能强有力地影响指标。

咋看起来是废话,但是真实的工作中,你会发现很多方案与想要达成的目标经常南辕北辙。我们经常会忽视的一点是任何行为都会导致你可能意想不到的后果,感慨“原来这样也可以”:

一个经典的案例是考古学家期望收购更多龟壳以拯救甲骨文,结果发现很多人都把龟壳砸碎了来卖,因为是按块数付给他们费用,导致很多人把完整的龟壳敲成一块块的,以获取更高价值。

实际上,很多活动也是如此:一个明明以GMV为导向的活动,愣是把活动路径设计地非常长,造成用户跳转到其他频道流失。

好了,以上就是我的一些思考,我叫余子申,关注B端产品和营销,欢迎大家多多交流。