利澳彩票app

当前位置 > 首页 > 案例分析 > 淘宝电商数据分析:1套真实+完整的案例分析流程

淘宝电商数据分析:1套真实+完整的案例分析流程

来源:利澳彩票app下载行业网 | 时间:2020-06-17 | 作者:数据委

该数据分析借鉴的的背景数据来源于天池数据集,为2012年7月2日至2015年2月5日发生在淘宝天猫交易平台关于婴幼儿商品的交易数据。其中包括两个表格,截图如下:

 

 

 

涵括的字段有用户ID,交易编号,商品种类ID,商品类别,购买数量,购买日期,以及用户人为提供的个人信息如婴儿出生日期以及性别。字段含义解读如下:

 

  • 用户ID:以电商行业的购买数据为例,用户ID是电商平台识别该购买者的唯一信息。从用户ID可以得到其他信息包括注册信息,购物历史记录,购物喜好等。

 

  • 购买行为编号:我理解为交易号,通过这个号码可以查询到购买的具体事物,数量,购买行为产生日期,购买者或者需求者的位置。

 

  • 商品种类ID:该电商平台继而又把每个类别下的产品细分了种类,即被购买产品属于该电商平台规定的某个类别的某个种类下面,并赋予每个种类一个。

 

  • 商品类别:该电商平台把产品分成了很多个种类。

 

  • 商品属性:即产品的详细情况。

 

  • 购买数量和购买时间即是字面意思。

 

  • 出生日期:记录的是该用户注册时填写的自己或者需求者的婴儿的出生日期。

 

  • 性别:即字面意思

 

 

分析目的

该分析旨在通过以往的数据总结以前的销售表现,找出需要改变及改善的地方,针对性采取有效措施以达到提升营业额的效果。

 

?

提出问题

  • 2015年的销售下跌
  • 第三,四季度销量上涨的原因
  • 性别对销量的影响
  • 年龄与销量的关系

 

分析思路

 

 

?

分析问题

由于整个分析过程都涉及到销量,所以在开始分析之前首先对购买量进行数据清洗。筛选购买量这一列可以发现,数据区间跨度非常大,对其作描述性统计发现,购买量的平均值不到3,标准差为65左右。

 

剔除与平均值的偏差超过三倍标准差的高度异常值,即大于199.64的数值都需要剔除。因为商品的单位不可能为小数,所以实际应剔除大于199的值。

 

  1. 2015年的销量下跌

分析流程是这样的:

 

 

对购买量进行多维度拆解:购买量=新用户购买量+老用户购买量

 

新用户为首次出现,以前没有过购买行为的用户id,老用户为以前有过购买行为(重复的)的用户id。

通过查找重复值得知老用户为27个,占比为27/28396=0.93%,不到1%。换句话说,总购买量几乎全是由占比大于99%的新用户造成的,因此在这里我们忽略老用户的购买量。而且,从以往的销量折线图可以看出,2015年数据下跌是因为数据集里关于这一年的数据不全,只有1月和2月的数据。

假设在这一年里头两个月销量下跌,找出2015年的销售数据,同比历年的数据,来判断是否假设是对的。

 

 

由于2012年缺乏上半年的数据,因此我们只能对比2013,2014和2015年销量。从图中可以看出,2015年1月销量大幅高于2013和2014年,2月销量低于前两年,但总和并不少于前两年。所以依据当前的数据不能证明2015年销量下跌,假设不成立。

 

 

  1. 第三,四季度销量上涨的原因

分析流程如下:

 

假设下半年销量上涨是因为所有类别销量上涨。我们提取各个季度各商品类别的销量数据,得到下图。

 

 

从上图可以看出,第一二季度销量基本持平,第三季度的销量主要是由类别5008168,和28带来的,其他类别没有明显变化。第四季度销量主要是由类别50014815,28带来的,其他类别差别不大。所以可以说季度销量的上升是由于某个季度某些商品类别的销量上涨导致的。

 

再来深究为什么第三季度和第四季度的销量主要贡献者类别5008168和50014815会在下半年出现大幅度增长。
???

首先从类别5008168开始。搜集第三季度销量数据可以得到下图。

 

 

从图中可以看到,7-9月期间大部分时间销量都是比较平稳,唯独9月20日这天该产品的销量达到了2815。进一步搜集数据发现,是因为在2014年该产品的销量远远大于2012和2013年。

 

 

找出2014年9月该产品的销售数据,得到如下图。

 

 

上图告诉我们,在2014年9月20号当天,508168的销量达到了2779。

 

由于当年当月的节日如中秋节在9月8号,教师节在9月10号,产生热销的原因没办法证实。但可以揣测是因为商家对该类产品做了促销活动导致的销量上涨,从而导致第三季度销量上升。

再来看类别50014815。

 

 

它在第四季度的11月份有一个显著的增长高峰。

 

 

 

 

数据告诉我们,它的增长主要来源于2014年11月13日的销量高峰,达到10029. 下面是该产品历年的11月销量图。

 

 

 

 

上面三个图我们可以看出,历年来11月的销售高峰并没有出现在双十一当天,而是2012年的11月10号,2013年的11月30号,2014年的11月13号。虽然2013年双十一那天出现了销量小高峰,但影响效果并不大。在其他日子出现销量大幅上涨,猜测是由于商家进行了其他促销活动,但缺乏数据支撑。

 

 

  1. 性别对销量的影响

分析流程如下:

 

 

表1用If函数计算出成交单量,对表2用vlookup函数关联表1的购买日期,购买数量,商品大类,成交单量。清洗数据集并统计有效数据后发现用户里有406个女童,444个男童。所以男童用户比女童用户多。

 

 

从上图得知,男女的购买比例为62%:38%

显然男女用户的比例不足以造成如此悬殊的销量比例。

将购买量多维度拆解,可以得到:总购买量=成交单量*每单购买量

假设是因为男童的成交单量造成的。

 

 

男女用户比例跟成交单量比例是一样的,所以男童的购买量大于女童购买量可以说完全是因为男童的每单购买量大于女童的每单购买量导致的。

那又是什么年龄段的男童的每单购买量比较大呢?

 

 

 

可以看出,5岁以后的男童基本不再产生购买行为。主要买家为1岁以前的男童家长。

?

  1. 年龄与销量的关系

购买量=各个商品类别的购买量之和

 

由上图可以看出,所有的类别的购买量随着年龄的增加都在下降。类别50022520从一开始就一直在下降,剩下的其他产品类别的趋势是先上升,幅度或大或小,然后再都下降。仔细看来,类别,50014815,50008168和28的销量高峰都产生在年龄为0岁,类别122650008和38的销量高峰产生在年龄为1岁的时候。

 

因此可以说1岁以后所有类别销量都在下降,可以猜测这些商品类别应该是适用低龄幼儿的产品。但不同年龄的销量高峰对应的产品类别不同,又说明这些产品的受众不同,应该采取分年龄营销策略。

 

?

结论

  1. 依照现有数据2015年1,2月的销量相比往年没有下跌,反而比往年这两个月销量总和多。
  2. 第三,四季度的销量相比于第一,二季度上升是因为个别商品类别购买量上涨导致,第三季度的增长主要是由类别5008168带来的,第四季度销量主要是由类别50014815带来的。而5008168的增长是由于在2014年9月20号当天,该类别的销量达到了2779;50014815的增长是因为2014年11月13日的销量高峰达到了10029,两者都发生在2014年。双十一购物节确实对刺激某些商品类别的销量有积极影响,但影响力度有限,有时候不及其他促销活动有效果。
    3.?在销量上,男童大于女童,原因是男童用户的每单购买量大于女童用户的每单购买量。5岁以后的男童基本不再产生购买行为,主要买家为1岁以前的男童家长。
  3. 对于1岁以上用户,所有产品的吸引力都在下降。但每个品类最大受众的年龄段不同,主要集中在0岁和1岁婴幼儿。

 

 

建议

  • 优化影响单量的各个因素,如可以从产品,客户服务,退货款政策,广告等方面着手,在2014年的基础上进一步壮大用户基数,提高留存与复购率
  • 在下半年将不畅销产品类别与畅销品类捆绑销售,或者做加购活动,以带动整体销量
  • 调整产品范围,缩减适用于5岁后孩子的产品,集中供应这个年龄前的婴幼儿产品。尤其是要丰富1岁前孩子适用的婴幼儿产品,特别是男童,给顾客创造更多消费的机会。
  • 升级改善1岁到5岁孩子适用的产品,可以从提升质量,捆绑营销,买赠等方面刺激销量。
  • 采取分年龄营销策略,让每个品类精准辐射到对应的人群。