一. 提问问题和运用实体模型
1.此次分析的目的性是想根据对淘宝网用户个人行为开展数据信息分析,为下列问题给予表述和改进方案:
(1)分析用户应用APP全过程中的普遍电子商务分析指标值,明确各个阶段的流动率。
(2)运用假设检验观念分析外流缘故,寻找必须优化的阶段。
(3)科学研究用户在不一样时域和频域下的个人行为规律性,分析不一样限度下的转换率。
(4)寻找用户对不一样品种产品的喜好和对于差异产品的营销战略。
(5)将用户群依照价值区划,并应对不一样的用户群明确提出营销推广提议。
2.运用分析实体模型
(1)根据AARRR漏斗模型分析用户个人行为
文中根据常见的电商数据分析指标值,选用AARRR漏斗模型拆卸用户进到APP后的每一步个人行为。AARRR实体模型是依据用户应用商品全过程的差异时期开展区分的,对于每一过程的用户外流状况分析出不一样阶段的提升优先,关键经过下列个各环节来开展分析:
AARRR漏斗模型(2)根据RFM模型找到有价值的用户
因为不一样用户对企业产生的盈利区别非常大,并且依据二八定律(20%的有价值用户能产生80%的盈利),因而必须对用户开展价值点评,寻找最有价值的用户群,并对于这一部分用户开展差异化竞争。这儿参照RFM 实体模型对用户开展点评:
R-Recency(近期一次选购時间)R指用户上一次消费的时间,上一次买东西時间至今已有近期的消费者通常在最近回应活动营销的可能也较大,针对APP来讲,好久没有买东西个人行为很有可能代表着用户放弃了APP的应用,再次勾起用户也要越来越多的成本费。
F-Frequency(消费頻率)F指用户在某一段时间内的买东西频次,消费頻率越高代表着这一部分用户对设备的满意率最大,用户黏性最好是,满意度也最大。
M-Money(消费额度)M指用户在某一段时间内的买东西额度,这也是为企业产生价值的最直接的反映,而消费额度较高的用户在用户整体中总数较少,却能打造出大量价值,是必须关键争得的目标。
这三个层面相互之间关系,体现了每一个用户的如今价值和潜在性价值,将每一个层面分为R-5,F-5个范围开展得分,根据测算成绩对用户开展归类,可以有目的性地对不一样种类用户选用不一样的营销战略。
二. 了解数据信息
1. 数据来源
阿里云天池:https://tianchi.aliyun.com/dataset/dataDetail?dataId= ** 9&userId=1
数据包括了2017年11月25日0:00至2017年12月4日0:00中间(共9天),淘宝网APP手机端用户个人行为数据信息。因为总纪录为1万件,总数过大,这里只解决200千条数据信息做为意味着,这一部分数据信息中包括19544名用户(按user_id区划)的手段纪录。
2.各字段名含意
由于信息量很大,立即用excel无法打开,这儿根据python輸出信息的前5行,查询大致文件格式。
import pandas as pddata=pd.read_csv('UserBehavior.csv')print(data.head())輸出結果如下图所示:
运用python查询表头信息内容这儿也能看得出此文档是沒有列名的,因而导进数据库查询时必须自身创建表头信息内容。
数据信息表述3.数据信息导进
(1)新创建数据库查询userbehavior;(在navicat中进行)
(2)由于源数据信息沒有列名,因此要先创建表头信息内容,设定外键约束
create table user (id int not null,item int not null,behavior varchar(10) not null,category int not null,times int not null,constraint id_behave pri ** ry key(id,item,times));三.数据预处理
1.字段名重新命名
建表时早已将原来字段名简单化,id表明用户ID,item表示箱码,behavior 表明用户个人行为,category表明商品类别,times表示时间信息内容。应用rename函数也可以改。
2.一致化解决
時间数据信息中的时间和钟头存有于一列中,为了更好地便于科学研究每日和一天内每钟头用户的方式转变,将其按date和time拆分为多列。
将时间戳转换为时间种类 set sql_safe_updates=0; alter table user add column datetime timestamp(0) null; update user set datetime = from_unixtime(times);时间戳转换为时间种类将其按date和time拆分为多列alter table user add column date char(10) null;--提升date一列update user set date = substring(datetime from 1 for 10);--取下年-月-天alter table user add column time char(10) null;--提升time一列update user set time = substring(datetime from 12 for 2);--取下钟头年-月-天宇钟头分为多列3.出现异常值解决
删除11-25至12-03日之外的数据信息 delete from user where datetime<'2017-11-25 00:00:00' or datetime>'2017-12-04 00:00:00';四. AARRR实体模型分析
运用AARRR实体模型,分析用户个人行为和存留、外流状况,这里数据信息关键涉及到用户 ** 和选购转换的阶段,即用户从访问到最后选购整个过程。
1.日新增加用户统计分析最先依据id分类,依照date同组排行,明确每一个用户第一次登陆的時间,挑选出的排行为1的数据信息即做为用户第一次登陆的数据信息。再依据date分类,统计分析每天第一次登陆的用户数即是新增加用户数。
将每一个用户的登陆時间排行 select *, row_number() over (partition by id order by date) as user_rank from user统计分析每天新增加用户数DNU select date,count(id) as DNU from (select *, row_number() over (partition by id order by date) as user_rank from user) as Awhere A.user_rank=1 group by date order by date asc;分析:新增用户在11月25日为13927人,处在最大水准,后逐月下降。推断11月25日前后左右很有可能存有营销活动或引流主题活动。
2.用户用户粘性分析
第N日留存率=新增加日后的第N日再度登陆的用户数/第一天新增加总用户数。
先后算出每天存留总数select date,count(distinct id) as 存留总数,count(distinct id)/(select count(distinct id) from user where date='2017-11-25') as 用户粘性 from user where id in (select distinct id from user where date='2017-11-25')group by date order by date asc;每天用户粘性分析:由以上得知,11-25以后的8日内用户粘性均在75%以上,且12月2日-3日的留存率超出98%,表明顾客比较平稳,访问意向极其明显。表明顾客比较平稳,访问意向极其明显。可能是早期的引流主题活动实际效果不错,每日打卡领金币激发了用户的主动性,为最后的冲刺双十二做准备。
3.不一样时域和频域下用户行为模式分析
建立用户个人行为主视图(按天)create view user_behavior as SELECT date,SUM(CASE WHEN behavior='pv' THEN 1 ELSE 0 END)AS '访问数',SUM(CASE WHEN behavior='fav' THEN 1 ELSE 0 END)AS '个人收藏数',SUM(CASE WHEN behavior='cart' THEN 1 ELSE 0 END)AS '加入购物车',SUM(CASE WHEN behavior='buy' THEN 1 ELSE 0 END)AS '付钱数'FROM userGROUP BY dateORDER BY date每日用户个人行为分析:这9天中,11月25日至12月1日用户访问量变化幅度小,范畴在18万到20万中间,12月2日-3日有较大幅提升,比照一样是礼拜天的11月25日-26日,pv无显著增涨,因而觉得12月2-3日的增涨很有可能与礼拜天的双十二加热活动营销实际效果相关。
建立用户每个小时的个人行为主视图(按钟头)create view time_behavior as SELECT time,SUM(CASE WHEN behavior='pv' THEN 1 ELSE 0 END)AS '访问数',SUM(CASE WHEN behavior='fav' THEN 1 ELSE 0 END)AS '个人收藏数',SUM(CASE WHEN behavior='cart' THEN 1 ELSE 0 END)AS '加入购物车',SUM(CASE WHEN behavior='buy' THEN 1 ELSE 0 END)AS '付钱数'FROM userGROUP BY timeORDER BY time分析:
(1)1-6点应用淘宝网的总数处在平峰,很有可能是由于这时绝大多数用户都处在休眠状态相关;6 -10点应用总数逐步增加,10-18点需求量保持稳定情况;18-21点用户个人行为慢慢活跃性,很有可能与用户下班了有时间应用淘宝买东西相关,夜间21-23点做到高峰期值,这一时间是大多数群体的临睡前時间,和大家喜爱在临睡前买东西的心理状态相关。晚间23-1点(隔日)可能是一部分群体进到睡眠质量,造成应用总数降低。
(2)夜间22-23点为加入购物车最高值,店家可以这时在加入购物车网页页面增加主题活动幅度或送红包补助, ** 用户消费冲动,推动选购转转换。
4.用户外流分析
测算用户数量select count(distinct id) as 用户总数 from user;测算跳失率:跳失率=只点一下一次访问的用户总数/总用户浏览量select count(*) as 只访问一次就离去的总数 from (select id from user group by id having count(behavior)=1) as A分析:统计分析時间为9天,只访问一次就离去的总数为1,总用户浏览量为9969,跳失率=1/9969=0.01%,占有率几乎可以忽略,表明淘宝网有着充分的诱惑力让用户滞留在APP中。
用户个人行为数布氏漏斗测算select behavior,count(*) as 个人行为频次 from user group by behavior;分析:因为个人收藏和购物车都为访问和选购环节中间明确选购需求的用户个人行为,且不区分顺序,因而将其算是一个环节,能够看见从访问到有选购只有buy/pv=2.25%的转换率,流动率很高。下边用假设检验分析方式 的构思来认证转换率低的缘故。
5.假设检验分析方式
为了更好地进一步找到转换率低的根本原因所属,这儿明确提出2个假定:
假设一:用户访问产品时未应用收藏加购作用,造成产生选购意向时提高了寻找成本费,进而使选购意向降低。假定二:产品热搜榜商品与畅销产品不配对导致的成交转化率低。5.1认证假定一:未把产品个人收藏或购物车提升选购不便,减少选购意向
创建选购步骤主视图create view 选购步骤as select id,item,category,sum(case when behavior='pv' then 1 else 0 end) as pv,sum(case when behavior'fav' then 1 else 0 end) as fav,sum(case when behavior='cart' then 1 else 0 end) as cart,sum(case when behavior='buy' then 1 else 0 end) as buy from usergroup by id,item,category;--分别按照id,item,category分组不同购买流程分析本数据集用户行为类型包括点击pv、收藏fav、加入购物车cart、购买buy。由之前分析可知,用户购买流程可分为:
点击后直接购买:pv-buyselect count(1) as 浏览人数 from 购买流程 where pv>0;select count(1) as 浏览后直接购买人数 from 购买流程 where pv>0 and fav=0 and cart=0 and buy>0 ;点击、收藏后购买:pv-fav-buyselect count(1) as 浏览后收 ** 数 from 购买流程 where pv>0 and fav>0;select count(1) as 浏览后收藏再购买人数 from 购买流程 where pv>0 and fav>0 and cart=0 and buy>0;点击、加购后购买:pv-cart-buyselect count(1) as 浏览后加购再购买人数 from 购买流程 where pv>0 and cart>0 ;select count(1) as 浏览后加购再购买人数 from 购买流程 where pv>0 and fav=0 and cart>0 and buy>0;点击、收藏并加购后购买:pv-fav、cart-buyselect count(1) as 浏览收藏加购人数 from 购买流程 where pv>0 and cart>0 and fav>0 ;select count(1) as 浏览收藏加购再购买人数 from 购买流程 where pv>0 and fav>0 and cart>0 and buy>0;分析:通过上述流程转化分析,发现在pv—fav—buy、pv—cart—buy以及pv——fav、cart—buy中的购买转化率明显大于pv—buy中的购买转化率。这是因为未把商品收藏或加入购物车,用户想要购买时就需要重新搜寻,增加了搜寻成本和麻烦,从而使得用户购买意愿下降。假设一成立。这种情况下可以通过以下方法鼓励用户使用购物车和收藏功能:
(1)收藏商品再下单可以领取优惠券;
(2)将商品加入购物车可以不定时享受折扣。
5.2验证假设二:热搜-热销商品匹配度低
统计所有商品的购买次数,同时找到购买次数、浏览次数、收藏次数和加入购物车次数最多的商品。取销售排名前50的为热销商品,取浏览+加购+收藏排名前50的为热搜商品,观察商品id重合情况。
提取排名前50的热销商品select * from (select item,count(1) as 热销商品,row_number()over(order by count(1) desc )as 热销排名 from userwhere behavior='buy' group by item)as A where A.热销排名<51;提取排名前50的热销商品select * from (SELECT item, COUNT(1) AS 热搜商品 ,row_number() over(order by COUNT(1) desc) as 热搜排名 FROM userWHERE behavior='pv' or behavior='fav' or behavior='cart' GROUP BY item) as A where A.热搜排名<51;热销商品与热搜商品匹配度分析select A.item,A.热销商品,A.热销排名,B.热搜商品,B.热搜排名 from (select * from (select item,count(1) as 热销商品,row_number()over(order by count(1) desc )as 热销排名 from user where behavior='buy' group by item)as A where A.热销排名<51) as Ainner join (select * from (SELECT item, COUNT(1) AS 热搜商品 ,row_number() over(order by COUNT(1) desc) as 热搜排名 FROM user WHERE behavior='pv' or behavior='fav' or behavior='cart' GROUP BY item) as A where A.热搜排名<51) as Bon A.item=B.item分析:
(1)由此可看出,在销量最高的前50名商品中,热搜商品只有5种,匹配率为10%,说明热销产品和热搜产品的匹配度不高。假设二成立。
(2)匹配度低可能有以下两种情况:a.推荐算法效果不佳,详情页的信息流展示可能不太合理,导致首页推荐的大部分商品可能未精准匹配用户需求,大多数人只是点击后就离开,并没有购买意愿。针对这种情况建议淘宝APP优化推荐算法,做到精准运营。b.热搜商品优惠力度不够。可能商家为了吸引用户点击在商品展示页投放的价格具有较强吸引力,但商品详情页的实际价格可能远高于展示价格,从而降低了用户的购买意愿。这时建议商家将热搜排名靠前而热销排名靠后的商品加大优惠力度,实行团购打折等手段提升购买转化率。
6.商品复购分析
按被购买次数划分商品SELECT A.`被购买次数`,COUNT(item) as '商品数' from (SELECT item, COUNT(id) AS '被购买次数' FROM user WHERE behavior='buy' GROUP BY item) as A GROUP BY A.`被购买次数`order by A.`被购买次数` asc;分析:在本次统计的数据中,复购次数集中在1-4次,呈长尾分布,该阶段用户消费欲望不大。其中只购买一次的产品有27611种,购买两次的产品有3418种,本次分析的商品中用户购买的共有32485种商品,19544名用户中,被购买次数最多的商品仅为35次,没有出现购买用户数量非常集中的商品,而被购买一次的商品占到27611/32485=85%,说明商品售卖主要依靠长尾商品的累积效应,而非爆款商品的带动。建议多开展营销活动,比如淘宝的达成金主的条件限制,鼓励用户复购。对于用户消费习惯的分析,通过了解用户消费的集中时段集中实施各种营销活动,提高投入产出比。
7.转化率分析
不用时间尺度下的转化率每日付费转化率select date,浏览数,付费数,付费数/浏览数 as '转化率' from user_behavior分析:11.25-12.03的9天内,淘宝APP的付费转化率再2%-2.6%之间,其中,在11.26-11.27日转化率呈现较大幅度增长,于11.27达到最高值2.53%,11.27-11.28发生小幅度下降,11.28-11.29呈小幅升高,11.29以后呈下降趋势。
每小时付费转化率select time,浏览数,付费数,付费数/浏览数 as 转化率 from time_behavior;分析:由上图可以看出,一天内夜间3:00转化率最低且浏览量也很低,可能是大部分人处于睡眠状态,上午10:00-11:00转化率最高,其次下午15-17点的转化率也较高,之后呈逐渐下降趋势。虽然APP使用量和浏览量在晚间21:00-23:00达到高峰,但此阶段的付费转化率并不高,建议商家可以在这个时间段将优惠力度加大,例如发放一些优惠券等,提升用户的购买欲望,促进购买转化。
不同类别商品的付费转化率SELECT category,SUM(CASE WHEN behavior='pv' THEN 1 ELSE 0 END)AS '浏览数',SUM(CASE WHEN behavior='fav' THEN 1 ELSE 0 END)AS '收藏数',SUM(CASE WHEN behavior='cart' THEN 1 ELSE 0 END)AS '购物车',SUM(CASE WHEN behavior='buy' THEN 1 ELSE 0 END)AS '付费数'FROM userGROUP BY categoryorder by 浏览数 desc分析:由上图可以看出,商品商品类别为2735466和2885 ** 2的两类商品的转化率最高,分别为3.27%和3.26%,类别为154040的商品转化率最低,为0.31%,对于商品浏览量高,而转化率非常低的,建议商家对商品购买流程使用转化漏斗进行分析并进行改善。
五、基于RFM理论找出有价值的用户
M-消费金额,由于数据源中没有相关的金额数据,不计入评分。
R-最近购买时间
用户数据的时间范围为9天,最近购买时间的区间为0-9,将其分为5档,0-1,1-2,3-4,5-6,7-8分别对应评分1到5。
创建用户购买时间到12-04日的距离视图CREATE VIEW pay_B ASSELECT id, DATEDIFF('2017-12-04',MAX(date)) AS B FROM user WHERE behavior='buy' GROUP BY id;创建R得分视图create view RR as SELECT id, (CASE WHEN B BETWEEN 7 AND 8 THEN 1 WHEN B BETWEEN 5 AND 6 THEN 2WHEN B BETWEEN 3 AND 4 THEN 3WHEN B BETWEEN 1 AND 2 THEN 4WHEN B BETWEEN 0 AND 1 THEN 5ELSE null END) AS RFROM pay_B ORDER BY R DESCF-消费频率
查看用户购买次数SELECT id,count(id)as '次数' from user where behavior='buy' group by id order by 次数 desc;分析:付费用户中消费次数从低到高为1-72次,将其分为5档,1-15,16-30,31-45,46-60,61-72分别对应评分0到4。
创建用户购买次数视图CREATE VIEW pay_F AS SELECT id, COUNT(*) AS A FROM user WHERE behavior='buy' GROUP BY id;创建F得分视图create view FF as SELECT id, (CASE WHEN A BETWEEN 1 AND 15 THEN 1 WHEN A BETWEEN 16 AND 30 THEN 2WHEN A BETWEEN 31 AND 45 THEN 3WHEN A BETWEEN 46 AND 57 THEN 4WHEN A BETWEEN 58 AND 72 THEN 5 ELSE 0 END) as FFROM pay_F ORDER BY F DESC;创建RFM得分视图create view RR_FF as SELECT RR.id,RR.R,FF.F from RR left join FF on RR.id=FF.id计算R、F平均值select avg(R) as R平均值,avg(F) as F平均值 from RR_FF;按得分与平均分的关系进行用户分类select 用户分类,count(用户ID) as 人数from (select 用户ID,(case when R >3.5544 and F >1.3249 then "重要价值客户"when R >3.5544 and F <1.3249 then "重要发展客户"when R <3.5544 and F >1.3249 then "重要保持客户"when R <3.5544 and F <1.3249 then "重要挽留客户"else 0 end) as 用户分类from RR_FF) as a group by 用户分类;分析:
(1)重要价值客户是指R,F得分都在平均分以上的用户,此类用户的购买力和粘性较高,且近期极有可能再次购买;重要发展客户是指R得分较高,而F得分较低的用户,此类用户近期买过但粘性不高;重要保持客户是指F得分较高,但R值较低的用户,此类用户粘性较好但近期购买行为较少;重要挽留客户是指R,F得分都在平均分以下,粘性不高且近期很少购买,此类用户如果不进行挽留将会成为流失用户。
(2)根据用户分类结果,用户最主要集中在重要发展客户和重要挽留客户,应针对不用的客户实行不同的运营策略。
六. 结论与建议
本文分析了淘宝APP用户行为数据共200万条,删去991条异常数据后,从五个不同角度提出业务问题,使用AARRR模型和RFM模型分析数据给出如下结论和建议。
1.一天内用户最活跃的时间段是21-23点,尤其是22点-23点的这一小时。
建议:把握该黄金时段,集中进行营销活动提高用户购买转化率,例如平台带货直播、分会场促销、限时抢购等。且更多选择热搜热销的商品类目和商品,迎合用户需求。
2. 用户这9日内的留存率均在75%以上,且12月2日-3日的留存率超过98%,说明客户较为稳定,浏览意愿极为强烈。这可能是因为存在新用户打卡活动等,调动了用户的登录积极性。
建议:多举办老用户拉活阶梯式奖励、新用户浏览集积分等活动,培养用户登录习惯,调动浏览热情。发放新用户满减优惠券、首单直减等活动,提高新用户的购买转化率。
3. 用户在点击→收藏→购买、点击→加入购物车→购买、点击→收藏和加购→购买这三个流程的购买转化率都明显大于点击→购买中的购买转化率。这可能是因为收藏或加购能提供购买便捷,提高用户购买意愿。
建议:增加跨店满减、收藏加购送商品赠品、送福利等活动,引导用户收藏加购行为,从而提高用户购买转化率。
4.商品热搜和热销并不匹配,大部分商品可能未精准匹配用户需求或优惠力度不够,并没有促使用户进行购买。
建议:
(1)优化推荐算法,优先推荐热搜、热销排名靠前的商品,降低用户搜寻成本。
(2)优化搜索功能,根据用户画像更精准推荐商品,使热搜和热销更为匹配。
(3)加大热搜商品的优惠力度,提高热搜商品的购买转化率。
(4)针对浏览量高而购买转化率低的商品,应改善商品页、详情页以及评论区管理。
5. 用户最主要集中在重要发展客户和重要挽留客户。
建议:针对不用客户实行不同运营策略。
(1)对于占比最大的重要发展客户,消费频率低但最近一次消费时间间隔短,可以通过发放满减优惠券等方法提高消费频率;
(2)对于占比第二大的重要挽留客户,消费频率低且最近一次消费间隔长,面临用户流失风险,可以通过电话邮件等形式主动联系客户,调查问题所在,并有针对地进行挽回;
(3)对于占比较大的重要价值客户,应提供专属的VIP服务,通过服务质量进一步调高其粘性;
(4)对于占比较低的重要保持客户,消费频次高但最近一次消费时间间隔长,可以通过短信邮件等方式提醒上新、邀请参加老用户反馈活动等提高复购率。
扫码咨询与免费使用
申请免费使用