一、剖析环境:
现如今,互联网技术已变成人们必不可少的一部分,而做为电子商务领头的淘宝网,也是几乎每个人都依靠的网络购物平台,我们可以根据对淘宝网用户个人行为开展剖析,进而更掌握用户,开展大数据营销。
二、了解数据:
本数据来自阿里天山天池,包括了2017年11月25日至2017年12月3日中间,有个人行为的约一亿任意用户的全部个人行为
User Behavior Data from Taobao for Recommendation-数据集-阿里云天池此后数据集中化选择了约500千条数据,数据的字符和字段名表明如下所示:
数据清理:
(1)字段名重新命名:
将英语字段名改成汉语字段名,改好以后的数据如下所示:
(2)删除重复值:
应用下面编码挑选出重复值:
SELECT * FROM `用户个人行为` WHERE(`用户ID`,`商品ID`,`商品类目ID`,`行为类型`,`时间`)IN (SELECT `用户ID`,`商品ID`,`商品类目ID`,`个人行为类型`,`时间` FROM `用户个人行为` GROUP BY `用户ID`,`商品ID`,`商品类目ID`,`行为类型`,`时间` H ** ING COUNT(1) >1)得到的重复值如下图:
因为这里10条重复值相对性于数量500千条数据而言数据量过小,因此可以直接用delete句子除掉。
(3)缺少值解决:可根据count句子查看各列的纪录数,查看出无缺少值。
(4)一致化解决:
此数据中选购時间字段名的类型为int型,根据FROM_UNIXTIME函数公式变换为日期和时间的文件格式。编码如下所示:
ALTER TABLE `用户个人行为` ADD COLUMN 选购时间 DATEALTER TABLE `用户个人行为` ADD COLUMN 時间 TIME(0) NULLUPDATE `用户个人行为` SET `选购时间` = FROM_UNIXTIME(`选购時间`,'%Y-%m-%d')UPDATE `用户个人行为` SET `時间` = FROM_UNIXTIME(`选购時间`,'%H:%i:%S')解决后的数据如下图所示:
(5)出现异常值解决:
将选购時间不坐落于2017年11月25日至2017年12月3日中间的数据删掉。sql语句如下所示,共删掉2632条数据。
DELETE FROM `用户个人行为` where `选购时间` <'2017-11-25' OR `选购时间` >'2017-12-03'数据清理结束以后我们可以应用count句子查看出这时的数据集尺寸为:4997358
三、剖析构思:
1.提问问题:
大家的首要问题是怎么根据此数据集获得用户的选购要求和规律性,进而对网页页面作出改善,对用户开展大数据营销。根据关键目地,我们可以明确提出下列一些问题:
(1)用户在哪儿一阶段转换率最少?为什么?是不是与商品和商品类目相关?
(2)用户的活跃性时间和活跃性的时间是什么时候?,为什么?
(3)高使用价值用户有什么?她们有哪些特点?喜爱哪些的商品?
(4)什么商品和哪些商品类型销售量最大?什么商品被认购较多?商品销售量怎样随时长转变?
2.剖析构思:
逐一剖析以上明确提出的问题,我们可以提出剖析构思,如下图:
四、剖析全过程:1.总流量指标值:
(1)网页页面访问量(PV):
总网页页面访问量:
select count(用户ID) from 用户个人行为 where 行为类型 = 'pv'可快速查询出总的网页页面访问量为4472600。
每天网页页面访问量:
select 选购时间,count(用户ID) from 用户个人行为 where 行为类型 = 'pv' group by 选购时间得到每天的网页页面访问量如下图:
画出柱形图如下所示:
为什么11月27日网页页面访问量忽然降低,而到了12月2日则猛增呢?大家查询了2017年11月和12月的日历表,发觉2017年11月25日和26日及其12月2日和3日是礼拜天,而11月27至12月1日是工作日内,猜测可能是工作日内太忙,淘宝网的时长和頻率减少,而礼拜天较为空余,上淘宝的时长和頻率非常高。可是12月2日和3日这个周末比11月25日和26日这个周末的访问量高于许多,猜测可能是因为淘宝网这时有营销活动(如双十二加热)。
(2)独立访客量(UV):
总独立访客量:
select count(distinct(用户ID)) from 用户个人行为 where 行为类型 = 'pv'得到总的独立访客量为48782。
每天独立访客量:
select `选购时间`,count(distinct(用户ID)) from 用户个人行为 where 行为类型 = 'pv' group by 选购时间結果如下图:
画出柱形图如下所示:
由图上可看得出11月25日那一个礼拜天和下面的个星期内,用户总数基本上没转变,融合上边剖析的网页页面访问量个星期内低于礼拜天,即周内比周末的平均访问量提升,进一步表明大家猜测个星期内工作忙沒有过多的时间来上淘宝。而12月2日用户成交量放大前一天猛增约30%,大家也愈发始终如一是主题活动推广的結果。因为数据比较有限,这两个猜测没法进一步认证。
(3)商品宝贝详情跳失率:
商品详情页跳失率只仅仅浏览了商品宝贝详情就离去的用户数占用户数的占比,可以用如下所示句子求取只浏览了商品宝贝详情就离去的用户:
select count(用户ID) from 用户个人行为 where 用户ID in (select 用户ID from 用户行为 where 个人行为类型 = 'pv')AND 用户ID not in (select 用户ID from 用户行为 where 个人行为类型 = 'fav')and 用户ID not in (select 用户ID from 用户行为 where 个人行为类型 = 'cart')and 用户ID not in (select 用户ID from 用户行为 where 个人行为类型 = 'buy')可得到仅浏览了商品宝贝详情的用户数为2871,而总的用户数大家以前算出是48782,跳失率=2871/48782=5.9%,尽管这一百分比看上去不大,可是跳失率这一指标值越低越好,因此在降低跳失率这一工作方面也有提高室内空间。
2.用户指标值:
(1)活跃性率
每日活跃性用户比照:
因为点一下过主页就离去的用户对网站的使用价值并不大,因此人们将活跃性用户界定为有用户个人行为,非主页跳失用户。可以用如下所示句子挑选出每天的活跃性用户:
SELECT `选购时间`,COUNT(DISTINCT(`用户ID`)) FROM `用户个人行为` WHERE `用户ID` NOT in (select `用户ID` from 用户行为 where 用户ID in (select 用户ID from 用户个人行为 where 行为类型 = 'pv')AND 用户ID not in (select 用户ID from 用户个人行为 where 行为类型 = 'fav')and 用户ID not in (select 用户ID from 用户个人行为 where 行为类型 = 'cart')and 用户ID not in (select 用户ID from 用户个人行为 where 行为类型 = 'buy'))GROUP BY `选购时间`得到的每天活跃性用户量发展趋势和独立访客量趋势很像,如下图:
一样的方式 可以汇总出一天各时间段内的活跃性用户量,画出柱形图如下所示:
可看得出活跃性用户量在4点至少,而在21点做到最高点,以后降低。4点至10点活跃性用户不断提升,从10点至22点活跃性用户量基本上差不多或上升,这一时段也是活跃性用户量最大的时间段。
根据对活跃性率的剖析,我们可以基本推论,无营销活动时,礼拜天和个星期内的活跃性用户量相距并不大,而有营销或别的主题活动时(例如双十二加热),活跃性用户量增长幅度非常大,营销活动才算是产生活跃性用户量的压根。用户的活泼時间聚集在10点至22点,23点以后活跃性用户量少,可根据此活跃性時间调节店面的排班表時间,如客服人员22点下班了等,也可将营销砍价活动分配在这里时间内,如10点和21点。
(2)各阶段转换率:
大家以前算出了商品宝贝详情的浏览频次有4472600次,可快速查询出个人收藏、加入购物车网页页面的浏览频次有279512 145125=424637次,而选购的频率有100121个。画出漏斗图如下图:
如上图所述中所显示,点一下(激话)——>收藏加购(存留)的转换率仅有9.5%,而收藏加购(存留)——>选购(转现)的转换率有23.6%。表明人们的商品宝贝详情都还没把握住到用户究竟需要哪些,不可以促进她们有下一步的姿势。
(3)复购率:
先统计分析出有订购方式的总用户数:
SELECT count(DISTINCT(`用户ID`)) from `用户个人行为` WHERE `行为类型`='buy'得到总选购用户为33286个。下面计算有重复购买个人行为的用户数,和选购不一样频率的总数。
先建立一个主视图,算出选购超出2次的用户的选购频次:
CREATE VIEW table1 AS SELECT `用户ID`,count(*) as 选购频次 from `用户个人行为` WHERE `行为类型`='buy' GROUP BY `用户ID` H ** ING 选购频次>1 ORDER BY 选购频次 DESC随后算出重复购买过的用户有多少个:
select count(用户ID) from table1得到有重复购买个人行为的用户有2 ** 2个,即复购率为2 ** 2/33286=65.8%。下面可以看一下不一样选购频次的总数:
SELECT 选购频次,count(选购频次) from table1 GROUP BY 选购频次可看得出选购2次的用户较多,绝大多数用户选购频次都是在8次之内,主要是2次或三次。而选购频次13次以上的用户不够一百多个,16次以上的不够50个,乃至有用户选购了84次,猜疑存有补单等违规操作。
将选购频次50次以上的用户挑选出去,本次数据集数据不够,以后可对那些顾客开展追踪,看能否有违规操作。
(4)顾客类型区划:
我们可以根据RFM(近期一次选购時间,选购頻率,选购额度)实体模型来解析出此数据集中化的高使用价值用户。因为此数据集中化未涉及到选购额度的字段名,因此只剖析近期一次选购時间和订购頻率。
将有订购方式的用户ID和选购时间获取出去创建表格“高使用价值用户”:
CREATE TABLE `高价值用户` AS (SELECT 用户ID,MAX(`选购时间`) FROM `用户个人行为` WHERE `行为类型`='buy' GROUP BY `用户ID`)ALTER TABLE `高使用价值用户` CHANGE COLUMN `MAX(``选购时间``)` 选购时间 DATE大家将近期一次选购時间分为5个等级,11月25日-11月26日为5级,11月27日-11月28日为4级,11月29日-11月30日为3级,12月1日-12月2日为2级,12月3日为1级。
在高使用价值用户表格中加上一列R,并将等级升级至R列中:
ALTER TABLE `高使用价值用户` ADD COLUMN R INTUPDATE `高价值用户` SET R = CASE WHEN 选购时间 ='2017-11-25' or `选购时间`='2017-11-26' THEN 5WHEN 选购时间 ='2017-11-27' or `选购时间`='2017-11-28' THEN 4WHEN 选购时间 ='2017-11-29' or `选购时间`='2017-11-30' THEN 3WHEN 选购时间 ='2017-12-01' or `选购时间`='2017-12-02' THEN 2ELSE 1 END将选购频次也分成5个等级,1-10为5级,11-20为4级,21到30为3级,31到50为2级,51到84为1级(是依据选购频次一共有47种,分五个等级得话,按由小到大排行,每一级约为9种或十种。
先创建一个用户次数表:
CREATE TABLE 用户次数 AS SELECT `用户ID`,count(*) as 购买次数 from `用户行为` WHERE `行为类型`='buy' GROUP BY `用户ID` ORDER BY 购买次数 DESC DESC表前五行如下图:
将购买次数的等级添加进用户次数表中:
ALTER TABLE `用户次数` ADD COLUMN F INTUPDATE `用户次数` SET F = CASE WHEN 购买次数 BETWEEN 1 and 10 THEN 5WHEN 购买次数 BETWEEN 12 and 20 THEN 4WHEN 购买次数 BETWEEN 11 and 30 THEN 3WHEN 购买次数 BETWEEN 31 and 50 THEN 2ELSE 1 END处理后的用户次数表为:
然后将用户次数表中的F更新至高价值用户表的f列中:
UPDATE `高价值用户` as a,用户次数 as b SET a.f = b.FWHERE a.`用户ID`=b.用户ID得到高价值用户表如下图:
将分界线定位1到5级别的平均数,即(1+2+3+4+5)/5=3。大于等于3的用户界定为1,小于3的用户界定为0,依据下表确定客户类型:
更新高价值用户表:
UPDATE `高价值用户` SET R = CASE WHEN R<=3 THEN 1ELSE 0 ENDUPDATE `高价值用户` SET f = CASE WHEN f<=3 THEN 1ELSE 0 ENDALTER TABLE `高价值用户` ADD COLUMN 客户类型 VARCHAR(20)UPDATE `高价值用户` SET 客户类型= CASE WHEN R=1 AND f=1 THEN '价值用户'WHEN R=1 AND f=0 THEN '发展客户'WHEN R=0 AND f=1 THEN '保持客户'ELSE '挽留客户' END最后得出的客户类型表格如下图:
我们可以根据此客户类型表来针对不同的客户进行不同的营销方式。前面分析复购率时有提到购买数量较多的用户(如有一位购买84件商品的客户)可能是刷单等违规行为,这里分析购买频率先抛开此猜想,任何对客户的判断都应该是多方面的,当我们拿到更多数据后可将客户划分类型和此猜想结合起来判断,由于这里我们数据有限,只是分别进行分析。
3.商品销售指标:
商品数和商品类别数:
SELECT COUNT(DISTINCT(商品ID)) AS 商品数,COUNT(DISTINCT(`商品类目ID`)) AS 商品类别数 FROM `用户行为每天的总销量对比:
SELECT `购买日期`,count(商品ID) AS 销量 FROM `用户行为` where `行为类型`='buy' GROUP BY `购买日期` ORDER BY `购买日期`由图中可看出12月2日和12月3日这个周末销量突增,符合我们之前对这个周末有促销活动的猜想,但是11月25日和11月26日这个周末的每日销量小于接下来一周的每日销量,由于没有11月25日之前的数据,所以无法比较出11月25日这个周末的销量相对其他周末是否正常,建议之后拿到更多数据再比较。
销量最高的商品类目top10:
SELECT 商品类目ID,COUNT(商品类目ID) as 销量 FROM `用户行为` WHERE `行为类型`='buy' GROUP BY `商品类目ID` ORDER BY 销量 DESC LIMIT 10商品回购率:
与上面统计复购率一样,先建立视图算出被购买超过两次的商品类别的购买次数
CREATE VIEW table2 AS SELECT `商品类目ID`,count(*) as 购买次数 from `用户行为` WHERE `行为类型`='buy' GROUP BY `商品类目ID` H ** ING 购买次数>1 ORDER BY 购买次数 DESCselect count(商品类目ID) from table2算出被回购的商品数是3128个,上面算出总商品是7352个,商品的回购率是3128/7352=42.5%。
回购数最多的商品类别top10:
SELECT `商品类目ID`,count(*) as 购买次数 from `用户行为` WHERE `行为类型`='buy' GROUP BY `商品类目ID` H ** ING 购买次数>1 ORDER BY 购买次数 DESC四、结论与建议:
1.用户获取环节:
一方面可以结合其他用户信息,比如性别,年龄,居住城市等,分析出现有用户的特征,确定想要扩展用户的特征,针对扩展用户的特征进行宣传渠道优化和广告优化,达到语言—市场匹配和渠道—产品匹配。
一方面我们由上述分析发现促销活动时期,浏览量和用户量都增加不少,在活动前期可使用拼团、邀请新用户的优惠券的方式来获得新用户。可借鉴网易考拉,某些性价比高的拼团只能邀请新用户才能拼成功。
2.用户激活环节:
激活用户的关键是让用户顺利走完整个购买流程,并且要从中发现“啊哈时刻”。(1)可以美化商品详情页,由上述分析,商品详情页跳失率达到了6%,还有提升空间。可以通过将商品的照片拍的更好看,将收藏、加购和购买的动作调整更加方便,以减少商品详情页跳失率。(2)从转化率分析可看出,用户从浏览商品详情页到收藏加购这一步骤中转化率较低,只有9.5%,建议优化关键词搜索,让用户更便捷的找到所需的商品。也可以突出显示特价商品,通过价格优势心理促进消费。还可以让用户首次登陆时选择感兴趣的商品类别,通过给他推送此类别商品增加转化率。(3)从上面分析用户一天内各时段的活跃率可知,10点和21点是一个高峰值,可以将促销活动定在这两个时间,例如秒杀和抢购开始时间,并提前预报促销信息,促进消费。
3.用户留存环节:
上面分析中我们将客户进行了划分,
对于价值用户(最近一次购买时间近,购买频率高),他们已经体会到了淘宝的啊哈时刻,并且对淘宝有了一定的依赖,我们需要对他们进行长期留存的策略,让他们养成使用习惯。可以引导用户办理会员卡,如88会员,办理会员之后可以设置节省一定金额就发推送恭喜并颁发勋章等,认可用户成就,长期留存此用户。对于发展用户((最近一次购买时间近,购买频率低)),还处于留存初期或中期,我们可以通过分析用户搜索和浏览数据探测用户的兴趣,向其推送感兴趣的商品,也可以通过购物篮分析向其推送与之前购买过的商品相关联的商品,以促进消费。
对于保持用户(最近一次购买时间远,购买频率高),可能是用户购买的商品轮换周期长,可根据用户兴趣推送轮换周期短的商品,如14 ** 116类商品,复购率最高,可以尝试向保持用户推送该类商品,以促进留存。对于挽留用户(最近一次购买时间远,购买频率低),可通过邮件或短信等方式向其发放优惠券或意向商品降价的消息来促进再次消费。
需要注意的是这些推送的频率和优惠券的面额都需要经过用户调查和测试,得到最完美的节奏。
4.用户变现环节:
(1)由上述分析可知,用户的复购率为65.8%,大部分用户购买2次或3次,可通过分析用户的浏览,加购数据等向用户推送感兴趣的和意向的商品,提高用户复购率。(2)可加大力度引导用户升级为88会员,一方面可以留住用户,增加购买了,一方面增加会员费的营收。
5.循环和分享环节:
(1)提升产品本身,定期推出新功能。(2)充分利用口碑营销,可通过拼团,拉好友赢现金等活动使网站得到扩散,还可设计简单好玩的小游戏,通过将用户游戏分数进行排名来扩散。
扫码咨询与免费使用
申请免费使用