Adobe Analytics和Webtrekk都是数据分析领域的巨擘,一个是美国市场第一,一个欧洲市场第一,都能提供世界一流的数字分析解决方案。我很有幸能有机会深入了解并应用这两种解决方案,同时也深感数字分析领域的发展永远不缺概念,缺的是应用场景和价值提炼。本文将对这两种解决方案做深入剖析和对比。由于文章实在太长,我分为两部分,此文为下篇。上篇请点击《Adobe Analytics和Webtrekk数字分析解决方案剖析和对比(上)》。
三、严谨和科学的数据精神
(一) 数据挖掘算法
数据挖掘和网站分析是数据分析的两个不同领域,数据挖掘侧重于通过模型从海量数据中发现和挖掘未知知识,网站分析通常通过细分、趋势和转化进行价值提取。在之前我们的应用中,我们一直想将两种数据分析方法结合,并探索网站数据挖掘的相关方法;现在,这两种解决方案已经开始将数据挖掘的算法植入系统,并在分析系统中提供了数据挖掘洞察。
Adobe Analytics
Adobe Analytics的数据挖掘应用体现在Anomaly Detection(异常检测)报表,该报表的作用是通过对选定的数据集、时间进行数据运算,找到数据波动的最大值和最小值,当数据实际值超过该范围时形成预警。
Anomaly Detection本质上使用的是时间序列算法,核心是:
Holt Winters Multiplicative (Triple Exponential Smoothing)——霍尔特温特斯乘法(三重指数平滑法) Holt Winters Additive (Triple Exponential Smoothing)——霍尔特温特斯加法(三重指数平滑法) Holts Trend Corrected (Double Exponential Smoothing)——Holts趋势校正(双指数平滑法)
这三种算法实际上共同组成了温特斯季节指数平滑模型,其基本思想是把具体线性趋势、季节变动和随机变动的时间序列进行分解研究,并与指数平滑法相结合,分别对长期趋势(Ut)、趋势的增量(bt)和季节变动(Ft)做出估计,与指数平滑法结合起来的预测方法,可以同时处理趋势和季节性变化,并能将随机波动的影响适当地过滤掉,然后建立预测模型,因此,特别适用于包含趋势和季节变化的时间序列的预测问题。
但这个应用目前存在两个问题:
Anomaly Detection只能提供截止到昨天的数据检测报告。异常监测的本质不是告诉用户昨天发生了什么,而是当前发生了哪些异常,具体如何异常; 异常检测的作用仅仅局限于SiteCatalyst查看,如果能提供类似于邮件触发、短信或其他类型的触发提示,效果必然提升很多;
关于该功能的详细介绍,请查看《统计学在点击流数据中的应用范例——Adobe Analytics异常检测》。
Webtrekk
Webtrekk的数据挖掘算法的核心应用是关联分析,该模型可以应用到页面、站内外搜索词、产品、广告渠道。跟Adobe Analytics的异常检测的现成报表不同,Webtrekk的关联模型报表需要进行简单配置才能查看。通常我们在用数据挖掘工具做数据挖掘时会选择数据源、数据预处理、算法本身需要配置最低支持度、最低置信度和最大前项数等,同样在Webtrekk的关联分析配置中也需要进行配置:
关联分析的算法支持交叉销售算法和向上销售算法两种; 数据集都是采用Raw Data,时间最大只能选择一天; 分析规则上支持不同级别的页面、渠道、产品、广告、站内外搜索词的关联,即可以生成页面关联报表、站内外搜索词报表、广告渠道报表、产品报表; 支持高级配置功能。支持最小频繁度;选择向上销售时会需要确认向上销售的数据集时间;还支持网站分析里面的细分功能,比如我就需要看某个页面的关联效果,只需要过滤该页面即可。
Webtrekk的关联模型应用的范围非常广,它可以提供以下的数据价值洞察:
用户搜索了站内A关键词之后通常会优化搜索哪个关键词?
用户在看了A页面之后,通常还会看哪个页面?
用户买了A产品之后,还会一起买哪个产品?下次又会买哪个产品?
用户从A渠道进入网站之后,通常还会从哪个渠道再次进入?
实际上在所有的数据挖掘类算法中,规则提取类是最受业务应用关注的算法,原因是提取后的规则可以直接指导他们如何进行业务实践,因此实用性最强(所谓的规则提取类算法包括关联、回归、决策树等以直接目标为分析导向,提取能实现目标规则的算法,如购买A的用户下一次通常会购买B)。
尽管Webtrekk的这个算法很好,但问题在于数据集时间太短。通常情况下,我们会选择合适的样本量,数据太大意味着数据浪费,数据太小不能说明问题。一天的数据量有点小,很可能会有一些偶然性因素出现在结果中,如果能扩大到1周甚至是1个月的数据效果会更好。当然,更大的数据量意味着更多的数据处理需求和更长的时间,这个需要进行取舍。
(二) 更科学的数据洞察开始
有经验的数据分析师,在拿到数据的第一时间并不是开始进行数据分析和挖掘工作,而是先要看数据。
什么是看数据?
看数据就是对目前的整体样本进行数据评估以确认该数据需要如何进行下一步预处理(完整的数据分析流程包括需求处理、数据处理、专项分析、部署优化和项目总结,具体请见《如何建立落地型数据分析(挖掘)流程?》)。
如何看数据?
看数据就是要看数据的整体分布、数据趋势、数据极值、平均值、标准差和方差等,以此来判断该数据是否稳定并且判断是否存在异常值。对比Adobe Analytics和Webtrekk,Adobe Analytics仅在报表底部提供了数据汇总功能,相比之下,Webtrekk做的可圈可点:
提供了更多的整体数据查看选项。包括平均值、最大值、最小值、汇总、页面内数据汇总等,通过这些指标,可以一眼看到所选择的报表中数据的分布情况,结合顶部的数据趋势等图形可以有效判断数据分布。 提供了针对每天数据的提示功能。包括高亮或柱形图,日常我们在Excel中做数据汇总时,这种表示方法是基本的标注数据关注度的方法,如果把这个表格做成Dashboard直接发送给老板,老板会更容易在一堆数据中发现重点标注的数据;另外我们在自己做数据时也会非常容易发现数据的异常值。