用个筛子控制数据-1:高级细分

这是一个系列文章,你可以查看之前的文章:

在Google Analytics里面,对数据的控制有2种方式:

1.高级细分;
2.过滤器。

 

我们先看看高级细分:
Image(1)

在新版界面的左上角有高级细分的功能按钮。点击后可以看到高级细分分为默认细分和自定义细分。

默认细分是系统已经给你建好的细分。比如新访问者,回访者等等。个人觉得对内容、资讯性网站而言,新访者、回访者、非跳出访问、搜索流量、直接流量、引荐流量这6个细分群体都可以使用观察下。对比每个群体在网站的具体表现,你会发现在平均数之后的秘密。

但是当深入了解这些细分后,会有自己新的想法,比如通过搜索引擎的新用户和老用户之间有什么差别了?这个细分系统是没有默认提供的,这就需要你自己建立一个新的细分了。

在创建新的高级细分之前,你应该了解以下知识:

1.Google Analytics 中的维度与指标概念;(参考之前的数据);
2.基础的正则表达式知识;(参考GA的相关文档);

Image(2)

操作步骤:

1.定义细分
考虑要设计的细分及其要包含的访问类型。为细分确定合适的维度或指标。比如你想研究下北京地区通过百度搜索的访问群体行为,那么你的高级细分应该这样定义:来自北京地区,同时是通过百度搜索来的。它有2个维度,一是城市,二是来源。

2.创建语句

Image(3)

如上图,根据我们的定义,选择第一个维度为“城市”,条件为包含,值为“beijing”。

现在我们已经建立了第一个条件:来自北京地区的访问者,那第二个条件来自百度如何控制了?这就需要组合语句了。

3.组合语句

组合语句是将多个条件语句通过“OR” 和“AND”两个逻辑关系进行组合。“OR”代表逻辑关系“或”,“AND”代表逻辑关系“且”。根据我们的细分要求,是要来自北京地区并且通过百度搜索过来的。所以组合条件我们选择“添加‘AND’语句”,建立第二个维度,选择第二个维度为“来源”,条件为完全匹配,值为“baidu”。

为什么第二个条件中要选择完全匹配了?因为如果选择包含的话会将zhidao.baidu.com等百度域名下的流量包含进来,而这些流量并不是通过搜索引擎过来的。

我们可以看到维度与值之间有条件关系:

完全匹配
匹配正则表达式
开头为
结尾为
包含
大于
小于

关于这些匹配关系,大家可以自己揣摩下。另外可以参考Google Anaytics官方文档中关于高级细分的详细说明

说了这么多,高级细分对于我们有什么意义了?

我们知道,网站分析中一般使用算术平均数:一组值的总和与除以组值个数,如平均停留时间,人均访问页面数等。在数学中,算术平均数用来估计统计常模或期望值。当所考虑的分布接近正态(即高斯分布或钟形)时,算术平均数很有效。

Image(4)

而绝大多数网站指标的分布不是高斯分布,可能是随机分布。非正态分布中,典型的访问者不会表现出一般的(平均的)行为,所以很多时候算术平均数会掩盖网站的真相。

Image(5)

因此高级细分是一个十分重要工具,它能够揭示那些被掩盖的真相。

补充:

高级细分是基于访次进行数据控制,这就意味着它是没法对访次进行切割的。比如你用虚拟页面跟踪了某些点击行为,知道这样会影响全站的访问深度和停留时间,现在想看看排除这些虚拟页面后数据表现如何。这种情况下高级细分无法帮你解决问题,因为高级细分是无法切割访次的,如果你做一个高级细分:页面不包含这些虚拟页面。那你则是将全部的访问过这些虚拟页面的访次排除了,而不是将这个页面排除。

如果真的碰到这个问题该如何处理了?过滤器是一个不错的选择,下一篇我们将会提到如何处理。

Powered by Jekyll and Theme by solid