网站分析软件与GA随笔2:分析的基础工作–数据采集

网站分析--步骤不管是用何种分析工具,数据采集工作是不可避免的。任何分析工具的分析基础都是是我们采集的数据,如果采集的不准确,那后续的工作都是白费。大厦的建立需要坚实的基础,因此如果你想深入的了解下网站分析的原理,那么这部分内容是值得你花时间的,而且能够给你带来意想不到的收获。

1.常见的采集方式

根据采集数据动作发生的空间来看,数据采集大致可以分为以下几种(这是根据他人的经验总结划分的,如果有其他的新形式,欢迎你留言或Email告诉我:)):

网站分析--数据采集划分

在网站分析中,数据采集的目的就是获取用户此次访问的相关信息:如时间、IP、Cookie信息、当前页面、页面上进行了哪些动作等等。各种采集方式的区别就是你使用什么方法获取这些相关信息。有的是在浏览器上安装插件监听采集;有的在页面插入JavaScript代码,你在访问这个页面的时候JavaScript会执行一次,采集你本次访问这个页面的相关信息,再向服务器发送。有的是在服务器的页面上插入一段可执行程序脚本,当你请求这个页面的时候,它也会跟随执行并采集相关的信息。

关于各种方式的优缺点比较:

这个话题如果展开的话,可能需要一篇文章来说明,我建议你可以看看《精通Web Analytics 》(《Web Analytics An Hour a Day》),里面的章节对几种采集方式有了很好的比较。另外宋星的博客也部分资料:《服务器日志法网站分析的原理及优缺点》。如果以后有时间,我也会写下相关的内容。

2.GA中的JavaScript采集

网站分析--JS采集数据原理

从上图我们可以看出JS采集的原理和执行顺序。在GA中,如果页面插入了JS,而且你的浏览器没有禁止JS执行,那么你可以很清楚的看到GA的采集信息请求。查看的方法:使用Firefox安装HttpFox插码,过滤google-analytics请求,如下图:

网站分析--如何插码GA的JS执行情况

结合上面2幅图可以很清楚的看清GA的采集原理:通过一段JS的执行采集相关网页信息,并通过向www.google-analytics.com 发送一个_utm.gif的图片请求,将相关采集的信息通过请求参数的形式传递到GA的数据采集服务器。

在明白原理后,我们可以得到这样的信息:

1.如果页面没有请求,或者请求不成功(请求状态不是200),那么说明你的页面代码没有执行,或者页面停留的时间太短,没法将信息传递出去;

2.如果对页面的JS代码进行了自定义,通过查看请求,可以看出相关的自定义信息:比如事件跟踪、虚拟页面信息。

有了上面2条,你就可以对GA的数据采集工作进行检查和判断啦,比如事件跟踪信息有没有被采集;向多个账户发送信息是不是正确。不过这样还是不够的,你还需要对请求信息的字段含义进行理解,所以这个链接地址是需要看看的:GA请求参数信息

通过这篇文章的简短介绍,希望你能给明白采集的相关原理,以及如何判断你的GA插码是否正确:).

Powered by Jekyll and Theme by solid