您当前的位置主页 > 网站推广 > 浏览文章

不完美的网站分析数据:数据理想化和访问者理想化

来源:网站推广 2012-11-13

快速提升网站销量,使用365webcall在线客服软件

一、 技术理想化

每种数据收集方式都有其独特的技术优势,但没有一种收集方式能完美的捕获到访问者在网站上的所有动作,每种技术也都会由于自身的局限性导致你看到的数据是并不完美的数据。以计算页面停留时间为例,下图是一次访问的时间记录:(图示中时间皆为进入页面的时刻)

通常计算页面停留时间的方法为:当前页面的进入时刻与下一页面的进入时刻差。由此得知上例中页面的停留分别如下:

页面A:5分钟

页面B:1分钟

页面C:4分钟

页面D:?

为什么页面D的停留时间没有?没错,无论哪种收集方式都无法捕捉到页面D的准确停留时间,原因很简单,这些数据收集方式都无法捕捉到访问者离开的时刻(或者在退出页停留了半天没做任何点击,或者直接关闭了浏览器)。所以不同的工具厂商对退出页的停留时间有不同的定义,有的统一计算为1分钟,有的干脆认为是0分钟。

目前主要有下面几种技术或限制数据的获取,或混淆现有收集到的数据。

1. 缓存

这里说的缓存不是指物理芯片例如CPU的缓存,而是为了节约网络资源,提高浏览网页速度建立的浏览器缓存或代理服务器缓存。简单的理解这两种缓存就是,将曾经访问过的网页内容(包括图片以及cookie文件等)存放在电脑或代理服务器里。当你调用以前阅读过的页面时,可以直接调出缓存中的内容,而不需要再次从网站服务器上重新传送数据。

下图就是访问一个网站后本地缓存文件夹中留下的文件记录:

由于当访问者通过本地缓存访问网站时,并不会往网站服务器发送请求,服务器中自然也就不存在这次访问的Log记录。也就是说通过Web日志收集到的数据一定会丢失这部分流量。

2. 网络爬虫

如果想要讲清搜索引擎爬虫的原理和算法恐怕单开一个章节都不够,而且也不是这本书关注的内容,所以这里就不再赘述。

下面先给出一条网站服务器Log中的搜索引擎爬虫记录:

203.208.60.178 [10/Nov/2011:12:00:00 +0800] “-” “GET /index.php HTTP/1.1″ 200 30000 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +/wangzhanfenxi-shuju-buwanmei

文章编辑: 365webcall网上客服系统(www.365webcall.com)

我的评论

登录账号: 密码: 快速注册 | 找回密码