失传已久的网站日志分析

2016-09-07 04:53 阅读 154 次 评论 4 条

网站日志分析是SEO人员必备的技能之一,如果不会一个网站的日志分析,就不是一个合格的SEO,对于老站长来说是轻而易举的事情,对于新站长则是一头雾水,不知所措。下面星辰SEO博客为新手朋友分享网站日志分析操作流程以及相关问题。
 

一、网站日志是什么

 
网站日志就是记录网站被访问的全过程,什么时间来的,是什么访客,是什么搜索引擎来的,访问了你哪些页面,用了什么操作系统,什么浏览器,最后得出什么结果,是否访问成功。网站日志的信息是最准确,最全面的。
 

二、网站日志格式

 
网站日志一般由空间支持,主流的一般有以下两种:
 
1、windows系统的IIS网站日志
 
2、linux主机的apache网站日志
 

三、网站日志下载

 
一般正常的空间都支持日志下载,在控制面板里面,找到下载,然后通过FTP找到网站根目录/域名/logs/文件,下载到本地桌面,具体情况请咨询你所购买的空间商,因为每个空间的日志下载不一样。本博客是香港空间,不需要进入空间控制面板,直接登陆FTP,找到网站根目录/域名/logs/文件就可下载,如下图所示:
 
FTP中网站日志下载
 

四、网站日志分析流程

 
下面分析IIS网站日志,准备工作,下载WPS软件或者电脑系统自带的Excel工作表。
 
1、下载的网站日志解压到当前文件夹
 
2、修改网站日志文件格式为.TXT
 
3、用记事本打开日志文件,删除#号前面4行并保存文件。
 
记事本打开网站日志文件修改前
 
记事本打开网站日志文件修改后
 
4、新建Excel 工作表 (WPS中的Excel)
 
5、打开execl表格
 
鼠标定位第一个单元格,选择【数据】,【导入数据】,点击下一步,选择【所有文件】,找到日志文件打开,点击下一步,

 

网站日志在execl表格中选择数据和导入数据

 

选择【分隔符号】,点击下一步,

 

网站日志在execl表格中选择分隔符号

 

选择【空格】,点击下一步,点击完成。

 

网站日志在execl表格中选择空格

 
6、删除没用的,相同的数据,保留time、cs-uri-stem、c-ip、cs(User-Agent)、sc-status。
 
7、各数据名称解释如下图:

 

网站日志中的各数据名称解释

 

#Software 生成软件
#Version 版本

#Date 日志发生日期

#Fields 字段,显示记录信息的格式,可由IIS自定义。

日志的主体是一条一条的请求信息,请求信息的格式是由#Fields定义的,每个字段都有空格隔开。

date 发出请求时候的日期

time 时间

s-sitename 服务名

s-ip 服务器的IP地址

cs-method 请求方法GET/POST

cs-uri-stem 请求文件

cs-uri-query 请求参数

s-port 端口号

cs-username 客户端用户名

c-ip 客户端IP

cs(User-Agent) 用户代理、客户端浏览器、操作系统等情况

sc-status HTTP状态码

sc-substatus HTTP子状态码

sc-win32-status Windows状态码

sc-bytes 服务器发送的字节数

cs-bytes 服务器接受的字节数

time-taken 花费的时间

 
8、鼠标点击1、视图、冻结窗口,把time、cs-uri-stem、c-ip、cs(User-Agent)、sc-status固定在最上面,方便分析。
 
网站日志在execl表格中选择视图和冻结窗口
 
9、选择要分析的地方,鼠标放最上面,点击筛选。
 
10、分析数据
 
主要分析301、404、访客行为、搜索引擎蜘蛛爬行频率,真假蜘蛛、以及访问了哪些页面、有什么人用程序扫描你网站文件、注意那些被频繁访问的文件、注意那些你网站上不存在资源的请求。另外,对HTTP状态码不太熟悉的朋友可以到站长工具中HTTP状态查询,网址:http://tool.chinaz.com/pagestatus/"
 
随便分析一段IIS网站日志
 

time:0:01:31

cs-uri-stem:/index.html

c-ip:123.125.71.43

cs(User-Agent):Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html)

sc-status:200

完整的信息显示为:百度蜘蛛2.0版本0点01分31秒访问了域名/index.html这个页面,客服端IP为123.125.71.43,HTTP状态码为200,表示访问成功。使用的是火狐浏览器5.0的版本。

 
11、如何辨别真假蜘蛛
 
(1)、百度官方真蜘蛛格式为以下两种:

移动端: Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

PC端:Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

不是上面两种格式的判断为假蜘蛛,资料来源于百度站长平台:http://zhanzhang.baidu.com/college/articleinfo?id=335" ,当然还有360蜘蛛,谷歌机器人等等。
 
(2)、通过指令判断真假蜘蛛
 
随便找两端IP:220.181.108.140和117.28.255.37,开始—运行—输入cmd按回车键,用命令nslookup空格+ip回车键,如下图所示:

 

通过指令判断真假蜘蛛
 
apache网站日志分析:
 
apache网站日志的分析方法和IIS网站日志一样,操作流程相同,不同的是没有IIS网站日志完整,分析方法一样,下面以一段apache日志分析:
 

218.19.140.242 - - [10/Dec/2010:09:31:17 +0800] "GET /query/trendxml/district/todayreturn/month/2009-12-14/2010-12-09/haizhu_tianhe.xml HTTP/1.1" 200 1933 "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.2.8) Gecko/20100722 Firefox/3.6.8 (.NET CLR 3.5.30729)"

218.19.140.242 这是一个请求到apache服务器的客户端ip

- 这一项是空白,使用"-"来代替,这个位置是用于标注访问者的标示

- 这一项又是为空白,不过这项是用户记录用户HTTP的身份验证,如果某些网站要求用户进行身份验证,那么这一项就是记录用户的身份信息。

[10/Dec/2010:09:31:17 +0800] 第四项是记录请求的时间,格式为[day/month/year:hour:minute:second zone],最后的+0800表示服务器所处的时区为东八区。

"GET /..haizhu_tianhe.xml HTTP/1.1" 这一项整个记录中最有用的信息,首先,它告诉我们的服务器收到的是一个GET请求,其次,是客户端请求的资源路径,第三,客户端使用的协议是HTTP/1.1,整个格式为请求方法/访问路径/协议"

200 这是一个状态码,由服务器端发送回客户端,它告诉我们客户端访问正常。

1933 这项表示服务器向客户端发送了多少的字节,在日志分析统计的时侯,把这些字节加起来就可以得知服务器在某点时间内总的发送数据量是多少

- 暂不知

"Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.2.8) Gecko/20100722 Firefox/3.6.8 (.NET CLR 3.5.30729)" 这项主要记录客户端的浏览器信息。

完整的信息显示为:2010年12月10日09点31分17秒,客户端218.19.140.242的ip访问了/query/trendxml/district/todayreturn/month/2009-12-14/2010-12-
09/haizhu_tianhe.xml这个页面,用了火狐浏览器5.0版本,操作系统为Windows,发送了1933字节,最后结果为访问成功。

 
 
总结:网站日志分析很复杂,需要慢慢练习,通过网站日志分析可以看到最原始、最真实的数据,从而制定相应的措施。比如,如果发现有人恶意扫描你网站文件,可以禁止对方IP访问;发现假蜘蛛封杀其IP;对于正常的用户访问,我们需要仔细研究,为以后的网站优化提供科学的依据。当然网上也有很多在线分析工具以及其他的软件分析方法,不过没有手动分析全面,准确。最后提醒,本方法适用中小型网站,如果网站日志数据过大,手动分析方法就不适用,需要更专业,更强大的分析软件。



版权声明:本文著作权归原作者所有,欢迎分享本文,谢谢支持!
转载请注明:失传已久的网站日志分析 | 星辰seo博客
分类:SEO技术 标签:

发表评论


表情

  1. 增达信购
    增达信购 【农民】 @回复

    偶然来访,受益良多!

    • zhongguolxb
      zhongguolxb【站长】 @回复

      欢迎常来!

  2. 广告任务网
    广告任务网 【农民】 @回复

    认真拜读中……

    • zhongguolxb
      zhongguolxb【站长】 @回复

      欢迎来访!