网站相关

网站日志怎么查看及分析

  常见的蜘蛛有:

  Baiduspider:百度蜘蛛

  Baiduspider-Image:百度图片蜘蛛

  Googlebot:谷歌机器人

  Googlebot-Image:谷歌图片机器人

  360Spider:360蜘蛛

  sogou spider:搜狗蜘蛛

  网站日志数据分析

  1、网站日志中数据量过大,所以我们一般需要借助网站日志分析工具来查看。常用的日志分析工具有:光年日志分析工具、web log exploer、爱站工具包等。

  117.26.203.167 - - [02/May/2011:01:57:44 -0700] "GET/index.php HTTP/1.1" 500 19967 "-" "Mozilla/4.0 (compatible; MSIE 8.0;Windows NT 5.1; Trident/4.0; AskTbCS-ST/5.11.3.15590; .NET CLR 2.0.50727; Alexa Toolbar)"

  分析:

  117.26.203.167访问ip

  02/May/2011:01:57:44 -0700访问日期 -时区

  GET/index.php HTTP/1.1根据HTTP/1.1协议抓取(域名下)/index.php这个页面(GET表示服务器动作)

  500服务器响应状态码

  服务器响应状态码通常状态码有以下几种:200,301,302,304,404,500等。200代表用户成功的获取到了所请求的文件,如果是搜索引擎,则证明蜘蛛在这次爬行中顺利的发现了一些新的内容。而301则代表用户所访问的某个页面url已经做了301重定向(永久性)处理,302则是暂时性重定向。404则代表所访问的页面已经不存在了,或者说访问的url根本就是个错误的。500则是服务器的错误。

  19967表示抓取了19967个字节

  Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; AskTbCS-ST/5.11.3.15590; .NET CLR 2.0.50727; Alexa Toolbar表示访问者使用火狐浏览器及Alexa Toolbar等访问端信息

  2、如果你的日志里格式不是如此,则代表日志格式设置不同。

  3、很多日志里可以看到 200 0 0和200 0 64则都代表正常抓取。

  4、抓取频率是通过查看每日的日志里百度蜘蛛抓取次数来获知。抓取频率并没有一个规范的时间表或频率数字,我们一般通过多日的日志对比来判断,当然,我们希望百度蜘蛛每日抓取的次数越多越好。

  5、有时候我们的路径不统一出现带斜杠和不带斜杠的问题,蜘蛛会自动识别为301跳转到带斜杠的页面,这里我们就发现了搜索引擎是可以判断我们的目录的,所以我们要对我们的目录进行统一。

  6、我们分析日志分析时间长了,我们能够看出蜘蛛的抓取规律,同一目录下面的单个文件的抓取频率间隔和不同目录的抓取频率间隔都可以看出来,这些抓取频率间隔时间是蜘蛛根据网站权重和网站更新频率来自动确定的。

  7、蜘蛛对于我们的页面的抓取是分等级的,是根据权重依次递减的,一般顺序为首页、目录页、内页。

  通过网站日志我们能知道什么?

  1、我们买的空间是否能够稳定?

  2、蜘蛛对我们的那些页面比较喜欢而对哪些不喜欢?

  3、蜘蛛什么时候抓取我们的网站频繁,我们需要什么时候更新内容。




免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:bkook@qq.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。
上一篇:传统DNS安全问题有哪些?传统DNS系统存在哪些安全隐患?
下一篇:网站安装了ssl证书,却提示SSL证书无效
0

在线
客服

在线客服服务时间:9:00-18:00

客服
热线

19899115815
7*24小时客服服务热线

关注
微信

关注官方微信
顶部