如果我们是希望运营网站的话,你应该是需要有一个可以查看网站蜘蛛爬行抓取状态的工具。当然,我们可以通过百度站长工具后台进行查看抓取数据,但是这个数据信息不够具体化,而且只能看到百度蜘蛛的抓取数据,如果我们也需要查看谷歌、搜狗、360等等其他搜索引擎的蜘蛛抓取信息呢?
这里,我可以借助 wordpress蜘蛛记录插件来看WordPress网站的蜘蛛信息,如果我们有需要可以选择。这里麦子有整理比较常见的3个插件。
SpiderDisplay
麦子推荐这款 SpiderDisplay 搜索引擎蜘蛛痕迹记录插件。
这里我们安装好插件之后,可以等待蜘蛛抓取爬虫,然后可以看到根据天数记录和删除记录。我们可以看到抓取次数,以及详细的抓取情况。
这个插件功能看似不多,而且也不美观,但是我们实际需要的功能是满足我们看到抓取的页面目录以及可以看到抓取的搜索引擎蜘蛛。
插件下载:夸克网盘
无插件实现
function get_naps_bot(){ $useragent = strtolower($_SERVER['HTTP_USER_AGENT']); if (strpos($useragent, 'googlebot') !== false){ return 'Googlebot'; } if (strpos($useragent, 'msnbot') !== false){ return 'MSNbot'; } if (strpos($useragent, 'slurp') !== false){ return 'Yahoobot'; } if (strpos($useragent, 'baiduspider') !== false){ return 'Baiduspider'; } if (strpos($useragent, 'sohu-search') !== false){ return 'Sohubot'; } if (strpos($useragent, 'lycos') !== false){ return 'Lycos'; } if (strpos($useragent, 'robozilla') !== false){ return 'Robozilla'; } return false; } function nowtime(){ date_default_timezone_set('Asia/Shanghai'); $date=date("Y-m-d.G:i:s"); return $date; } $searchbot = get_naps_bot(); if ($searchbot) { $tlc_thispage = addslashes($_SERVER['HTTP_USER_AGENT']); $url=$_SERVER['HTTP_REFERER']; $file="robotslogs.txt"; $time=nowtime(); $data=fopen($file,"a"); $PR="$_SERVER[REQUEST_URI]"; fwrite($data,"Time:$time robot:$searchbot URL:$tlc_thispage\n page:$PR\r\n"); fclose($data); }
我们将代码插入到当前的主题 Functions.php 文件中。然后我们需要在网站根目录创建一个文件:
robotslogs.txt
且需要给予写入权限。
Spider Analyser
Spider Analyser 这款是来自闪电博的蜘蛛爬行抓取插件,有付费PRO版本,免费版本对于一般用户是够用的。Spider Analyser是一款用于跟踪WordPress网站各种搜索引擎蜘蛛爬行日志,并进行详细的蜘蛛爬行数据统计、蜘蛛行为分析、蜘蛛爬取分析及伪蜘蛛拦截等。
这样,我们可以从上面的WordPress蜘蛛记录插件中选择一个适合自己的。
评论