我们在采用WordPress程序建站的时候,默认WP会有给我们根目录创建一个 robots.txt 文件。我们应该有知道,robots.txt 文件的作用是可以控制抓取协议,比如我们希望哪些目录不被搜索引擎抓取,设置允许抓取的,一般的我们robots.txt单站点的协议是如何写的呢?
User-agent: * Disallow: /wp-admin/ Disallow: /wp-content/ Disallow: /wp-includes/ Disallow: /*/comment-page-* Disallow: /*?replytocom=* Disallow: /category/*/page/ Disallow: /tag/*/page/ Disallow: /*/trackback Disallow: /feed Disallow: /*/feed Disallow: /comments/feed Disallow: /?s=* Disallow: /*/?s=*\ Disallow: /attachment/ Sitemap: https://www.zhujipingjia.com/wp-sitemap.xml
我们应该知道,WordPress还可以建议多站点,如果是WordPress多站点 robots.txt 如何写呢?多站点需要用到robots_txt钩子来完成。
function robots_mod( $output, $public ) { $output .= "Disallow: /feed\n"; $output .= "Disallow: /trackback\n"; $output .= "Disallow: /user/"; return $output; } add_filter( 'robots_txt', 'robots_mod', 10, 2 );
这样我们就可以在默认的基础上添加自定的几个目录限制抓取。放到对应站点主题Functions.php中。
评论