<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>等待喝彩_OnEcho &#187; robots.txt</title>
	<atom:link href="http://www.onecho.com/tag/robotstxt/feed" rel="self" type="application/rss+xml" />
	<link>http://www.onecho.com</link>
	<description>http://www.onecho.com  回声的启示</description>
	<lastBuildDate>Fri, 16 Jul 2010 14:18:16 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.8.5</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>[SEO]WordPress 优化之 robots.txt</title>
		<link>http://www.onecho.com/2008-09-13/341.html</link>
		<comments>http://www.onecho.com/2008-09-13/341.html#comments</comments>
		<pubDate>Sat, 13 Sep 2008 08:16:06 +0000</pubDate>
		<dc:creator>Kenami</dc:creator>
				<category><![CDATA[WordPress]]></category>
		<category><![CDATA[robots.txt]]></category>
		<category><![CDATA[SEO]]></category>
		<category><![CDATA[WordPress 优化]]></category>

		<guid isPermaLink="false">http://www.onecho.com/?p=341</guid>
		<description><![CDATA[由于链接的的指向，而导致网站内容重复，一直是网站SEO的大忌。不同的链接指向同一个网页，就会被搜索引擎判定为作弊。昨天提到的WordPress重定向插件，在一定意义上也是为了阻止重复内容。然而，由于WordPress的结构原因，往往就会发生网页内容重复的状况。例如：http://www.domain.com/archive/1 和 http://www.domain.com/archive/1/feed两个网址下的内容就是一样的，所以，我们就必须想办法阻止这样的情况发生。 ]]></description>
			<content:encoded><![CDATA[<p>由于链接的的指向，而导致网站内容重复，一直是网站SEO的大忌。不同的链接指向同一个网页，就会被搜索引擎判定为作弊。昨天提到的<strong style="color: black; background-color: #ffff66;">WordPress</strong>重定向插件，在一定意义上也是为了阻止重复内容。然而，由于<strong style="color: black; background-color: #ffff66;">WordPress</strong>的结构原因，往往就会发生网页内容重复的状况。例如：http://www.domain.com/archive/1  和 http://www.domain.com/archive/1/feed两个网址下的内容就是一样的，所以，我们就必须想办法阻止这样的情况发生。</p>
<p>通常，解决重复内容的方法有：使用noindex标签，利用excerpt实现内容摘要，以及配置<strong style="color: black; background-color: #99ff99;">robots.txt</strong>。今天就主要说说在<strong style="color: black; background-color: #ffff66;">WordPress</strong>下使用<strong style="color: black; background-color: #99ff99;">robots.txt</strong>文件。</p>
<p><strong style="color: black; background-color: #99ff99;">robots.txt</strong>文件就像一个网站的大门，它会告诉搜索引擎的蜘蛛，可以抓取哪里的网页内容，哪里的不能抓取。因此，配置好<strong style="color: black; background-color: #99ff99;">robots.txt</strong>文件，完全可以理想的组织blog内容重复的问题。<strong style="color: black; background-color: #99ff99;">robots.txt</strong>的具体文法和使用方法，可以参考robotstxt.org。在国内，此类的<strong style="color: black; background-color: #ffff66;">WordPress</strong> <strong style="color: black; background-color: #99ff99;">robots.txt</strong>比较流行：<br />
<span id="more-341"></span></p>
<p>User-agent: *<br />
Disallow: /wp-<br />
Disallow: /feed/<br />
Disallow:  /comments/feed<br />
Disallow: /trackback/<br />
Disallow: /?s=</p>
<p>刚才看到  filination.com上面提到的一个robots文件，并且提供了简短的解释。刚刚接触<strong style="color: black; background-color: #99ff99;">robots.txt</strong>文件的朋友，可以参考一下：</p>
<p>User-agent: Googlebot</p>
<p># Disallow all directories and files  within<br />
Disallow: /cgi-bin/<br />
Disallow: /wp-admin/<br />
Disallow:  /wp-includes/</p>
<p># Disallow all files ending with these extensions<br />
Disallow: /*.php$<br />
Disallow: /*.js$<br />
Disallow: /*.inc$<br />
Disallow:  /*.css$</p>
<p># Disallow parsing individual post feeds, categories and  trackbacks..<br />
Disallow: */trackback/<br />
Disallow: */feed/<br />
Disallow:  /category/*</p>
<p><strong style="color: black; background-color: #99ff99;">Robots.txt</strong>因人而异，不同的人对robots有不同的理解，在加上SEO一直是一个热门话题，所以<strong style="color: black; background-color: #ffff66;">WordPress</strong>的robots文件不会是唯一的，也不会有一个最好的。大家要是有觉得更好的，不妨分享一下。</p>
]]></content:encoded>
			<wfw:commentRss>http://www.onecho.com/2008-09-13/341.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>搜索引擎机器人对我网站的爬行记录</title>
		<link>http://www.onecho.com/2008-09-13/332.html</link>
		<comments>http://www.onecho.com/2008-09-13/332.html#comments</comments>
		<pubDate>Sat, 13 Sep 2008 06:41:46 +0000</pubDate>
		<dc:creator></dc:creator>
				<category><![CDATA[随想]]></category>
		<category><![CDATA[google机器人]]></category>
		<category><![CDATA[robots.txt]]></category>
		<category><![CDATA[爬行记录]]></category>
		<category><![CDATA[百度蜘蛛]]></category>

		<guid isPermaLink="false">http://www.onecho.com/?p=332</guid>
		<description><![CDATA[博客开通才不到两个星期，平时主要的时间还是添加插件和优化功能，页面添加的不是很多，大概平均一天三篇，转载的和原创的都有。

这几天我记录了搜索引擎网站的机器人对我网站的爬行，发出来供大家研究（我是10号想各搜索引擎提交网站的）：
]]></description>
			<content:encoded><![CDATA[<p>博客开通才不到两个星期，平时主要的时间还是添加插件和优化功能，页面添加的不是很多，大概平均一天三篇，转载的和原创的都有。</p>
<p>这几天我记录了搜索引擎网站的机器人对我网站的爬行，发出来供大家研究（我是10号向各搜索引擎提交网站的）：</p>
<h3>2008年 九月 11日 17:46 更新  提交第二天</h3>
<p><span style="color: #99cc00;">Googlebot 247+5 4.41 M字节 2008年 九月 11日 17:14<br />
Unknown robot (identified by &#8217;spider&#8217;) 97 2.07 M字节 2008年 九月 11日 17:17<br />
Yahoo Slurp 74+11 1.73 M字节 2008年 九月 11日 11:49<br />
Unknown robot (identified by &#8216;bot/&#8217; or &#8216;bot-&#8217;) 28 689.24 K字节 2008年 九月 11日 11:26<br />
MSNBot 21 18.91 K字节 2008年 九月 11日 17:14<br />
BlogPulse ISSpider intelliseek.com 9+7 100.64 K字节 2008年 九月 07日 19:48<br />
Yahoo Feed Seeker 4+3 73.74 K字节 2008年 九月 10日 09:55<br />
Unknown robot (identified by &#8216;crawl&#8217;) 1+4 26.25 K字节 2008年 九月 10日 12:04<br />
Unknown robot (identified by hit on &#8216;robots.txt&#8217;) 0+3 831 个字节 2008年 九月 11日 16:35<br />
BaiDuSpider 0+2 554 个字节 2008年 九月 11日 05:42<br />
其他 1+1 30.55 K字节</span></p>
<p><span id="more-332"></span><br />
以上可以看出google收录最快，页面最多，247+5  前面的247是爬行的页面，+号后面是读取robots.txt文件的次数；这里面百度少的可怜；</p>
<h3>2008年 九月 12日 22:23 更新  提交第三天</h3>
<p><span style="color: #99cc00;">Googlebot 268+6 5.01 M字节 2008年 九月 12日 16:16<br />
Unknown robot (identified by &#8217;spider&#8217;) 241+2 5.45 M字节 2008年 九月 12日 21:31<br />
BaiDuSpider 225+6 5.10 M字节 2008年 九月 12日 20:50<br />
Yahoo Slurp 201+17 4.91 M字节 2008年 九月 12日 21:41<br />
MSNBot 59 98.85 K字节 2008年 九月 12日 17:37<br />
Unknown robot (identified by &#8216;bot/&#8217; or &#8216;bot-&#8217;) 47 1.09 M字节 2008年 九月 12日 17:25<br />
BlogPulse ISSpider intelliseek.com 9+7 100.64 K字节 2008年 九月 07日 19:48<br />
Unknown robot (identified by hit on &#8216;robots.txt&#8217;) 0+16 3.79 K字节 2008年 九月 12日 21:12<br />
Yahoo Feed Seeker 4+3 73.74 K字节 2008年 九月 10日 09:55<br />
Unknown robot (identified by &#8216;crawl&#8217;) 1+4 26.25 K字节 2008年 九月 10日 12:04<br />
其他 2+3 58.39 K字节 </span></p>
<p>百度上来了哈～～～</p>
<h3>2008年 九月 13日 12:08 更新  提交第四天</h3>
<p><span style="color: #99cc00;">Googlebot 340+6 6.82 M字节 2008年 九月 13日 08:33<br />
BaiDuSpider 337+8 7.76 M字节 2008年 九月 13日 10:21<br />
Unknown robot (identified by &#8217;spider&#8217;) 294+4 6.95 M字节 2008年 九月 13日 08:49<br />
Yahoo Slurp 211+20 5.18 M字节 2008年 九月 13日 10:32<br />
MSNBot 63 108.46 K字节 2008年 九月 13日 03:06<br />
Unknown robot (identified by &#8216;bot/&#8217; or &#8216;bot-&#8217;) 61 1.45 M字节 2008年 九月 13日 06:18<br />
Unknown robot (identified by hit on &#8216;robots.txt&#8217;) 0+17 4.06 K字节 2008年 九月 13日 02:17<br />
BlogPulse ISSpider intelliseek.com 9+7 100.64 K字节 2008年 九月 07日 19:48<br />
Yahoo Feed Seeker 5+4 106.83 K字节 2008年 九月 13日 04:16<br />
Unknown robot (identified by &#8216;crawl&#8217;) 1+4 26.25 K字节 2008年 九月 10日 12:04<br />
其他 3+4 91.51 K字节</span></p>
<h3>2008年 九月 13日 14:13 更新  提交第四天</h3>
<p><span style="color: #99cc00;">BaiDuSpider 383+8 8.89 M字节 2008年 九月 13日 13:59<br />
Googlebot 344+7 6.97 M字节 2008年 九月 13日 12:53<br />
Unknown robot (identified by &#8217;spider&#8217;) 295+4 6.99 M字节 2008年 九月 13日 13:19<br />
Yahoo Slurp 218+20 5.39 M字节 2008年 九月 13日 13:48<br />
MSNBot 67 118.73 K字节 2008年 九月 13日 13:02<br />
Unknown robot (identified by &#8216;bot/&#8217; or &#8216;bot-&#8217;) 67 1.59 M字节 2008年 九月 13日 13:16<br />
Unknown robot (identified by hit on &#8216;robots.txt&#8217;) 0+18 4.06 K字节 2008年 九月 13日 11:13<br />
BlogPulse ISSpider intelliseek.com 9+7 100.64 K字节 2008年 九月 07日 19:48<br />
Yahoo Feed Seeker 5+4 106.83 K字节 2008年 九月 13日 04:16<br />
Unknown robot (identified by &#8216;crawl&#8217;) 1+4 26.25 K字节 2008年 九月 10日 12:04<br />
其他 3+4 91.51 K字节</span></p>
<p><span style="color: #000000;">百度已经赶到第一位了，而且收录的字</span>节数明显多于其他，不知道什么原因；而且可以看出蜘蛛爬的频率很快；看来得经常更新啊。</p>
<p>现在的网站还没有被任何搜索引擎收录，充满期待&#8230;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.onecho.com/2008-09-13/332.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
