<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
		>
<channel>
	<title>《肉砣砣(2) &#8211; Crawler》的评论</title>
	<atom:link href="http://lenciel.cn/docs/road22-crawler-intro/feed/" rel="self" type="application/rss+xml" />
	<link>http://lenciel.cn</link>
	<description>俏也不争春，只把春来叫</description>
	<lastBuildDate>Wed, 18 Apr 2012 06:36:10 +0000</lastBuildDate>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.2</generator>
	<item>
		<title>作者：ke</title>
		<link>http://lenciel.cn/docs/road22-crawler-intro/comment-page-1/#comment-6934</link>
		<dc:creator>ke</dc:creator>
		<pubDate>Wed, 15 Jun 2011 14:58:40 +0000</pubDate>
		<guid isPermaLink="false">http://lenciel.cn/docs/road22-crawler-intro/#comment-6934</guid>
		<description>请问哪里可以下载您的crawler啊？我是菜鸟一个但我现在我要做一个关于thematic crawler的，也就是带方向（主题）的网页爬虫 (所以可以的话还麻烦您发一份到我的邮箱里，十分感谢啊！！)：
主要思想是从一些关键字入手在搜索引擎搜索，然后把搜索到的网页提供给爬虫进行挖掘，爬虫会找到所有的链接以及链接周围的文字（一般如何提取这样的文字呢？），把所有链接放入一个列表，然后对比和关键字最相配的链接进行向下挖掘（找到其所有的子链接），然后把列表中的母链接换成其所有子链接重新找和关键字最相近的链接，如此循环，直到满足必要条件结束。如果要在您的crawler中实现起来简单吗？可以说说大概如何实现吗？非常感谢！！！</description>
		<content:encoded><![CDATA[<p>请问哪里可以下载您的crawler啊？我是菜鸟一个但我现在我要做一个关于thematic crawler的，也就是带方向（主题）的网页爬虫 (所以可以的话还麻烦您发一份到我的邮箱里，十分感谢啊！！)：<br />
主要思想是从一些关键字入手在搜索引擎搜索，然后把搜索到的网页提供给爬虫进行挖掘，爬虫会找到所有的链接以及链接周围的文字（一般如何提取这样的文字呢？），把所有链接放入一个列表，然后对比和关键字最相配的链接进行向下挖掘（找到其所有的子链接），然后把列表中的母链接换成其所有子链接重新找和关键字最相近的链接，如此循环，直到满足必要条件结束。如果要在您的crawler中实现起来简单吗？可以说说大概如何实现吗？非常感谢！！！</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：lenciel</title>
		<link>http://lenciel.cn/docs/road22-crawler-intro/comment-page-1/#comment-5076</link>
		<dc:creator>lenciel</dc:creator>
		<pubDate>Thu, 23 Jul 2009 02:18:19 +0000</pubDate>
		<guid isPermaLink="false">http://lenciel.cn/docs/road22-crawler-intro/#comment-5076</guid>
		<description>为什么我用的时候没有出现过呢？我一抓就是几千几百页的数据....</description>
		<content:encoded><![CDATA[<p>为什么我用的时候没有出现过呢？我一抓就是几千几百页的数据&#8230;.</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：weil</title>
		<link>http://lenciel.cn/docs/road22-crawler-intro/comment-page-1/#comment-5061</link>
		<dc:creator>weil</dc:creator>
		<pubDate>Fri, 17 Jul 2009 12:05:19 +0000</pubDate>
		<guid isPermaLink="false">http://lenciel.cn/docs/road22-crawler-intro/#comment-5061</guid>
		<description>最近研究lxml建立树时发现会丢掉一部分取来的html
就这点来看,php的dom更好一些.
丢掉的数据可以是你刚好要抓取的.郁闷</description>
		<content:encoded><![CDATA[<p>最近研究lxml建立树时发现会丢掉一部分取来的html<br />
就这点来看,php的dom更好一些.<br />
丢掉的数据可以是你刚好要抓取的.郁闷</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：lenciel</title>
		<link>http://lenciel.cn/docs/road22-crawler-intro/comment-page-1/#comment-5035</link>
		<dc:creator>lenciel</dc:creator>
		<pubDate>Tue, 14 Jul 2009 01:16:52 +0000</pubDate>
		<guid isPermaLink="false">http://lenciel.cn/docs/road22-crawler-intro/#comment-5035</guid>
		<description>云中高手啥意思？云中鹤么，哈哈。</description>
		<content:encoded><![CDATA[<p>云中高手啥意思？云中鹤么，哈哈。</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：weil</title>
		<link>http://lenciel.cn/docs/road22-crawler-intro/comment-page-1/#comment-5021</link>
		<dc:creator>weil</dc:creator>
		<pubDate>Fri, 10 Jul 2009 18:19:07 +0000</pubDate>
		<guid isPermaLink="false">http://lenciel.cn/docs/road22-crawler-intro/#comment-5021</guid>
		<description>:tongue: 向云中的高手学习</description>
		<content:encoded><![CDATA[<p> <img src='http://lenciel.cn/wp-includes/images/smilies/icon_rolleyes.gif' alt=':tongue:' class='wp-smiley' /> 向云中的高手学习</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：Leo</title>
		<link>http://lenciel.cn/docs/road22-crawler-intro/comment-page-1/#comment-4292</link>
		<dc:creator>Leo</dc:creator>
		<pubDate>Mon, 05 Jan 2009 09:11:19 +0000</pubDate>
		<guid isPermaLink="false">http://lenciel.cn/docs/road22-crawler-intro/#comment-4292</guid>
		<description>最后一句话可谓是金玉良言</description>
		<content:encoded><![CDATA[<p>最后一句话可谓是金玉良言</p>
]]></content:encoded>
	</item>
</channel>
</rss>

