<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
		>
<channel>
	<title>《肉砣砣- Intro》的评论</title>
	<atom:link href="http://lenciel.cn/docs/road22-intro/feed/" rel="self" type="application/rss+xml" />
	<link>http://lenciel.cn</link>
	<description>俏也不争春，只把春来叫</description>
	<lastBuildDate>Tue, 07 Feb 2012 06:04:17 +0000</lastBuildDate>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
	<item>
		<title>作者：ke</title>
		<link>http://lenciel.cn/docs/road22-intro/comment-page-1/#comment-6939</link>
		<dc:creator>ke</dc:creator>
		<pubDate>Thu, 16 Jun 2011 14:38:25 +0000</pubDate>
		<guid isPermaLink="false">http://lenciel.cn/docs/road22-intro/#comment-6939</guid>
		<description>由于学业的关系，现在在做网页crawling的方向的东西，看了您写的肉砣砣觉得挺不错的！不过由于我现在要改动程序这让我这个没啥经验的人很苦恼（这里卡了我1，2个月了），所以如果您能指点我一下我将不慎感激！
主要现在我是在做是关于thematic crawler的，也就是带方向（主题）的网页爬虫：
主要思想是从一些关键字入手在搜索引擎搜索，然后把搜索到的网页提供给爬虫进行挖掘，爬虫会找到所有的链接以及链接周围的文字（如何提取这样的文字呢？），把所有链接放入一个列表，然后对比和关键字最相配的链接进行向下挖掘（找到其所有的子链接），然后把列表中的母链接换成其所有子链接重新找和关键字最相近的链接，如此循环，直到满足必要条件结束。对我的难点在于在程序哪里改动来符合这个思想和如何提取网页，链接，子链接提及它们周围的文字。这让我百思不得其解，所以很冒昧地来请教您，希望得到您的指点和帮助！可能这个对您来说不会很困难，但对迷途中的人来说没有一些指点还真的很难弄出来，而一得到指点或许就是另外一个天地了（在这里回复我也可以或者直接发到我的邮箱：yannick.crystal@gmail.com,再次感谢！）！</description>
		<content:encoded><![CDATA[<p>由于学业的关系，现在在做网页crawling的方向的东西，看了您写的肉砣砣觉得挺不错的！不过由于我现在要改动程序这让我这个没啥经验的人很苦恼（这里卡了我1，2个月了），所以如果您能指点我一下我将不慎感激！<br />
主要现在我是在做是关于thematic crawler的，也就是带方向（主题）的网页爬虫：<br />
主要思想是从一些关键字入手在搜索引擎搜索，然后把搜索到的网页提供给爬虫进行挖掘，爬虫会找到所有的链接以及链接周围的文字（如何提取这样的文字呢？），把所有链接放入一个列表，然后对比和关键字最相配的链接进行向下挖掘（找到其所有的子链接），然后把列表中的母链接换成其所有子链接重新找和关键字最相近的链接，如此循环，直到满足必要条件结束。对我的难点在于在程序哪里改动来符合这个思想和如何提取网页，链接，子链接提及它们周围的文字。这让我百思不得其解，所以很冒昧地来请教您，希望得到您的指点和帮助！可能这个对您来说不会很困难，但对迷途中的人来说没有一些指点还真的很难弄出来，而一得到指点或许就是另外一个天地了（在这里回复我也可以或者直接发到我的邮箱：yannick.crystal@gmail.com,再次感谢！）！</p>
]]></content:encoded>
	</item>
</channel>
</rss>

