定向采集是织梦采集侠亮点功能之一,简单配置采集规则即可精确采集到文章标题、作者、来源、内容和分页,通过这篇教程大家可以懂得如何配置这些采集规则,从而简单方便的采集内容,熟悉该方法后,您将会抛弃传统复杂的采集方式,采用织梦采集侠的定向采集功能进行采集。
和传统的采集方式相比,织梦采集侠的定向采集功能更为简单,不需要编写复杂的采集规则,可供设置的地方就那么几项,简单配置一下即可采集内容。 定向采集规则设置: 1)目标页面编码
目标页面编码的设置最为简单,您只需要查看一下您要采集的网站页面所采用的是什么编码即可,查看方法很简单,打开您要采集的网页,点击鼠标右键,点击查看网站源码,搜索charset,查看charset后面紧跟的是utf-8还是gb2312,然后在采集规则设置目标页面编码设置对应的编码即可。 2)列表URL
列表URL是您要采集网站的列表
列表URL一般是你需要采集的文章的列表页,因为只有列表页才有众多被采集文章的URL,通过列表URL规则和文章URL规则,可以匹配出该列表页符合文章URL规则的文章页URL来。
如果只是单纯采集列表页的第一页,直接输入该列表URL就行,如我要采集站长之家的优化栏目的第一页,那列表URL就输入:http://www.chinaz.com/web/seo/,即可。采集第一页的内容的好处就是可以不用采集老旧的新闻,而且有新更新也可以及时采集到,如果需要采集该栏目的所有内容,那也可以通过设置通配符的方式,匹配所有列表URL规则。
匹配URL规则的方法也很简单,你只需要查看列表分页的不同,加个通配符即可,如站长之家的优化栏目:http://www.chinaz.com/web/seo/,这是首页的,
第一页的URL是:http://www.chinaz.com/web/seo/1.shtml 第二页的URL是:http://www.chinaz.com/web/seo/2.shtml 第三页的URL是:http://www.chinaz.com/web/seo/3.shtml
通过观察列表URL的变化,可以看出第一页就是1.shtml,第二页就是2.shtml,第三页就是3.shtml,变换的就是页码而已,列表页的URL通配符是 [开始页-结束页] ,假如你要采集栏目前二十页的,那么列表URL规则就是:
http://www.chinaz.com/web/seo/[1-20].shtml,看到其中的区别了吧,就是在变换的部分加入通配符,从开始页到结束页即可。 3)文章URL
文章URL规则和列表URL规则设置差不多,也是通配变换的部分,只是通配符不一样而已,文章URL使用通配符 (*) 来匹配,有采集规则编写经验的用户可以很容易理解,通配符可以代替一个或多个真正的字符,通过下面例子更加直观的了解通配符的使用方法。 例:
比如我要采集站长之家优化栏目里面的文章,他们的文章URL是 http://www.chinaz.com/web/2011/0926/211708.shtml http://www.chinaz.com/web/2011/0926/211705.shtml http://www.chinaz.com/web/2011/0926/211694.shtml
通配后的URL就是:http://www.chinaz.com/web/(*)/(*)/(*).shtml
也就是说数字部分是变换的部分,可以看得出他的URL结构是年/月日/文章ID的形式,年月日和文章ID是会变换的,所以就通配这三部分内容就行。
我们可以输入列表URL规则和文章URL规则,然后点击测试,会看到下图的测试结果,也就是匹配成功了,已经列出成功匹配的列表URL和文章URL,测试的时候只显示前十条结果以供观察是否已经匹配成功。
4)标题规则、作者规则、来源规则、内容规则和分页规则的写法
标题、作者、来源、内容和分页规则的写法都是一样的,懂得其中一项的写法,其他几项都懂得了,我现在就一一举例如何设置,有编写过传统采集规则的用户,对插件的规则写法会很容易上手,新用户也是很容易理解的。
[规则说明]:”起始无重复HTML[内容]结尾无重复HTML”,简单的说,右键查看文章源码,标题内容用 [内容] 来代替,然后就是紧接着标题内容左右两边的代码,下面是举例说明,用户可以更直观的了解。
比如我要采集站长之家优化栏目里面的文章,打开文章列表中其中一篇, 如:
SEO关键字策略规划技巧心得分享
http://www.chinaz.com/web/2011/0926/211708.shtml
标题规则
打开后,右键查看源码,通过查看源码,我们可以看到标题“SEO关键字策略规划技巧心得分享”出现的地方有2两处, 1
和 1
根据这两段代码,我们可以写出标题规则为 1
和 1
这样的写法就符合插件的规则要求,同[内容]代替要采集的部分,只取其中一个规则即可。
作者规则的写法和标题写法一致,只要找出作者所在位置,和左右两边的代码就行,用[内容]代替作者,该篇文章中没有显示文章作者,所以在此就不演示了。 来源规则
浏览网页我们可以看到该篇文章的来源是cgt88.com,同样是查看文章源码,搜索查看“cgt88.com”所在位置,我们可以看到 1
这段代码中包含了来源,我们采用同样的方法用[内容]对要采集的“来源”进行替换,来源规则则是: 1
内容规则
内容规则和其他规则的写法一样,只是内容过多,不方便搜索查找,得自己浏览源码找到内容部分,内容部分占的位置也是比较多的,查找起来也是很容易的。
相关推荐: