织梦采集规则以及方法/步骤(2)-百科-财经界

织梦采集规则以及方法/步骤(2)

发稿时间：2018-03-29 09:16:06 来源：财经界综合

这一步是获取该列表下文章的全部地址，我们要从列表页中获取全部的文章页地址。我们还是以：http://youqubu.cn/tansuo/list_5_1.html列表为例。复制该列表下第一篇文章的标题，然后列表页空白处右键--查看源代码，按ctrl+F查找，粘贴刚刚复制的标题，定位到该文字源代码中的位置。其实这个是有一定规律的。然后我们查找源代码中哪部分代码是唯一的并且能够包含列表所有文章地址的（注意：开始代码查找应该从列表第一篇文章标题开始往上找，结束代码查找应该从列表第一篇文章标题开始往下找）。通过这个源代码可知。开始代码：<ul class="text_list_x">和结束代码：<div class="pages"> 能够包含所有的文章列表，并且代码是唯一的（这个找到代码一定要用查找功能确认下是不是唯一）。我们吧这个代码填上

下一步的缩略图我们可以选择不采集，因为织梦本身是会把第一张图片默认为缩略图的，这个看实际情况。下面是对网址的筛选：包含的意思是：这个步骤六选择的代码区间的文章网址只有包含了这部分才会被采集（这里有两种情况：1。譬如上面演示的地址，它是以超链接的形式，不是完整的网址，所以这种情况千万不要填写包含。2.就是列表涉及到多个链接的，比如标签这样的，最好填写包含，填写你想要的网址有的，不想要的网址没有的部分）。然后下一步。这边会列出因为上面填写的规则所采集到的列表页中文章的网址。如果是空白：我们可以先删除必须包含和不能包含，点击下一步测试，如果能采集到连接但是很乱，那就是你这步包含相关填错了；如果这样操作还是没有采集到东西，那就是“包含文章网址区域”这步填写错了。

分页规则也主要分两种：一种是直接填写默认代码：{path}{file}_{p}{ext} 然后选择分页列表规则（如下图）。另一种是打开目标文章页，找到有上下几页的文章，右键查看源码，找到这部分代码，填写方式和文章页网址区域的方法一样，然后右边选择：全部列出的分页列表。（第二种方法要注意，因为涉及到多页，填写首尾代码的时候一定要多翻几张，然后查看源代码，把你认为共同的代码在多个页面查找下，因为可能出现你选择的代码在首页是可以找到的，在2.3四页后面就没有了，那就说明这个不是公用代码，你填上去也会导致采集不到分页的）

分页设置好后，我们主要设置标题规则和内容规则。时间规则和作者、来源规则这里不细说，这个不是所有人都需要的，这步谈到的规则都可以获取区间的方式得到内容或者填入固定的词语。首先是标题规则：我们以：http://youqubu.cn/tansuo/362.html。这个文章页来做说明。我们先复制标题名字，然后在源代码中查找。示例中查找我们可以发现这里有五个相同的部分，而且冲对比中发现，这个其实是有两种写法的。1.完全包含这个文字的代码区间，不带其他文字：<div class="title">世界神秘十大历史遗迹</div>。这个很容易就可以写出规则：<div class="title">[内容]</div>。2.另一种是代码中包含了该文字，但是还有其他类似的文字混淆。如：<title>世界神秘十大历史遗迹_有趣猎奇网-知天下奇事观天下奇景解未解之谜 -www.youqubu.cn</title> 从这里很明显就可以看出有一部分是唯一的，一部分是我们想要的，另一部分是通用的，所以简单的就能写出规则：<title>[内容]_有趣猎奇网-知天下奇事观天下奇景解未解之谜 -www.youqubu.cn</title> 。为什么这里不选择另外几个呢，主要是另外几个都是变量，这个是没办法获取的。

共3页:

责任编辑：夏晨风

猜你喜欢

热图

排行

热点