帝国cms文章采集步骤图文教程

发布时间:2019-12-20 15:24:08   分类:帝国cms教程0
现在我们只以采集一个栏目的其中一个页面做例子:http://seo.bdtop123.com/seoyh/list_17_6.html

要采的就是下图中红框部分的文章:



查看这个页面的代码,下图红框中的代码对应上图红框中的文章。



那么后台增加采集规则,应该这样填写,看下图:



内容页地址前缀填写什么?如何判断这里要不要填写?



看前端代码,下图红框处的链接不完全,需要补充完整:http://seo.bdtop123.com/top/4104.html



也就是下图红框处应该填写【http://seo.bdtop123.com】



图片/FLASH地址前缀(内容)填写什么?



打开一篇有图片的文章,例如下图




对着图片,右击,审查元素,如下图:



图片地址完整,不需要填;反之,如果图片地址不完整,则需要将图片地址补充完整。(原理跟上面的一样)

入库栏目填写什么?



想要采集到哪个栏目,就选择哪个栏目。

下图这4个地方,看需求修改,一般这样设置就没问题了。



转码设置



如果自己网站和采集的网站都是utf-8,那么就选择正常编码,否则,对应修改。我这里,2个站正巧都是utf-8。(注意:有些站编码不一样,就算选择相应的选项,也有可能采集不出来,所以选择采集网站时,最好是选择编码相同的站进行采集。)

下图箭头地方,根据需求填写。



过滤广告正则怎么填写?看下图箭头处,另外,其他代码需要去除的,可以按需求选择。



信息链接区域正则如何填写?

查看列表页代码,下图红框处的代码,是每个列表页都有的代码,并且每个页面只有一处。




下图箭头代码,对应上图红框代码。中间处的代码,对应后台左侧代码。



信息页链接正则怎么填写?

打开列表页,对着要采集的文章标题,审查元素,下图箭头处,对应红框处的代码。



每篇文章的链接都是这种格式的。取其中一个为例子【<a href="/top/3991.html" class="title">https和http有何区别?HTTPS的七个误解</a>】

填到信息页链接正则上,应该这样写【<a href="[!--newsurl--]" class="title">*</a>】

一下子没看懂的朋友可以多研究一下。

注意:本文没提到地方,就算不填写,也能正常采集。

标题正则怎么填写?

打开一篇文章,查看源代码。红框代码h1 标签,只有一个可以选择它。




内容简介正则需要填写吗?可以不写,因为上面默认截取正文前200个字符。如果这里填写了,上面默认截取的简介就会失效。



新闻正文正则怎么填写?

打开一篇文章,查看源代码。




如果采集下来的文章,采集发出去后排版乱了,则需要重新选择箭头2处代码,因为截取正文的时候,如果前面多了一个div代码、或者后面多了一个/div代码,都会造成排版混乱,这点很重要。

内容页分页采集设置怎么填写?

有些是没有分页的,例如本文这里的例子,就没有分页,不需要填写。

要是有分页呢?应该怎么填写?这里留个位置,以后分享内容页分页采集设置教程。







看上图,能顺利采集到文章标题和正文,至于描述,等入库后,文章描述会自动填写好。

以上就是帝国cms采集步骤图文教程,纯手打字截图,好累。分页采集只能下次再继续。

注意:本文没提到地方,就算不填写,也能正常采集。(文章转自:黑 喵SEO)
QQ咨询