DedeCms V3 采集教程
这是我们要采集的目标网址[img]http://www.dedecms.com/vvv/d/a.gif[/img]
看看分页是怎么设置的
[img]http://www.dedecms.com/vvv/d/b.gif[/img]
标题里有些多出来的东西处理一下
[img]http://www.dedecms.com/vvv/d/c.gif[/img]
其它内容
[img]http://www.dedecms.com/vvv/d/d.gif[/img]
文章body部份
[img]http://www.dedecms.com/vvv/d/e.gif[/img]
结束
[img]http://www.dedecms.com/vvv/d/f.gif[/img]
测试采集
[img]http://www.dedecms.com/vvv/d/g.gif[/img]
好了
[img]http://www.dedecms.com/vvv/d/h.gif[/img]
开始采集
[img]http://www.dedecms.com/vvv/d/i.gif[/img]
先下载种子网址
[img]http://www.dedecms.com/vvv/d/j.gif[/img]
下载完后开始采集
[img]http://www.dedecms.com/vvv/d/k.gif[/img]
导出
[img]http://www.dedecms.com/vvv/d/l.gif[/img]
[img]http://www.dedecms.com/vvv/d/m.gif[/img]
更新栏目和内容后
[img]http://www.dedecms.com/vvv/d/n.gif[/img]
结束。
补充:
采集的意思就是给出一个网址,然后把这个网页中的所有链接扫描一遍,把正确的网址找出来,然后再逐个打开这些网址,按照你所设计的正则表达式去搜索出正确的,我们需要的内容。
这里面最重要的就是:
来源网址:就是你要寻找有效链接地址的网址
文章网址需包含:就是在来源网址中,要搜索的正确网址,也就是包含我们需要的内容的网址
比如一个列表页面中包含了大量的具体内容的链接地址,二这个列表页面就是来源网址,而具体内容的网址就是文章网址需包含
然后找到正确的内容页面之后,就开始分析这个页面中的我们所需要的内容,按照一定的规则把它找出来,这个就设计到了正确内容的前面的部分和后面的部分。前面部分和后面部分要具有唯一性,就是在当前的这个页面里,只有这个地方有这个内容,不能再在别的地方有这个内容了,这样,程序才能根据这两部分去定位正确的内容所在。
页:
[1]