慧聪网企业名录采集示例

示例分析

使用IE浏览器,打开慧聪网首页,进入“找公司”一栏目,选择“热门区域”中的上海,打开网址,钩选中“买卖通会员”进行筛选,得到上海地区所有买卖通员网址:http://www.search.hc360.com/cgi-bin/ls,----1--y3z5fnn74i--------0----------zhh3viy-23ilt6r2zhh3viy----1---0-.html(请点击此链接打开。) 好了,本示例要采集的是在慧聪网中“上海地区所有买卖通会员”的企业名录数据。

创建任务

在软件主窗口,单击菜单“任务”->“新建任务(N)”,打开“任务编辑”对话框来创建一个任务。下面通过图文说明,一步步讨论如何填写设置任务属性:

第一步:任务概述

在“任务概述”中,请按上图填写“任务名称”及选择相应的“分类”;“网站首页”、“备注说明”可随意填写,其他保持默认即可。其它设置暂且不讨论,等您熟练以后再参考我们的帮助文档。

 

第二步:任务概述

起始地址就是我们要采集内容的入口地址,在这里是“会员企业列表”:http://www.search.hc360.com/cgi-bin/ls,----1--y3z5fnn74i-0-{page}------0------0---4-zhh3viy-23ilt6r2zhh3viy----1---0-.html。其中,“{page}”是他们的分页变量名,这个可以通过对“会员企业列表”进行翻页并观察得出。如果“{page}=1”就表示第1页,“{page}=25”表示第2页,“{page}=49”表示第3页,以此类推。我们为{page}指定一个开始页码“1”,结束页码“122”,递增变量“24”,就表示将要采集1到122页,每自动翻页变量{page}就加24,那么第一页{page}就是1,第二页是25,第三页是49,与“会员企业列表”中的下一页功能相对应了。具体内容设置如下表:

名称 内容 说明
起始地址 http://www.search.hc360.com/cgi-bin/ls,----1--y3z5fnn74i-0-{page}------0------0---4-zhh3viy-23ilt6r2zhh3viy----1---0-.html 对应网页中的下一页链接
开始页码 1 开始采集的页码
结束页码 122 结束采集的页码
递增变量 24 自动翻页变量

 

第三步:导航页面

因为该任务有两层,所以需要建两条“导航规则”,分别命名为:“列表页”和“内容页”。我们需要从“列表页”提取“内容页”的网址,以实现导航。因此,设“列表页”为“导航页”,并填写“下一层网址模板”以提取网址。而“内容页”只需选中“最终页面”,然后保存即可。细心的朋友确定发现我们需要的是慧聪网会员企业的联系方式,而不是他的供求信息数据,所以需要使用用高级选项中的“网址替换”功能,将在“列表页”中采集到的“内容页”网址替换成我们所需要的联系方式的网址。例如从列表页“http://www.search.hc360.com/cgi-bin/ls,----1--y3z5fnn74i-0-49------0------0---4-zhh3viy-23ilt6r2zhh3viy----1---0-.html”,我们采集到的第一个内容页网址为“http://shyinzhong.b2b.hc360.com/shop/busin.html”,然后通过网址替换功能将内容页网址替换为“http://shyinzhong.b2b.hc360.com/pubinfo/businesscard.html

层次名称 层次类型 下一层网址模板 高级选项
列表页 导航页 http://.*.b2b.hc360.com/shop/busin.html 使用“网址替换”功能,将http://.*.b2b.hc360.com/shop/busin.html替换为http://.*.b2b.hc360.com/pubinfo/businesscard.html;是将从列表页中采集下来的网址中“/shop/busin.html”部分替换为“/pubinfo/businesscard.html”(参见下图设置)
内容页 最终页面 无需设置

输入旧值“/shop/busin.html”,输入新值“/pubinfo/businesscard.html”,其他默认设置;点“添加(A)”添加规则到“替换内容列表”中,然后再点“确定(O)”即可。

 

问:如何找出“导航页”的“下一层网址标识符”呢?

 

第四步:数据采集

通过导航页面规则,我们采集最终页的内容网址为:http://shyinzhong.b2b.hc360.com/pubinfo/businesscard.html数据采集主要任务是编写所需要采集数据的采集规则,这点非常重要,是能否采集到数据的关键问题。例如上图中的数据名称为“公司名称”,前标识符为“class="title">”,后标识符为“</a>”,这两个标识符是在对应的最终网页“http://shyinzhong.b2b.hc360.com/pubinfo/businesscard.html”的网页源码中取得的,具体数据采规则如下表:

数据名称 字段名称 前标识符 后标识符 高级选项
公司名称 companyname class="title"> </a> 去除HTML代码
联系人 LinkMan class="name"> </a> 去除HTML代码
职务 Duty <span class="duty"> </span> 去除HTML代码
手机 mobile 手机: <br/> 去除HTML代码,去除空格符
地址 Address 地址: <br/> 去除HTML代码
邮编 zip 邮编: <br/> 去除HTML代码,去除空格符
电话 phone 电话: <br/> 去除HTML代码
传真 fax 传真: <br/> 去除HTML代码
网址 siteurl 网址: </td> 去除HTML代码,去除空格符

 

第五步:采集结果

如图所示,我们不在这里做任何设置,采集后直接将结果导出即可。

 

示例总结

在本示例中,我们讨论了以下内容:任务设置流程、哪些是必填项与可选项、简单的设置及其原理,以及引入了一些概念。本示例非常简单,仅供入门学习之用。网站结构复杂多变,设置时应灵活运用、举一反三。另外,如果有兴趣,建议把帮助文档(在线帮助)从头到尾阅读一遍。一是可以对各种功能留下印象,以便日后运用自如;二是可以融会贯通,加深对各种示例的理解。

示例任务下载

慧聪网企业名录采集示例.rar

下载后减压,在“新建任务”处导入一下,即可保存。

 

在学习过程有任何问题,欢迎与我们联系。>> 点这里查看联系方式

 


Copyright © 2007-2019SumWill.Com All Rights Reserved