八爪鱼采集器如何使用自定义模块?八爪鱼采集器是由深圳视界信息技术有限公司官方打造的一款网页采集器,它以完全自主研发的分布式云计算平台为核心,可以在很短的时间内,轻松从各种不同的网站或者网页获取大量的规范化数据,帮助任何需要从网页获取信息的客户实现数据自动化采集,编辑,规范化,摆脱对人工搜索及收集数据的依赖,从而降低获取信息的成本,提高效率!下面Win10镜像之家官网给大家分享的是八爪鱼采集器自定义模块使用教程,有需要的小伙伴一起来看看吧 。
八爪鱼采集器自定义模块使用教程:步骤一
首先还是照旧,启动并登入你的八爪鱼采集器,进入到主界面,点击【新建】下的【新建任务组】创建一个新的组 。
点击确定创建新组
步骤二
创建好组后,点击【新建】下的自定义任务,就会到这样一个界面 。
我们可以去寻找想要爬取的网页的链接,这里到京东搜索了手机,等搜索结果出来,就可以复制链接 。
将我们复制的链接粘贴到网址一栏中,并将任务组改成先前创建的组,然后点击【保存设置】 。
步骤三
保存设置后,便会跳转到爬取界面,软件会自动开始识别网页中要爬取的部分,根据个人机器网速不同,相应的等待时间也不同 。
识别完成后,我们可以看到有许多数据,其中有许多无用的数据,需要我们剔除 。
将光标移动到表格字段上,会出现两个图标,笔图标为更改字段名,垃圾桶为删除此字段 。
我们可以自由的删除,更改字段名,这里仅保留上图内字段 。
步骤四
设置好字段后,我们把目光转到上图内的小框中,首个不可选,我们直接忽视 。
采集前滚动页面加载更多数据:因为现在很多网站都采用的是动态页面,有些内容不会在加载的时候展示,只有当我们下拉时才会逐渐展示出来,而这个功能就是为了防止这个情况出现 。
翻页并采集多页数据:设置爬取多页,不勾选仅爬取当前页 。
点击列表中XXX并采集下一级页面:这个功能可以让我们爬取子页面内的内容 。
这里我们不深入爬取,只勾选前两项,然后点击【生成采集设置】 。
点击生成后,会让你开始保存或查看,这里点击保存并开始采集 。
步骤五
到了这个界面后,我们可以看到一个细致的流程,内循环列表中就是本页内爬取的内容 。
我们点击外循环的设置按钮 。
展开退出循环设置,勾选循环执行次数,这里我们仅爬取3页 。
开始采集
采集完成,点击导出 。
另外,如果你爬取的页面内有重复数据,软件也会直接提示,根据自己情况选择保留或去除 。
导出方式
导出文件的保存位置
保存完成
查看数据
【《八爪鱼采集器》如何自定义抓取数据 八爪鱼采集器自定义模块使用教程】关于八爪鱼采集器自定义模块使用教程就给大家介绍完了,希望能对大家有所帮助 。了解更多教程请继续关注Win10镜像之家官网哦……
推荐阅读
- 用铁路12306和智行火车票 智行火车票App监控余票的方法
- 数据挖掘教程篇 八爪鱼采集器新手采集教程
- 怎么删除标签 印象笔记如何添加/删除标签?
- 华为welink如何创建会议 华为云WeLink如何创建会议?
- 华为WeLink使用方法 华为云WeLink外接摄像头的技巧
- 三八妇女节祝福的话 妇女节祝福一句话
- 心疼却无能为力的句子 恨自己无能为力的句子
- PS咋地才能画三角形,ps怎么绘制三角形选区
- 搞笑又有道理的金句,赶走你的不开心!