专利名称:一种基于分布式爬虫引擎的数据采集方法专利类型:发明专利发明人:陈思恩
申请号:CN202011591563.4申请日:20201229公开号:CN112597373A公开日:20210402
摘要:本发明公开了一种基于分布式爬虫引擎的数据采集方法,其包括以下步骤:S1、获取用户的任务创建请求并创建对应的数据采集任务;S2、构建分布式爬虫系统,对数据采集任务进行调度并触发任务执行,通过分布式爬虫系统分解数据采集任务,并分配给多个爬虫线程;S3、启动爬虫线程,分布式爬虫系统从队列资源获取URL,根据数据采集任务指定的目标网站爬取URL对应的页面,下载并获取页面数据;S4、对获取的页面数据进行整理清洗,生成与数据采集任务匹配的格式化数据集,并通过持久化处理后存储入数据库;本发明通过分布式部署爬虫集群的爬虫引擎,爬取目标网站的定向数据,提高了爬取效率及数据的精确度。
申请人:科技谷(厦门)信息技术有限公司
地址:361000 福建省厦门市湖里区安岭二路88号A栋404室
国籍:CN
代理机构:厦门致群财富专利代理事务所(普通合伙)
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- dcrkj.com 版权所有 赣ICP备2024042791号-2
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务