数据采集及采集工具八爪鱼的使用

一个数据的走势是由多个维度影响的,因此我们需要通过多源的数据采集,尽可能收集到更多的数据维度,公司保证数据质量,才能得到高质量的数据挖掘结果。

数据源分类:
  1. 开放数据源:政府、企业、高校等
  2. 爬虫获取:网页、APP等
  3. 日志收集:前端采集、后端脚本等
  4. 传感器:图像、测速、热敏等
开放数据源:
  • 可以从两个维度来考虑,一个是单位的维度,比如政府、企业、高校;一个就是行业维度,比如交通、金融、能源等领域。
爬虫获取:
  • Python爬虫三个过程:

    1. 使用requests爬取内容,可以用其来抓取网页信息。
    2. 使用xpath解析内容。XPath是一种用来确定 XML 文档中某部分位置的语言,在开发中经常用来当作小型查询语言。XPath可以通过元素和属性进行位置索引。
    3. 使用 Pandas 保存数据。pandas可以保存爬取的数据写入到xls或MySQL等数据库中。
  • 常用网页信息抓取工具:

    1. [火车采集器]http://www.locoy.com/

    2. [八爪鱼]https://www.bazhuayu.com/

    3. [集搜客]http://www.gooseeker.com/index.html

日志采集:
  • 日志采集最大的作用,就是通过分析用户访问情况,提升系统的性能,从而提高系统承载量。及时发现系统承载瓶颈,也可以方便技术人员基于用户实际的访问情况进行优化。
  • 日志采集可分为两种形式:
    1. 通过web服务器采集
    2. 自定义采集用户行为
  • 埋点是日志采集的关键步骤,其是在有需要的位置采集相应的信息进行上报。
  • 在需要统计数据的地方植入统计代码。
  • 有助于了解用户的操作数据,适用于运维监控、安全审计、业务数据分析等场景。
  • 一般web服务器自带日志功能,也可以使用flume从不同服务器集群中采集、汇总和传输大容量的日志数据。
采集用具八爪鱼的使用:
  • 八爪鱼采集分为三步:
  1. 输入网页
  2. 设计流程
  3. 启动采集
  • 流程步骤可分为基本步骤和高级步骤

  • 基本步骤分别是打开网页、点击元素、循环翻页、提取数据

    1. 打开网页:所有的采集默认第一项都是打开网页,在新建任务并输入网址后,八爪鱼会自动建立一个打开网页流程。
    2. 点击元素:这里元素的定义比较广泛,它可以是某个按钮,或者某个链接,也或者是某个图片或文字。使用这个步骤是你在搜索或者提交某个请求。当你点击元素后,八爪鱼会提示你想要达到的目的:点击该按钮、采集该元素文本、还是鼠标移到该链接上。然后再选择“点击该按钮”进行确认即可。如果我们点击某个元素的目的是循环翻页,或者提取数据,那么在点击之后,八爪鱼会确认你的目的,你只要点击相关的按钮即可。
    3. 循环翻页:很多数据都存在翻页的情况,通常你需要找到翻页的位置,比如网页底部的“下一页”按钮,点击它,会提示你“循环点击下一页”、“采集该链接文本”还是“点击该链接”。你需要确认这里是进行的“循环点击下一页”。
    4. 提取数据:在网页上选择你想要提取的页面范围,鼠标移动到页面上会呈现蓝色的阴影面积,它表明了你想提取的数据范围。然后点击鼠标后,在右侧选择“采集数据”即可。
  • 高级步骤包括输入文字、验证码识别、下拉选项、判断条件、移动鼠标到元素上、结束循环、结束流程

Python爬虫流程:打开网页、提取数据和保存数据。
  • 打开网页:可以使用Requests 访问页面,得到服务器返回数据,包括HTML及json。

  • 提取数据:对于HTML,可使用xpath进行元素定位提取数据。

    ​ 对于json,可使用json进行解析。

  • 保存数据:可使用pandas保存数据并导出csv文件。

Requests访问页面:
  • Requests是Python HTTP的客户端库,有两种访问方式:Get和Post。Get把参数包含在url中,Post通过request body来传递参数。

  • Get访问

    r = requests.get('http://www.douban.com')
    

    r为get请求后的访问结果,通过r.text或r.content可获取HTML正文。

  • Post表单传递

    r = requests.post('http://xxx.com', data = {'key':'value'})
    
xpath定位:
  • 其可通过元素和属性来定位位置。

  • 常用路径表达方式:

    表达式 含义
    node 选node节点的所有子节点
    / 从根节点选取
    // 选取所有的当前节点,不考虑位置
    . 当前节点
    父节点
    @ 属性选择
    | 或,两个节点的合计
    text() 当前路径下的文本内容
  • 定位HTML所有列表项目:

    from lxml import etree
    html = etree.HTML(html)
    result = html.xpath('//li')
    
json对象:

利用JSON库可以完成Python对象与json对象之间的转换。

json.dumps() 将Python对象转换成json对象

json.loads() 将json对象转换成Python对象

数据采集及采集工具八爪鱼的使用相关推荐

  1. 网站数据采集-网站采集工具-SEO文章聚合采集(免费采集教程)

    网站数据采集.最近很多站长问我,要采集几百几千个域名的网站数据,更新网站文章,应该怎么做?尤其是pbootcms.织梦.帝国.易游.wordpress.迅锐cms.云优CMS等各种CMS搭建的网站.那 ...

  2. 八爪鱼,国内领先的爬虫云采集工具平台,为许多大型公司,政府,提供数据服务

    如何成为一名优秀的爬虫工程师?(文末附带工作机会) 作者:keven 发布时间:2018/4/16 18:24:54 2814 人已阅读 摘要:过完年后到现在,基本每周面试十几个同学的节奏,慢慢在面试 ...

  3. url采集工具_大数据关键技术浅谈之大数据采集

    在前几篇文章中,企通查为大家介绍了大数据处理的基本流程.从大数据的一系列处理过程中(抽取.集成.分析.解释),我们可以发现这一整套流程中涵盖了数据存储.处理.应用等多方面的技术. 大数据价值的完美体现 ...

  4. 数据来源渠道及采集工具_几款简单好用的爬虫抓取数据采集工具

    新朋友点上方蓝字"Office交流网"快速关注 1. 火车头采集器 火车采集器我们也一直在用,是老牌的采集工具了.它不仅可做抓取工具,也可以做数据清洗.分析.挖掘已经可视化等工作. ...

  5. 采集工具有哪些-数据采集工具有哪些-网站采集工具

    采集工具有哪些,常用的采集工具有哪些?采集工具分为二种:第一种是关键词文章采集,就是你输入关键词就能采集批量采集文章.第二种是指定网站数据采集,你输入域名后就自动采集网站数据内容.全程可视化采集无需编 ...

  6. 拓客必备神器:采集工具让你的数据采集更快更准

    企业拓客是指企业通过各种手段,寻找并获取新客户的过程.对于企业来说,拓客是非常重要的一环,可以帮助企业扩大市场份额.提高销售额.增加利润等.但是,拓客过程中存在着一些难点和挑战,例如如何精准定位目标客 ...

  7. 汽车云智能采集服务 八爪鱼采集器在汽车行业网站的应用

    大数据时代来临,各行业各企业都在潜移默化的发生着变化,或许这变化还很微小,微小到很多企业认为大数据与自身无关,甚至到有部分企业仅仅认为大数据是大公司大平台的事情.笔者认为大数据不仅仅只是某些公司的事情 ...

  8. 网页采集工具-免费网页采集工具大全

    很多人都不了解网页采集工具的作用,你以为他只是一个采集功能吗?网页数据采集可以应用于各行各业,发展到现在,它有着广泛的用途,这里列举一些比较常见的用途,当然他的用途不止这些,要列举的很细的话,上千条都 ...

  9. 8种网页数据的采集工具

    10种AI训练数据采集工具排行榜 8种网页数据的采集工具 1.目前常用的8种数据网站 2.如何写Python爬虫: 3.人生第一个 爬虫代码示例: 另外: 8种网页数据的采集工具 如何收集网页数据,来 ...

  10. 销项发票采集工具需求分析及设计分享

    1. 引言 一位相知相交多年的挚友,现在经营一家财务公司,业务重点是代理记账和税务筹划.去年的时候,我们偶然相聚,弹指一挥间,已十来个春秋未曾谋面.多年未见,再相聚,相互寒暄,谈笑风生,把酒言欢,相叙 ...

最新文章

  1. linux系统怎么关闭usb端口,linux系统挂载以及卸载USB接口的设备的解决办法
  2. 数学建模学习笔记——蒙特卡洛模拟
  3. 通过示例休眠–第2部分(DetachedCriteria)
  4. HDU4631Sad Love Story
  5. 使用 Moq 测试.NET Core 应用 -- Mock 方法
  6. kernel printk信息显示级别
  7. Wampserver 下载安装!!!踩坑总结系列
  8. js获取可视区域高度
  9. linux登录日志保存多久,Centos清除系统日志和登录记录-Linux清除系统日志和登录记录的方法-吾爱编程网...
  10. Ubuntu 11.04 下安装配置 JDK 7
  11. Embedded Coder 快速入门
  12. 《A Traceable and Revocable Ciphertext-Policy Attribute-based Encryption Scheme Based》属性加密机制
  13. ArcGIS之创建企业级地理数据库(Oracle)
  14. Gerrit no Verified 在最新的2.7版本之后添加Verified
  15. PAT 1121 Damn Single
  16. 华为开发者联盟生态市场·首发上线
  17. 右键解决方案,没有“重定解决方案目标”这一菜单项
  18. qss 画框_PyQt5系列教程(77):QSS入门2
  19. 中国铁建信息化顶层设计项目 ---- 相关后续消息
  20. 高级软件工程课程总结及收获感想

热门文章

  1. 由于某些原因,请使用bejson.com的哥们先使用1.bejson.com
  2. c语言 api接口测试工具,Restlet Client插件
  3. 登录小米帐号怎么会显示服务器错误,小米官网登录不进去怎么办 小米官网无法登陆是怎么回事...
  4. C# 在PPT幻灯片中创建图表
  5. 资料汇总更新|FPGA软件安装包、书籍、源码、技术文档…(2021.01.04更新)
  6. 前端实战项目:vue+elementUI管理平台
  7. dsoframer.ocx java_DSOFramer.ocx 控件使用
  8. maven安装及配置
  9. 央视影音 for Mac 1.2.1 中文版 – CCTV和地方卫视直播软件
  10. Matlab画图常用命令