页面解析与数据提取

实际上爬虫一共就四个主要步骤:

  1. 定(要知道你准备在哪个范围或者网站去搜索)
  2. 爬(将所有的网站的内容全部爬下来)
  3. 取(分析数据,去掉对我们没用处的数据)
  4. 存(按照我们想要的方式存储和使用)
  5. 表(可以根据数据的类型通过一些图标展示)

以前学的就是如何从网站去爬数据,而爬下来的数据却没做分析,现在,就开始对数据做一些分析。

数据,可分为非结构化数据结构化数据

  • 非结构化数据:先有数据,再有结构
  • 结构化数据:先有结构,再有数据
  • 不同类型的数据,我们需要采用不同的方式来处理

非结构化的数据处理

文本、电话号码、邮箱地址

  • 正则表达式Python正则表达式

HTML文件

  • 正则表达式
  • XPath
  • CSS选择器

结构化的数据处理

JSON文件

  • JSON Path
  • 转化为Python类型进行操作(json类)

XML文件

  • 转化为Python类型(xmltodict)
  • XPath
  • CSS选择器
  • 正则表达式

转载于:https://www.cnblogs.com/moying-wq/p/11569914.html

Python爬虫(七)_非结构化数据与结构化数据相关推荐

  1. python 爬虫 贪婪算法和非贪婪算法 match()

    python 爬虫 贪婪算法和非贪婪算法 ** 贪婪算法 (.*):贪婪,就是尽可能匹配多的,一般情况下尽可能多的匹配. 非贪婪(.*?),非贪婪,与贪婪相反,尽可能少的匹配. ** 可能内容有些晦涩 ...

  2. [python爬虫]爬取天气网全国所有县市的天气数据

    [python爬虫]爬取天气网全国所有县市的天气数据 访问URL 解析数据 保存数据 所要用到的库 import requests from lxml import etree import xlwt ...

  3. Python—爬虫之Network,XHR,json 带参数请求数据(爬取歌单、歌词)

    Python-爬虫之Network,XHR,json & 带参数请求数据(爬取歌单.歌词) Network是什么,能做什么 XHR要如何请求 json格式的转换 带参数请求数据 修改请求头,便 ...

  4. python爬虫 库_七款必备的Python爬虫库,你知道几个?

    很多你需要的信息数据都是在网站内,虽然有些网站的数据会以整洁.结构化的形式呈现,但大部分网站却无法做到这样.因此,当你想要获得一些数据的时候,你需要一些爬虫工具帮助抓取,然后再对其进行分析.今天,将介 ...

  5. python爬虫百度百科-python爬虫(一)_爬虫原理和数据抓取

    本篇将开始介绍Python原理,更多内容请参考:Python学习指南 为什么要做爬虫 著名的革命家.思想家.政治家.战略家.社会改革的主要领导人物马云曾经在2015年提到由IT转到DT,何谓DT,DT ...

  6. python 爬虫系统_实战干货:从零快速搭建自己的爬虫系统

    近期由于工作原因,需要一些数据来辅助业务决策,又无法通过外部合作获取,所以使用到了爬虫抓取相关的数据后,进行分析统计.在这个过程中,也看到很多同学爬虫相关的文章,对基础知识和所用到的技术分析得很到位, ...

  7. 新手python爬虫代码_新手小白必看 Python爬虫学习路线全面指导

    爬虫是大家公认的入门Python最好方式,没有之一.虽然Python有很多应用的方向,但爬虫对于新手小白而言更友好,原理也更简单,几行代码就能实现基本的爬虫,零基础也能快速入门,让新手小白体会更大的成 ...

  8. 踩坑的Python爬虫:新手如何在一个月内学会爬取大规模数据?

    Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样的编程语言提供越来越多的优秀工具,让爬虫变得 ...

  9. 基于python爬虫数据处理_基于Python爬虫的校园数据获取

    苏艺航 徐海蛟 何佳蕾 杨振宇 王佳鹏 摘要:随着移动时代的到来,只适配了电脑网页.性能羸弱的校园教务系统,已经不能满足学生们的移动查询需求.为此,设计了一种基于网络爬虫的高实用性查询系統.它首先通过 ...

最新文章

  1. [分享] 从定制Win7母盘到封装详细教程 By BILL ( 10月23日补充说明 )
  2. vim java 注释_centOS7 下的vim java补全
  3. ArcGIS Server9.2学习开发(4)——使用Toc控件
  4. SQL Cookbook:二、查询结果排序(1)以指定的次序返回查询结果
  5. php 计算前几天,php计算几分钟前、几小时前、几天前的几个函数、类分享
  6. native2ascii命令
  7. 如何分析一个“排序算法”?
  8. BT601 BT656 BT709 BT1120 解析
  9. java中solr的面试题_SOlR面试题
  10. samkoon触摸屏用什么软件编程_触摸屏如何编程_触摸屏编程用什么软件
  11. 编译原理——正规表达式与有限自动机(笔记)
  12. 共享的计算机用户账户限制,连接共享文件夹,提示“登录失败:禁用当前的账户”...
  13. 【绘制关系网络图】Gephi 入门使用
  14. 【工具篇】Unity运行期间日志查看的两种方式
  15. Cannot construct instance of `com.baomidou.mybatisplus.core.metadata.IPage
  16. linux系统vi光标移动字符,Linux vi中移动光标命令
  17. python数据类型小结
  18. 利用python和tushare,统计股市每天上涨的概率
  19. 陕西大学最早的计算机专业,2019计算机考研:陕西地区计算机专业优质院校
  20. iOS 特种label:镂空文字、类歌词进度显示文字

热门文章

  1. 解读:MR多路径输入
  2. only static const integral data members can be initialized within a class
  3. 测试php程序运行时间
  4. 关于@DQ的留言回复
  5. 基于用户投票的排名算法Reddit
  6. 重新学习web后端开发-002-hello, world
  7. SharePoint Online 创建用户和组
  8. jsp/servlet学习笔记(核心编程)mysql部分
  9. colpick-jQuery颜色选择器使用说明
  10. SAP System Copy Guide, ECC 6.0, Oracle