Python爬虫(七)_非结构化数据与结构化数据
页面解析与数据提取
实际上爬虫一共就四个主要步骤:
- 定(要知道你准备在哪个范围或者网站去搜索)
- 爬(将所有的网站的内容全部爬下来)
- 取(分析数据,去掉对我们没用处的数据)
- 存(按照我们想要的方式存储和使用)
- 表(可以根据数据的类型通过一些图标展示)
以前学的就是如何从网站去爬数据,而爬下来的数据却没做分析,现在,就开始对数据做一些分析。
数据,可分为非结构化数据
和结构化数据
- 非结构化数据:先有数据,再有结构
- 结构化数据:先有结构,再有数据
- 不同类型的数据,我们需要采用不同的方式来处理
非结构化的数据处理
文本、电话号码、邮箱地址
- 正则表达式Python正则表达式
HTML文件
- 正则表达式
- XPath
- CSS选择器
结构化的数据处理
JSON文件
- JSON Path
- 转化为Python类型进行操作(json类)
XML文件
- 转化为Python类型(xmltodict)
- XPath
- CSS选择器
- 正则表达式
转载于:https://www.cnblogs.com/moying-wq/p/11569914.html
Python爬虫(七)_非结构化数据与结构化数据相关推荐
- python 爬虫 贪婪算法和非贪婪算法 match()
python 爬虫 贪婪算法和非贪婪算法 ** 贪婪算法 (.*):贪婪,就是尽可能匹配多的,一般情况下尽可能多的匹配. 非贪婪(.*?),非贪婪,与贪婪相反,尽可能少的匹配. ** 可能内容有些晦涩 ...
- [python爬虫]爬取天气网全国所有县市的天气数据
[python爬虫]爬取天气网全国所有县市的天气数据 访问URL 解析数据 保存数据 所要用到的库 import requests from lxml import etree import xlwt ...
- Python—爬虫之Network,XHR,json 带参数请求数据(爬取歌单、歌词)
Python-爬虫之Network,XHR,json & 带参数请求数据(爬取歌单.歌词) Network是什么,能做什么 XHR要如何请求 json格式的转换 带参数请求数据 修改请求头,便 ...
- python爬虫 库_七款必备的Python爬虫库,你知道几个?
很多你需要的信息数据都是在网站内,虽然有些网站的数据会以整洁.结构化的形式呈现,但大部分网站却无法做到这样.因此,当你想要获得一些数据的时候,你需要一些爬虫工具帮助抓取,然后再对其进行分析.今天,将介 ...
- python爬虫百度百科-python爬虫(一)_爬虫原理和数据抓取
本篇将开始介绍Python原理,更多内容请参考:Python学习指南 为什么要做爬虫 著名的革命家.思想家.政治家.战略家.社会改革的主要领导人物马云曾经在2015年提到由IT转到DT,何谓DT,DT ...
- python 爬虫系统_实战干货:从零快速搭建自己的爬虫系统
近期由于工作原因,需要一些数据来辅助业务决策,又无法通过外部合作获取,所以使用到了爬虫抓取相关的数据后,进行分析统计.在这个过程中,也看到很多同学爬虫相关的文章,对基础知识和所用到的技术分析得很到位, ...
- 新手python爬虫代码_新手小白必看 Python爬虫学习路线全面指导
爬虫是大家公认的入门Python最好方式,没有之一.虽然Python有很多应用的方向,但爬虫对于新手小白而言更友好,原理也更简单,几行代码就能实现基本的爬虫,零基础也能快速入门,让新手小白体会更大的成 ...
- 踩坑的Python爬虫:新手如何在一个月内学会爬取大规模数据?
Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样的编程语言提供越来越多的优秀工具,让爬虫变得 ...
- 基于python爬虫数据处理_基于Python爬虫的校园数据获取
苏艺航 徐海蛟 何佳蕾 杨振宇 王佳鹏 摘要:随着移动时代的到来,只适配了电脑网页.性能羸弱的校园教务系统,已经不能满足学生们的移动查询需求.为此,设计了一种基于网络爬虫的高实用性查询系統.它首先通过 ...
最新文章
- [分享] 从定制Win7母盘到封装详细教程 By BILL ( 10月23日补充说明 )
- vim java 注释_centOS7 下的vim java补全
- ArcGIS Server9.2学习开发(4)——使用Toc控件
- SQL Cookbook:二、查询结果排序(1)以指定的次序返回查询结果
- php 计算前几天,php计算几分钟前、几小时前、几天前的几个函数、类分享
- native2ascii命令
- 如何分析一个“排序算法”?
- BT601 BT656 BT709 BT1120 解析
- java中solr的面试题_SOlR面试题
- samkoon触摸屏用什么软件编程_触摸屏如何编程_触摸屏编程用什么软件
- 编译原理——正规表达式与有限自动机(笔记)
- 共享的计算机用户账户限制,连接共享文件夹,提示“登录失败:禁用当前的账户”...
- 【绘制关系网络图】Gephi 入门使用
- 【工具篇】Unity运行期间日志查看的两种方式
- Cannot construct instance of `com.baomidou.mybatisplus.core.metadata.IPage
- linux系统vi光标移动字符,Linux vi中移动光标命令
- python数据类型小结
- 利用python和tushare,统计股市每天上涨的概率
- 陕西大学最早的计算机专业,2019计算机考研:陕西地区计算机专业优质院校
- iOS 特种label:镂空文字、类歌词进度显示文字
热门文章
- 解读:MR多路径输入
- only static const integral data members can be initialized within a class
- 测试php程序运行时间
- 关于@DQ的留言回复
- 基于用户投票的排名算法Reddit
- 重新学习web后端开发-002-hello, world
- SharePoint Online 创建用户和组
- jsp/servlet学习笔记(核心编程)mysql部分
- colpick-jQuery颜色选择器使用说明
- SAP System Copy Guide, ECC 6.0, Oracle