1.数据获取原则:

在没有恶意动机下,对一些需求数据进行获取,加以分析,得出结论,得以应用,创造价值。

2.为什么是python:

很多语言都是可以写爬虫,包括python、java、PHP、C#、Go等,但是我觉得python 简明 & Standing on Shoulders of Giants

3.数据获取方法分类:

①.通过API直接获取数据

API通常从服务器返回JSON或者XML格式的数据,因为返回的数据都是标准的格式,所以很好处理。但是,很多API需要客户验证,当然也存在一些不需要注册、验证的。

e.g

中国天气网实时天气信息:http://www.weather.com.cn/data/sk/101110101.html,其中101110101是城市的代码,城市代码都是固定的可以在网上查出来。

测试(终端->ipython3;python3.6.7;西安):

In [1]: from urllib import request

In [2]: a = request.urlopen('http://www.weather.com.cn/data/sk/101110101.html')

In [3]: print(a.read().decode('utf-8'))
{"weatherinfo":{"city":"西安","cityid":"101110101","temp":"23.3","WD":"西南风","WS":"小于3级","SD":"52%","AP":"962.7hPa","njd":"暂无实况","WSE":"<3","time":"18:00","sm":"1.2","isRadar":"1","Radar":"JC_RADAR_AZ9290_JB"}}

这样获取到JSON格式的数据,之后你可以查下python怎么处理JSON数据即可达到目的。但是有很多都是需要注册,收费的。当然,如果你要的数据有提供API,挺好,要是你很不缺资金,那会更好。

②.网页获取源码

通过url获取HTML数据,并解析。

e.g

三国演义小说(贼喜欢看):http://www.purepen.com/sgyy/001.htm ,这是第一回。

测试(终端->ipython3;python3.6.7;三国演义):

In [1]: from urllib import request

In [2]: a = request.urlopen('http://www.purepen.com/sgyy/001.htm')

In [3]: print(a.read().decode('gbk'))
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
<title>《三国演义》第一回    宴桃园豪杰三结义 斩黄巾英雄首立功  (纯文学网站)</title>
<META content="《三国演义》" name=description>
<META content="三国演义," name=keywords>
<META name="author" content="Webpages by Purepen.com">
<META name="copryright" content="2003, 2006, Purepen.com">
</head>
<body vLink=#0000ff aLink=#0000ff link=#0000ff bgcolor="#FFFFFF">
<p>&nbsp;&gt;&gt;&gt;&nbsp;<a href="../index.html">纯文学网站首页</a>&nbsp;&nbsp;&nbsp;&gt;&gt;&gt;&nbsp;<a href="index.htm">《三国演义》目录</a></p>
<p align="center"><font color="#000000"  size="3"><br><br><b>《三国演义》第一回 宴桃园豪杰三结义 斩黄巾英雄首立功&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</b></font>
<center>
<table><tr><td>
<pre style="line-height: 200%"><FONT COLOR="#000000"  face="宋体" size="3">

滚滚长江东逝水,浪花淘尽英雄。是非成败转头空。
    青山依旧在,几度夕阳红。
    白发渔樵江渚上,惯看秋月春风。一壶浊酒喜相逢。
        古今多少事,都付笑谈中。
——调寄《临江仙》

话说天下大势,分久必合,合久必分。周末七国分争,并入于秦。及秦灭之后,楚、汉
分争,又并入于汉…………

当然,剩下的章节看看这个url就知晓了 001、002……

③.part2 再续

Python数据分析之数据抓取 part 1相关推荐

  1. python音乐的数据抓取与分析_python抓取网易云音乐热评做词图数据分析

    最近就有一部"怀旧"题材的电影,未播先火,那就是刘若英的处女作--<后来的我们>.青春,爱情,梦想,一直是"怀旧"题材的核心要素,虽然电影现在还未上 ...

  2. python音乐的数据抓取与分析_手把手教你使用Python抓取QQ音乐数据!

    [一.项目目标] 通过手把手教你使用Python抓取QQ音乐数据(第一弹)我们实现了获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名.专辑名.播放链接. 通过手把手教你使用Python抓取QQ音乐 ...

  3. python如何进行数据抓取_如何进行手机APP的数据爬取?

    Python爬虫手机的步骤: 1. 下载fiddler抓包工具 2. 设置fiddler 这里有两点需要说明一下. 设置允许抓取HTTPS信息包 操作很简单,打开下载好的fiddler,找到 Tool ...

  4. python 网页上显示数据_用Python实现网页数据抓取

    需求: 获取某网站近10万条数据记录的相关详细信息. 分析:数据的基本信息存放于近1万个页面上,每个页面上10条记录.如果想获取特定数据记录的详细信息,需在基本信息页面上点击相应记录条目,跳转到详细信 ...

  5. python音乐的数据抓取与分析_Python练习之抓取QQ音乐数据

    [一.目标] 获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名.专辑名.播放链接. 由浅入深,层层递进,非常适合刚入门的同学练手. [二.需要的库] 主要涉及的库有:requests.json.o ...

  6. python爬虫-电影数据抓取

    1.进入此次爬取的页面点这里. 2.按F12-> network 3.ctrl+r 刷新 如图搜索一个电影名,找到数据位置,然后查看 4.找到请求的url '?'后边的是参数,不要带上 5.参数 ...

  7. python可用于数据抓取_基于PYTHON实现证券数据的抓取,以PYECHARTS实现证券数据实时分析...

    by Tony 主要采用Java+Python+MySQL+Redis的方式建设,以满足前期数据量较小的场景下,实时分析预警的要求.使用JAVA搭建核心框架:Python用于数据采集应用.数据分析模型 ...

  8. python爬取app播放的视频,Python爬虫工程师必学——App数据抓取实战视频教程

    爬虫分为几大方向,WEB网页数据抓取.APP数据抓取.软件系统数据抓取.本课程主要为同学讲解如何用python实现App数据抓取,课程从开发环境搭建,App爬虫必备利器详解,项目实战,到最后的多App ...

  9. 爬虫_app 4 app数据抓取入门

    一.python实现app数据抓取需求 1.分析豆果美食数据包 2.通过python多线程-线程池抓取数据 3.通过使用代理ip隐藏爬虫 4.将数据保存到 mongodb 中 handle_mongo ...

最新文章

  1. Ubuntu双击运行Shell脚本
  2. python处理excel大数据-当Excel遇到大数据问题,是时候用Python来拯救了
  3. 新病毒仿熊猫烧香 利用 Vista系统漏洞疯狂传播
  4. 深入理解Kafka(2)-Producer
  5. 微信开源项目讲解使用公开课
  6. c语言用栈输出迷宫所有路径,如何在迷宫中使用到栈
  7. 设计模式—23种设计模式总览
  8. 手游自动挂机脚本开发历程
  9. “双评价”——ArcGIS水资源评价
  10. 超级淘为什么能在众多新零售导购平台崛起,并深受大家欢迎
  11. 30、三维表面重建-Convolutional Occupancy Network
  12. iOS 屏幕左侧向右滑动返回
  13. java课堂作业部分
  14. java基础之throws关键字_繁星漫天_新浪博客
  15. 实习面试TOUTIAO
  16. 用心做事,踏实做人,乐观面对,积极应对
  17. DELL服务器显示0xc000021a,win10系统蓝屏0xc000021a错误怎么修复
  18. Unity Shader unity文档学习笔记(十七):径向模糊 实现类似冲锋时的速度感
  19. 童话用计算机,电脑争功童话作文
  20. 《证券投资分析》结课论文

热门文章

  1. 一个很强的数据字典工具
  2. 苹果最无趣发布会上最有趣的五大亮点
  3. 解决www.coursera.org可以登录但无法播放视频
  4. c语言随机数教学成果与反思,教学成果报告-渤海大学.pdf
  5. D3D11 MD5骨骼动画模型的加载
  6. 财路网每日原创推送: 创世区块10年:记住这群加密狂魔
  7. Javaweb企业员工信息管理系统
  8. 第8周项目5定期存款利息计算器
  9. 20+Pandas文本数据处理,干货多多
  10. macOS Mojave 10.14.2 原版镜像