python_2开发简单爬虫
2017年12月03日 16:43:01 独行侠的守望 阅读数:204 标签: python爬虫 更多
个人分类: Python
编辑
版权声明:本文为博主原创文章,转载请注明文章链接。 https://blog.csdn.net/xiaoanzi123/article/details/78700863
学习地址:http://www.imooc.com/learn/563 慕课网
课程须知
本课程是Python语言开发的高级课程1、Python编程语法;2、HTML语言基础知识;3、正则表达式基础知识;
老师告诉你能学到什么?
1、爬虫技术的含义和存在价值
2、爬虫技术架构
3、组成爬虫的关键模块:URL管理器、HTML下载器和HTML解析器
4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行
5、一套极简的可扩展爬虫代码,修改本代码,你就能抓取任何互联网网页!
★第一章
课程介绍:
课程进行简单的爬虫讲解----不需要登录的静态网页抓取
1、爬虫简介
2、简单爬虫架构
3、URL管理器
4、网页下载器urllib2
5、网页解析器beautifulsoup
6、完整实例 爬虫百度百科
★第二章,
爬虫是什么 : 从一个url出发,自动访问他所关联的所有url,提取数据。
爬虫价值 : 爬取互联网数据为我所用,开发新产品提供更好的服务
★第三章
3-1 python简单爬虫架构
3-2 python简单爬虫架构 动态运行流程 【时序图】
★第四章 url管理器和实现方法
4-1 url管理
管理待抓取url结合 和 已经抓取的url集合 ,防止重复抓取和循环抓取
url管理器支持的功能 至少5个
4-2 url管理器的实现方式
目前有三种。
★第五章 网页下载器和 urllib2 模块
5-1 网页下载器简介 将互联网上url对应的网页下载到本地的工具
python有哪些网页下载器?
5-2 urllib2 下载器网页的三种方法
①最简洁方法:把url传递给urllib2模块的urlopen方法 urllib2.urlopen(url)
②
③
三种方法功能依次更大更强
5.3 urllib2实例代码演示
ps:我安装的是Python3.5.2 ,使用第一种urllib2.urlopen()报错,搜索发现官方3.0版本已经把urllib2,urlparse等五个模块都并入了urllib中,也就是整合了,参考 http://blog.csdn.net/pythonniu/article/details/51855035 ,正确用法
- import urllib.request
- url="http://www.baidu.com"
- get=urllib.request.urlopen(url).read()
- print(get)
★第六章 网页解析器和 beautifulsoup 第三方模块
6.1网页解析器简介
①正则表达式
②Python自带 html.parser
③第三方插件 beautifulsoup 强大,能使用② 和 ④
④第三方插件 lxml
①是模糊匹配,②③④是结构化解析。DOM树 ,熟悉吧๑乛◡乛๑
6.2beautifulsoup模块简介和安装
该模块属于Python第三方模块,用于从HTML或xml提取数据。
官网 http://www.crummmy.com/software/BeautifulSoup
在线安装 beautifulsoup模块,截图如下【前提:已经有pip】
6.3beautifulsoup语法
流程:HTML网页 →创建beautifulsoup对象(生成dom树) →搜索节点(find_all 方法 和 find方法,可以按照 名称、属性、文字 来搜索) → 访问节点名称、属性、文字
例子:
代码如下:
6.4beautifulsoup实例测试
总结:课程教程是Python 2 版本,自己是3.x版本,总体还是从小白到 对python爬虫整体概况有所了解一点吧。
转载于:https://www.cnblogs.com/dxxdsw/p/10644765.html
python_2开发简单爬虫相关推荐
- python秒懂百科视频,Python开发简单爬虫
Python开发简单爬虫 源码网址: http://download.csdn.NET/detail/hanchaobiao/9860671 一.爬虫的简介及爬虫技术价值 1.什么是爬虫: 一段自动 ...
- Python开发简单爬虫 - 慕课网
课程链接:Python开发简单爬虫 环境搭建: Eclipse+PyDev配置搭建Python开发环境 Python入门基础教程 用Eclipse编写Python程序 课程目录 第1章 课程介绍 1- ...
- imooc疯狂的蚂蚁《Python开发简单爬虫》源代码
以下为imooc疯狂的蚂蚁<Python开发简单爬虫>源代码,调试有些问题. html_downloader.py import html_downloader import html_o ...
- python简单爬虫程序分析_[Python专题学习]-python开发简单爬虫
掌握开发轻量级爬虫,这里的案例是不需要登录的静态网页抓取.涉及爬虫简介.简单爬虫架构.URL管理器.网页下载器(urllib2).网页解析器(BeautifulSoup) 一.爬虫简介以及爬虫的技术价 ...
- 如何使用php写爬虫,PHP如何开发简单爬虫
有时候因为工作.自身的需求,我们都会去浏览不同网站去获取我们需要的数据,于是爬虫应运而生,下面是开发一个简单爬虫的经过与遇到的问题.开发一个爬虫,首先你要知道你的这个爬虫是要用来做什么的.我是要用来去 ...
- 使用Java+SSM框架+JSP开发简单在线电影推荐网 电影推荐系统 豆瓣电影爬虫 基于用户、物品的协同过滤推荐算法 大数据 机器学习 SimpleMovieRecommendOnline
使用Java+SSM框架+JSP开发简单在线电影推荐网 电影推荐系统 豆瓣电影爬虫 基于用户.物品的协同过滤推荐算法 大数据 机器学习 SimpleMovieRecommendOnline 一.项目简 ...
- html,xml_网页开发_爬虫_笔记
20220402 笔记本走手机热点,重连之后又是另一个ip 20220331 https://mp.weixin.qq.com/s/znXuCB0Fl32TbP_0UaO6SQ 爬虫相关知识快速复习 ...
- 开发网络爬虫应该怎样选择爬虫框架?
2019独角兽企业重金招聘Python工程师标准>>> 有些人问,开发网络爬虫应该选择Nutch.Crawler4j.WebMagic.scrapy.WebCollector还是其他 ...
- 利用scrapy和MongoDB来开发一个爬虫
利用scrapy和MongoDB来开发一个爬虫 今天我们利用scrapy框架来抓取Stack Overflow里面最新的问题(),并且将这些问题保存到MongoDb当中,直接提供给客户进行查询. 安装 ...
最新文章
- 2018-3-7 HDFS架构
- C++ limits头文件
- 6 道 BATJ 必考的 Java 面试题
- java压缩_Java压缩
- 【渝粤题库】国家开放大学2021春3924★汽车电器设备构造与检修题目
- JavaScript 总结几个提高性能知识点(转)
- codeFight-Python编程训练(2)
- java--小示例:-2:优化版本,多个文件的调用。
- Atitit常见的标准化组织与规范数量jcp ecma iso
- QT出现“d:\Program Files (x86)\SogouInput\Components\”的错误分析
- 计算机组成原理试题以及答案
- K3Cloud BOS设计 值更新 字段拼接到文本字段
- 17、Python特征工程,用相关系数法选择数据特征
- English总结(二)--英语常用单词
- 算法提高 盾神与条状项链(静态链表)
- Strong-Convexity:强凸性
- 基于STM32F103单片机的智能药盒喂食器智能插座系统
- 云计算时代,企业IT资产安全运维利器——行云管家堡垒机
- TensorFlow实战:TensorFlow中的CNN
- SSM网上商城购物系统(前台+后台)
热门文章
- ios Develop mark
- sum_series() 求一列数的指定个数的数和(5个数字的和)
- 【原创】Cookie应用(二)
- 用Duplex实现消息广播
- 四位先行进位电路逻辑表达式_计算机硬件基础:二进制半加器、全加器与加法电路...
- java 汇率使用的数据类型_Flink计算支持的数据类型
- python内置模块重要程度排名_论Python常见的内置模块
- android 让应用悬浮,快速回复+app下载
- php父类的静态变量,抽象父类中的PHP静态变量:问题是在示例代码中!
- C++:多线程中的小白(1)基础概念