python编写爬虫的步骤-如何编写python脚本?教你做简单的爬虫,适合初学者
如何编写python脚本?很多朋友学习python都希望能从爬虫开始,而网络爬虫是近年来的热门话题,学习网络爬虫的人越来越多!
其实,一般的爬虫技术具有2个功能:取数据和存数据!好像我们说了句废话。。。
但从这两个功能进行拓展,需要的知识很多:请求数据,防爬处理,页面解析,内容匹配,绕过验证码,维护登录和数据库等相关知识,今天我们就来谈谈做一个简单的爬虫,需要的一般步骤!!(可以看文章底部哦!)
存数据
先说存储的数据,因为在最初的研究的时候,较少接触,并不需要过于关注,随着后面的学习,我们需要存储大量数据,就需要你学习数据库相关的知识了!这个我们后面再说。
初期,我们能够抓到需要的内容后,只需要保存到本地,无非保存到文档、表格(excel)等等几个方法,这里大家只需要掌握with语句就基本可以保证需求了。基本是这样的:
with open(路径以及文件名,保存模式) as f:f.write(数据)#如果是文本可直接写入,如果是其他文件,数据为二进制模式更好
当然,要保存Excel电子表格或文档就需要使用xlwt(EXCEL),python-docx库(word),这个在网上很多,大家可以自行去学习。(可以看文章底部哦!)
取数据
啰嗦的人那么多,终于到正题,怎么来抓取我们需要的数据呢?别急,一步步来!
通常所说的抓取网站上的内容,是指通过Python脚本实现访问URL地址(请求数据),然后获取它返回的内容(HTML源代码,Json格式的字符串等)。然后通过解析规则(页面解析),分析我们需要的数据并且取(内容匹配)出来。
用python实现爬取数据的功能其实还是很方便的,而且还有很多库来满足我们的需求,例如先用requests库取一个url(网页)的源码
import requests#导入库url = "你的目标公司网址"response = requests.get(url) #请求进行数据print(response.text) #打印出这些数据的文本内容。
通过这些代码就可以得到网页的源代码,但有时会有乱码的情况出现,为什么?
因为抓取的网站大部分是中文网站,也就是包含了中文,但终端并不支持GBK编码,所以在我们打印时就要自己把中文从gbk格式转为终端支持的编码,通常为utf-8编码。
所以需要我们在打印response之前,需要对它进行编码的指定(可以直接使用指定某些代码显示的编码格式为网站网页本身的编码标准格式,比如utf-8,网页编码格式一般都在源代码中的<meta>标签下的charset属性中指定)。加上一行即可
response.encode = "utf-8" #指定编码格式
到目前为止,我们已经抓取到了网站网页上的源代码,那么下一步就是要在源码中找到我们所需要的那些内容,而这里就要用到各种各样的匹配方式了,几种常用的方法有:正则表达式(RE库),BS4(Beautifulsoup4库),XPath的(LXML库)!
建议我们大家可以从正则开始进行学习,最后一定要通过看看xpath,这个在爬虫技术框架scrapy中用的非常多!
在通过各种匹配方式找到我们的内容后(注意:一般情况下匹配出来的都是列表哦),就到了上面所说的存数据的阶段了,这就完成了一个简单的爬虫!!
当然,也许当我们自己去编写代码的时候,会发现很多我上面并没有说到的内容,例如:
在你去获取别人网站或网页源码时会遇到反爬,很难获取到数据,而且很多网站需要登录后才能拿到内容,等等之类的!
所以,学习本身是一个漫长的过程,我们需要不断的实践来增加我们的学习兴趣,以及学习更扎实的知识! 加油,各位!
python编写爬虫的步骤-如何编写python脚本?教你做简单的爬虫,适合初学者相关推荐
- python官网下载步骤手机-手机python下载
广告关闭 2017年12月,云+社区对外发布,从最开始的技术博客到现在拥有多个社区产品.未来,我们一起乘风破浪,创造无限可能. 说明: python 2python 3都支持. 示例代码 说明: 所有 ...
- python官网下载步骤linux-linux 安装 python 最全教程
环境:centos6.5 centos6.5 自带的 python 版本是 2.6.6,需要重新安装 2.7: centos7 自带的 python 版本是 2.7.5 基本操作 在安装新版本之前,一 ...
- python官网下载步骤win10-win10系统python安装教程
其他相关 win10系统,python安装,python_百度搜索if(window.bds&&bds.util&&bds.util.setContainerWidth ...
- python官网下载步骤64位-Python 3.7 64位下载
python64位是一种面向对象.直译式计算机程序设计语言,也是一种功能强大而完善的通用型语言,已经具有十多年的发展历史,成熟且稳定.这种语言具有非常简捷而清晰的语法特点,适合完成各种高层任务,几乎可 ...
- python官网下载步骤2019-2019年python入门到精通(19天全)
讲解方式: python编程入门,针对0基础就python语言基础语法的各个点逐步讲解,由浅入深,通俗易懂,层层深入. 课程亮点: 1,对于编程0基础的同学或者想把python作为第二门编程语言的同学 ...
- python官网下载步骤图解-最新Python安装图文教程[很详细]
如今,Python已经成为一种非常主流的编程语言了,很多小伙伴都开学习python,但是对于刚刚接触python的纯小白来说,不太会安装,下面我们就介绍介绍python最新安版本3.7.4的安装教程. ...
- python 某个数是不是在某个范围内_教写一个简单的python小程序(04)
点击蓝字 关注我们 会酸的柚子 Python爱好者 搞机少年 七夕结束了~ 酸柚也是被强塞了满嘴的狗粮 在这样充满恋爱腐朽气息的一天 酸柚也是马不停蹄的在赶稿子 兄弟们,给我顶起来呀~ 我们来看看今日 ...
- python制作聊天软件_一步一步教你做聊天软件(Python实现+非阻塞)
首先,我们需要知道实现怎么样的聊天: 1.不是单工或者半双工 2.我可以发消息,也可以不发消息,并且不影响我收消息 3.我的消息不会发给自己,我的消息可以发给其他所有人 4.暂时没有GUI,只要会做了 ...
- 用Python写一款属于自己的 简易zip压缩软件 附完成图(适合初学者)
一.软件描述 用Python tkinter模块写一款属于自己的压缩软件.zip文件格式是通用的文档压缩标准,在ziplib模块中,使用ZipFile来操作zip文件,具有功能:zip压缩功能,zip ...
最新文章
- MDNICE使得你只需要关注内容
- SAP UI5应用里搜索功能的实现
- python排序sorted_sorted排序的两个方法 - Python
- C语言指针,申请、释放内存,线程
- Spring事务那些事儿
- chimerge算法matlab实现,有监督的卡方分箱算法
- mac上sublime配置php环境,Mac下sublime text3如何配置php编译环境?
- JDK6中synchronized优化之自旋锁、锁擦除、锁粗化
- 【读书笔记《Android游戏编程之从零开始》】19.游戏开发基础(游戏音乐与音效)
- php银行学生助学贷款管理系统
- Office在线预览-永中
- u盘和计算机捆绑,不要再使用乱七八糟的捆绑PE了——教你制作最纯净的PE系统维护U盘!...
- OpenGL中的Alpha测试,深度测试,模板测试,裁减测试 .
- mongodb一致性协议_Mongodb选举机制
- 小白积累本:stata矩阵计算初级操作的汇总(更新ing)
- word中插入未压缩的原图
- 计算机表格里的隐藏怎么弄出来怎么办,电脑表格隐藏不见了怎么办
- 算法的时间与空间复杂度(一看就懂)
- hawk大数据基础知识总结(1)
- Excel获取字体颜色信息的函数操作FgColor函数