python之爬虫学习记录与心得

之前在寒假的时候，学习了python基础。在慕课网上看的python入门：http://www.imooc.com/learn/177

python进阶：http://www.imooc.com/learn/317

其实好多知识都是学了忘，忘了学的。

最近因为要使用爬虫爬去数据和照片，所以现在开始学习网络爬虫。

爬虫架构：URL管理器，网页下载器，网页解析器

URL管理器：管理待抓取URL集合和已抓取URL集合防止重复抓取。

URL管理器实现方法：缓存数据库：大公司，性能高内存：个人，小公司关系数据库：永久保存URL数据或节约内存

网页下载器：将URL对应的网页以HTML下载到本地，用于后续分析常见网页下载器：Python官方基础模块：urllib2 第三方功能包：requests

python 3.x中urllib库和urilib2库合并成了urllib库。其中urllib2.urlopen()变成了urllib.request.urlopen() urllib2.Request()变成了urllib.request.Request()

Python的网页解析器分为两类： 1.模糊匹配—>正则表达式 2.结构化解析-> Beautiful Soup、html.parser、lxml 把整个网页作为一个DOM树来进行解析。（Document Objective Model）

新建一个pydev module。在里面输入：

import bs4

print(bs4)

右键文档 run as -> python as

运行出错。打开win+R，cmd

进入命令提示符。进入python的安装目录，cd script

pip install beautifulsoup4

进行安装。

安装成功后重新运行。

报错：
UserWarning: You provided Unicode markup but also provided a value for from_encoding. Your from_encoding will be ignored.
解决方法：
soup = BeautifulSoup(html_doc,"html.parser")
这一句中删除【from_encoding="utf-8"】
原因：
python3 缺省的编码是unicode, 再在from_encoding设置为utf8, 会被忽视掉，去掉【from_encoding="utf-8"】这一个好了

转载于:https://www.cnblogs.com/myis55555/p/6681483.html

python之爬虫学习记录与心得相关推荐

python网络爬虫学习资料
第一:Python爬虫学习系列教程(来源于某博主:http://cuiqingcai.com/1052.html) Python版本:2.7 整体目录: 一.爬虫入门 1. Python爬虫入门一之综 ...
Python神经网络编程学习记录（一）
Python神经网络编程学习记录(一) 总结:共三章.两个附录.第1章介绍了神经网络中所用到的数学思想.第2章介绍使用Python实现神经网络,识别手写数字,并测试神经网络的性能.第3章带领读者进一步 ...
（Python）爬虫学习（一）
前言昨天做正则表达式实践时用到了爬虫技术,那只是最浅显的一次运用,让我感到大有可为,也很感兴趣,于是接下来的一段时间打算较为深入的学习下,最起码完成既定目标(成功爬取美女图片.极简壁纸.唯美女生这三 ...
初学Python之爬虫学习
为了满足自己的好奇心,想运用一下Python知识,然后和小伙伴要来了一个爬虫学习的B站博主的视频,教你学爬虫,真的很详细. 先上一个目录结构压压惊: 接下来就是贴代码笔记还有一个第三方库的目录: 1. ...
基于jupyter notebook的简单爬虫学习记录
目录前言一.基础理解二.前期准备三.爬虫实操[入门] 3.1.引入库 3.2.请求网页 3.3.解析网页 3.3.1.网页解读 3.3.2.熟悉部分BeautifulSoup语法规则 3.4. ...
Python网络爬虫学习实战：爬虫快速入门
很多同学私信问爬虫的相关教程,想了想,还是专门跟大家出些Python爬虫学习相关的教程,从零开始阐述如何编写Python网络爬虫,以及网络爬虫中容易遇到的问题,比如具有反爬加密的网站,还有爬虫拿不到数 ...
Python的爬虫学习笔记本（一）爬虫的基本原理
NLP的任务往往需要大量的语料库作为数据集,而尽管现有的许多任务上都有固定的数据集,但还是在很多方面存在着欠缺.为了弥补这个欠缺,网上的大量免费的文本信息就需要通过爬虫爬下来.由此开始了爬虫的学习. ...
python网络爬虫学习笔记（6）动态网页抓取（一）知识
文章目录网络爬虫学习笔记(2) 1 资料 2 笔记 2-1 动态抓取概述 2-2 通过浏览器审查元素解析真实网页地址 2-3 网页URL地址的规律 2-4 json库 2-5 通过Selenium模 ...
python网络爬虫学习笔记（7）动态网页抓取（二）实践
文章目录 1 资料 2 笔记 2-1 准备 2-1-1. 网址 2-2-2 文本位置 2-2 代码 2-2-1 原型 2-2-2 ver0.1 1 资料 <Python网络爬虫从入门到实践> ...

python之爬虫学习记录与心得

python之爬虫学习记录与心得相关推荐

最新文章

热门文章