之前在寒假的时候,学习了python基础。在慕课网上看的python入门:http://www.imooc.com/learn/177

python进阶:http://www.imooc.com/learn/317

其实好多知识都是学了忘,忘了学的。

最近因为要使用爬虫爬去数据和照片,所以现在开始学习网络爬虫。

爬虫架构:URL管理器,网页下载器,网页解析器
URL管理器:管理待抓取URL集合和已抓取URL集合 防止重复抓取。
URL管理器实现方法: 缓存数据库:大公司,性能高 内存:个人,小公司 关系数据库:永久保存URL数据或节约内存
网页下载器:将URL对应的网页以HTML下载到本地,用于后续分析 常见网页下载器:Python官方基础模块:urllib2 第三方功能包:requests
python 3.x中urllib库和urilib2库合并成了urllib库。 其中urllib2.urlopen()变成了urllib.request.urlopen() urllib2.Request()变成了urllib.request.Request()
Python的网页解析器分为两类: 1.模糊匹配—>正则表达式 2.结构化解析-> Beautiful Soup、html.parser、lxml 把整个网页作为一个DOM树来进行解析。(Document Objective Model)
新建一个pydev module。在里面输入:

import bs4

print(bs4)

右键文档 run as -> python as

运行出错。打开win+R,cmd

进入命令提示符。进入python的安装目录,cd script

pip install beautifulsoup4

进行安装。

安装成功后重新运行。

报错:
UserWarning: You provided Unicode markup but also provided a value for from_encoding. Your from_encoding will be ignored.
解决方法:
soup = BeautifulSoup(html_doc,"html.parser")
这一句中删除【from_encoding="utf-8"】
原因:
python3 缺省的编码是unicode, 再在from_encoding设置为utf8, 会被忽视掉,去掉【from_encoding="utf-8"】这一个好了

转载于:https://www.cnblogs.com/myis55555/p/6681483.html

python之爬虫学习记录与心得相关推荐

  1. python网络爬虫学习资料

    第一:Python爬虫学习系列教程(来源于某博主:http://cuiqingcai.com/1052.html) Python版本:2.7 整体目录: 一.爬虫入门 1. Python爬虫入门一之综 ...

  2. Python神经网络编程学习记录(一)

    Python神经网络编程学习记录(一) 总结:共三章.两个附录.第1章介绍了神经网络中所用到的数学思想.第2章介绍使用Python实现神经网络,识别手写数字,并测试神经网络的性能.第3章带领读者进一步 ...

  3. (Python)爬虫学习(一)

    前言 昨天做正则表达式实践时用到了爬虫技术,那只是最浅显的一次运用,让我感到大有可为,也很感兴趣,于是接下来的一段时间打算较为深入的学习下,最起码完成既定目标(成功爬取美女图片.极简壁纸.唯美女生这三 ...

  4. 初学Python之爬虫学习

    为了满足自己的好奇心,想运用一下Python知识,然后和小伙伴要来了一个爬虫学习的B站博主的视频,教你学爬虫,真的很详细. 先上一个目录结构压压惊: 接下来就是贴代码笔记还有一个第三方库的目录: 1. ...

  5. 基于jupyter notebook的简单爬虫学习记录

    目录 前言 一.基础理解 二.前期准备 三.爬虫实操[入门] 3.1.引入库 3.2.请求网页 3.3.解析网页 3.3.1.网页解读 3.3.2.熟悉部分BeautifulSoup语法规则 3.4. ...

  6. Python网络爬虫学习实战:爬虫快速入门

    很多同学私信问爬虫的相关教程,想了想,还是专门跟大家出些Python爬虫学习相关的教程,从零开始阐述如何编写Python网络爬虫,以及网络爬虫中容易遇到的问题,比如具有反爬加密的网站,还有爬虫拿不到数 ...

  7. Python的爬虫学习笔记本(一)爬虫的基本原理

    NLP的任务往往需要大量的语料库作为数据集,而尽管现有的许多任务上都有固定的数据集,但还是在很多方面存在着欠缺.为了弥补这个欠缺,网上的大量免费的文本信息就需要通过爬虫爬下来.由此开始了爬虫的学习. ...

  8. python网络爬虫学习笔记(6)动态网页抓取(一)知识

    文章目录 网络爬虫学习笔记(2) 1 资料 2 笔记 2-1 动态抓取概述 2-2 通过浏览器审查元素解析真实网页地址 2-3 网页URL地址的规律 2-4 json库 2-5 通过Selenium模 ...

  9. python网络爬虫学习笔记(7)动态网页抓取(二)实践

    文章目录 1 资料 2 笔记 2-1 准备 2-1-1. 网址 2-2-2 文本位置 2-2 代码 2-2-1 原型 2-2-2 ver0.1 1 资料 <Python网络爬虫从入门到实践> ...

最新文章

  1. 无穷级数求和7个公式_双色球2019129期渗透围红蓝(6+1实战,附:7个双色球胆码公式)...
  2. rtmp 常用字段含义
  3. 代写python代码一般多少钱_代写CO 353课程作业、代做Python程序设计作业、代写Python语言作业...
  4. 脱裤子放屁,多此一举
  5. foreach 页面超时php,解决php运行超时的方法
  6. 机房收费系统--需求文档
  7. 压力测试-Jmeter
  8. 解决谷歌浏览器安装插件失败:无法从该网站添加应用、扩展程序和用户脚本
  9. 使用plf更新Mandriva系统
  10. 如何组织一个高效的开发团队
  11. 我当测试总监的那几年 | 程序员有话说
  12. “一阶数字低通滤波器”原理推导(含仿真和代码实现)
  13. 爱思助手无法连接或者连接超时解决办法
  14. eclipse怎么把图片打开
  15. Linux安装phpstudy(无联网版)
  16. 项目管理和流程的拙见
  17. 刚买的电脑卡顿是什么问题,是什么原因
  18. jpg转pdf转换器注册码使用
  19. win10锁屏c语言,Win10怎样在锁屏状态下打开某种应用程序
  20. 常用标点符号的中英对照

热门文章

  1. JavaScript文档对象模型DOM节点操作之第一个子元素和最后一个子元素(3)
  2. JavaScript文档对象模型document对象查找Html元素(2)
  3. bootstrap 输入错误提示_网上体育用品商城(ssm,mysql,bootstrap,html,css)
  4. 腾讯校园招聘笔试 2019-8-17 第四题 另一种解法
  5. error:LNK2005 函数已经在*.obj中定义
  6. javascript手机号码、电子邮件正则表达式 一种解决方案
  7. 1180魔方阵(每日学习)宁波大学OJ
  8. ubuntu搭建Kubernetes集群(ansible,kubedam,rancher)
  9. 事业单位考试高频考点二:经济
  10. R中安装LightGBM(Windows 64位)