该楼层疑似违规已被系统折叠 隐藏此楼查看此楼

二:开始爬虫

1.爬虫主要分为两个部分,第一个是网页界面的获取,第二个是网页界面的解析;爬虫的原理是利用代码模拟浏览器访问网站,与浏览器不同的是,爬虫获取到的是网页的源代码,没有了浏览器的翻译效果。

2.首先,我们进行页面获取,python爬虫的话很多模块包提供给开发者直接抓取网页,urllib,urllib2,requests(urllib3)等等,这里我们使用urllib2进行网站页面的获取;首先导入urllib2模块包(该包是默认安装的):import urllib2

3.导入模块包之后,然后调用urllib2中的urlopen方法链接网站,代码如下repr =urllib2.urlopen("XXXXXX"),XXXXXX代表的是网站名称。

4.得到网站的响应之后,然后就是将页面的源代码读取出来,调用read方法,html = repr.read()

5.获取到页面的源代码之后,然后接下来的工作就是将自己想要的数据从html界面源代码中解析出来,解析界面的模块包有很多,原始的re,好用的BeautifulSoup,以及高大上的lxml等等,这里我就简单的用re介绍介绍,首先导入re模块包:import re

6.然后进行利用re进行搜索,这里我有使用正则表达式,看不懂的同学需去补充点正则表达式方面的知识。

7.然后,我这里就实现了一个简单的爬虫流程,打印url,可以看见刚好就是之前我们看见的百度主页logo的地址。

8.源代码:

import urllib2

repr = urllib2.urlopen("URL")

html = repr.read()

import re

省略一行代码

print url

python爬虫好学不_Python爬虫好学吗?相关推荐

  1. python爬虫开发环境_python爬虫开发教程下载|Python爬虫开发与项目实战(范传辉 著)pdf 完整版_ - 极光下载站...

    Python爬虫开发与项目实战pdf扫描版下载.Python爬虫开发是一个Pthyon编程语言与HTML基础知识引领读者入门知识,重点讲述了云计算的相关内容及其在爬虫中的应用,进而介绍如何设计自己的爬 ...

  2. python爬虫自学路线_python 爬虫学习路线:从入门到进阶

    大家好,我是凉拌 今天给大家详解一下我的爬虫学习路线. 对于小白来说,爬虫可能是一件非常复杂.技术门槛很高的事情.比如有的人则认为先要掌握网页的知识,遂开始 HTML\CSS,结果入了前端的坑,浪费了 ...

  3. python爬虫面试问题_Python爬虫面试总结

    ## Python爬虫面试总结 1. 写一个邮箱地址的正则表达式? [A-Za-z0-9\u4e00-\u9fa5]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+$ 2. 谈 ...

  4. python 正则表达式提取数据_Python爬虫教程-19-数据提取-正则表达式(re)

    本篇主页内容:match的基本使用,search的基本使用,findall,finditer的基本使用,匹配中文,贪婪与非贪婪模式 Python爬虫教程-19-数据提取-正则表达式(re) 正则表达式 ...

  5. python爬虫知识大全_Python爬虫入门有哪些基础知识点

    1.什么是爬虫 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来.想抓取什么?这个由你来控制它咯. ...

  6. python爬虫的用途_python爬虫用途

    广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 专业点来说就是应用多台机器同时实现爬虫任务,这多台机器上的爬虫,就是称作分布式爬 ...

  7. python爬取网页内容_Python爬虫原理解析

    笔者公众号:技术杂学铺 笔者网站:mwhitelab.com 本文将从何为爬虫.网页结构.python代码实现等方面逐步解析网络爬虫. 1. 何为爬虫 如今互联网上存储着大量的信息. 作为普通网民,我 ...

  8. python爬虫酷狗_python爬虫教程:爬取酷狗音乐,零基础小白也能爬取哦

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云 作者:python学习教程 ( 想要学习Python?Pyt ...

  9. python爬虫防屏蔽_python爬虫程序如何预防被限制

    有一些网站不喜欢被爬虫程序访问,所以会检测连接对象,如果是爬虫程序,也就是非人点击访问,它就会不让你继续访问,所以为了要让程序可以正常运行,需要隐藏自己的爬虫程序的身份.此时,我们就可以通过设置Use ...

  10. python爬虫东方财富网_Python爬虫入门:以东方财富网为例

    网络爬虫(Web Spider),根据网页地址爬取网页内容,从而获取各类数据,实现多种多样的功能.下面就以爬取东方财富网的数据为例,谈谈最简单的爬虫的实现.爬虫的核心有三个:请求.解析.存储. 环境配 ...

最新文章

  1. BERT可视化工具bertviz体验
  2. web前端入门学习 css(1)
  3. matlab 图像旋转补色,旋转互补色光学错觉
  4. 后端学习 - MySQL存储引擎、索引与事务
  5. Liunx常用的100条命令汇存
  6. 在TextView中实时显示数据
  7. python类class定义_python基础教程之类class定义使用方法
  8. vscode+vim使用技巧
  9. 【数据结构笔记12】平衡二叉树,AVL树,RR旋转/LL旋转/LR旋转/RL旋转,AVL树插入的代码实现
  10. cocos2d中CCSprite的使用总结 【转】
  11. python自学-新手如何自学python课程?
  12. UISearchBar--改变内部输入框的背景颜色
  13. 小样本学习记录————MAML的改进MAML++
  14. 如何取消html5微信页面授权,微信授权登录网页管理在哪里看?如何取消授权
  15. confluence 无法保存页面 排错记录
  16. ubuntu 18.04.1安装RTL8821CE无线网卡驱动
  17. 重新整理一下Handler原理(温故而知新,可以为师矣)
  18. .texi文件如何转成pdf
  19. 关于红黑树:了解是什么? 为什么设计? 会有什么效果? 什么时候用?
  20. linux上的社交软件,瞧瞧社交app-瞧瞧下载v1.6.0-Linux公社

热门文章

  1. 【java】【转】Java之classpath
  2. Ubuntu 常用命令收集
  3. 利用css对shiny页面优化及利用htmlwidgets包创建HTML控件
  4. Git学习笔记——一个NB的分布式版本控制系统
  5. iOS App与iTunes文件传输的方法和对iOS App文件结构的说明
  6. keytool生成证书_创建自签名ssl证书,Java生产jks证书
  7. mysql增加字段默认位置_MySQL语句增加字段,修改字段名,修改类型,修改默认值
  8. python列表做参数传值_python不定参数传值怎么做-问答-阿里云开发者社区-阿里云...
  9. python输入星期几_Python练习实例31 | 输入首字母,判断是星期几
  10. 使用示例_使用 COMSOL 软件模拟不规则形状并构建几何模型示例