Python爬取网页数据

爬取网页数据是一个比较常见的Python应用场景,有很多第三方库可以帮助我们完成这个任务。这里我们介绍一下urllib库中的一个常用方法:urllib.request.urlopen()。

urllib.request.urlopen()方法用来打开一个网页,并返回一个包含网页内容的对象。使用这个方法我们可以很方便地抓取网页内容,比如我们可以用它来抓取网页的源代码。

下面是一个简单的例子:

coding=utf-8 import urllib.request 打开一个网页 response = urllib.request.urlopen("http://www.baidu.com") 读取网页内容 data = response.read() 将网页内容转化为字符串 str_data = data.decode('utf-8') 打印网页内容 print(str_data)

运行结果:

<html <!--STATUS OK--<head <meta http-equiv="content-type" content="text/html;charset=utf-8" <meta http-equiv="X-UA-Compatible" content="IE=Edge" <meta content="always" name="referrer" <link rel="stylesheet" type="text/css" href="http://s1.bdstatic.com/r/www/cache/bdorz/baidu.min.css" </head <body link="0000cc" <div id="wrapper" <div id="head" <div class="head_wrapper" <div class="s_form" <div class="s_form_wrapper" <div id="lg" <img hidefocus="true" src="//www.baidu.com/img/bd_logo1.png" width="270" height="129" </div <form id="form" name="f" action="//www.baidu.com/s" class="fm" <input type="hidden" name="bdorz_come" value="1" <input type="hidden" name="ie" value="utf-8" <input type="hidden" name="f" value="8" <input type="hidden" name="rsv_bp" value="1" <input type="hidden" name="rsv_idx" value="1" <input type="text" name="wd" class="kw" placeholder="请输入关键词" <input type="submit" class="su" value="百度一下" <span class="tools" <a href="http://www.baidu.com/more/"更多工具»</a </span </form </div </div <div id="u1" <a href="http://news.baidu.com" name="tj_trnews"新闻</a <a href="http://www.hao123.com" name="tj_trhao123"hao123</a <a href="http://map.baidu.com" name="tj_trmap"地图</a <a href="http://v.baidu.com" name="tj_trvideo"视频</a <a href="http://tieba.baidu.com" name="

顺便介绍一下我的另一篇专栏, 《100天精通Python - 快速入门到黑科技》专栏,是由 CSDN 内容合伙人丨全站排名 Top 4 的硬核博主 不吃西红柿 倾力打造。 基础知识篇以理论知识为主,旨在帮助没有语言基础的小伙伴,学习我整理成体系的精华知识,快速入门构建起知识框架;黑科技应用篇以实战为主,包括办公效率小工具、爬虫、数据分析、机器学习、计算机视觉、自然语言处理、数据可视化等等,让你会用一段简单的Python程序,自动化解决工作和生活中的问题,甚至成为红客。

Python小姿势 - Python爬取网页数据相关推荐

  1. python爬虫scrapy框架爬取网页数据_Scrapy-Python

    scrapy Scrapy:Python的爬虫框架 实例Demo 抓取:汽车之家.瓜子.链家 等数据信息 版本+环境库 Python2.7 + Scrapy1.12 初窥Scrapy Scrapy是一 ...

  2. python爬取网页汉字_程序小技巧:Python3借助requests类库3行代码爬取网页数据!快来...

    爬取网页数据是python很长干的一件事情,不过做起来基本上都是很冗长的一段代码,看起来复杂,不宜理解.今天给大家分享一个小诀窍,利用python3中的requests类库进行爬取网页数据. 我们先看 ...

  3. 如何用python爬取网页数据,python爬取网页详细教程

    大家好,本文将围绕python怎么爬取网站所有网页展开说明,如何用python爬取网页数据是一个很多人都想弄明白的事情,想搞清楚python如何爬取网页数据需要先了解以下几个事情. 1.如何用Pyth ...

  4. java爬取网页数据_利用Python做数据分析—对前程无忧数据类岗位进行分析

    引言 随着时代的发展,我国在各行各业都需要大量的人才引进,处于近几年最热门的行业也称"最火行业":大数据.数据分析.数据挖掘.机器学习.人工智能,这五门行业各有不同又互有穿插.近几 ...

  5. python爬取网页公开数据_如何用Python爬取网页数据

    使用Python爬取网页数据的方法: 一.利用webbrowser.open()打开一个网站:>>> import webbrowser >>> webbrowse ...

  6. 编程python爬取网页数据教程_实例讲解Python爬取网页数据

    一.利用webbrowser.open()打开一个网站: >>> import webbrowser >>> webbrowser.open('http://i.f ...

  7. python爬取网页数据软件_python爬虫入门10分钟爬取一个网站

    一.基础入门 1.1什么是爬虫 爬虫(spider,又网络爬虫),是指向网站/网络发起请求,获取资源后分析并提取有用数据的程序. 从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HT ...

  8. python爬取网页数据(例如淘宝)

    爬取网页数据(例如淘宝) 现在淘宝商品页面不能直接爬取,需要登录,所以我们得实现模拟登录,如下即可实现模拟登录: import requests cookie_str = r'cna=QsJDGKPt ...

  9. python爬虫教程:实例讲解Python爬取网页数据

    这篇文章给大家通过实例讲解了Python爬取网页数据的步骤以及操作过程,有兴趣的朋友跟着学习下吧. 一.利用webbrowser.open()打开一个网站: >>> import w ...

最新文章

  1. 秒懂边缘云丨快速入门边缘云
  2. 听障学生计算机课本,面向听障学生程序设计的计算机教学辅助系统
  3. view-controller标签
  4. Genesis-3D新手入门——19.UI美化
  5. C++ 整型所能表示的数据范围
  6. mfc在运行的时候为什么没有实例化_Redis(7)——持久化【一文了解】
  7. spring+ibatis+注解开发
  8. python中threading模块_举例详解Python中threading模块的几个常用方法
  9. dnSpy 反编译exe
  10. web漏洞扫描器原理_漏洞扫描技巧篇——Web漏洞扫描器
  11. Nutch第一次搭建部署总结
  12. python金融资产估值模型_估值方法梳理 把CFA二级书本中提及的企业估值方法在白板上全列了一遍。 一、 静心思考,绝对估值法(DCF、FCFF、FCFE、RI)... - 雪球...
  13. android画图 旋转 地球*月球,unity3d怎么实现地球太阳月球转动-unity3d实现地球太阳月球转动的方法 - 河东软件园...
  14. 学习,不仅要知其然,更要知其所以然。
  15. 计算机考试表格中的透视图怎么弄,职称计算机考试:创建数据透视表
  16. conda报错-Collecting package metadata (current_repodata.json): failed
  17. 面试官问我知道的分布式事务,我一口气说了六种
  18. 演化策略(Evolutionary Strategies)
  19. EDA项目 出租车计价器 赏析
  20. 【CTF题解NO.00008】mini-LCTF 2021 official write up by arttnba3

热门文章

  1. 第七章 马斯洛金字塔模型
  2. 【tflearn系列教程】(一)为什么要学tflearn?
  3. 国内定制android系统吗,同样都是基于Android系统 国产定制系统差异有多大?
  4. 在Linux中安装JKD(详细教学)
  5. 弯下腰,只为一个昂起头的机会
  6. 基于GoogleEarth等高分辨率影像的地物景观提取精度评价
  7. 区块链开发(十四)以太坊go-ethereum客户端查询交易列表探讨
  8. C语言中,%m.ns 的含义
  9. linux c 编译 未定义的引用,c – Linux makefile中的未定义引用
  10. A股上市公司名义所得税率(2003-2019)