Python小姿势 - Python爬取网页数据

Python爬取网页数据

爬取网页数据是一个比较常见的Python应用场景，有很多第三方库可以帮助我们完成这个任务。这里我们介绍一下urllib库中的一个常用方法：urllib.request.urlopen()。

urllib.request.urlopen()方法用来打开一个网页，并返回一个包含网页内容的对象。使用这个方法我们可以很方便地抓取网页内容，比如我们可以用它来抓取网页的源代码。

下面是一个简单的例子：

coding=utf-8 import urllib.request 打开一个网页 response = urllib.request.urlopen("http://www.baidu.com") 读取网页内容 data = response.read() 将网页内容转化为字符串 str_data = data.decode('utf-8') 打印网页内容 print(str_data)

运行结果：

<html <!--STATUS OK--<head <meta http-equiv="content-type" content="text/html;charset=utf-8" <meta http-equiv="X-UA-Compatible" content="IE=Edge" <meta content="always" name="referrer" <link rel="stylesheet" type="text/css" href="http://s1.bdstatic.com/r/www/cache/bdorz/baidu.min.css" </head <body link="0000cc" <div id="wrapper" <div id="head" <div class="head_wrapper" <div class="s_form" <div class="s_form_wrapper" <div id="lg" <img hidefocus="true" src="//www.baidu.com/img/bd_logo1.png" width="270" height="129" </div <form id="form" name="f" action="//www.baidu.com/s" class="fm" <input type="hidden" name="bdorz_come" value="1" <input type="hidden" name="ie" value="utf-8" <input type="hidden" name="f" value="8" <input type="hidden" name="rsv_bp" value="1" <input type="hidden" name="rsv_idx" value="1" <input type="text" name="wd" class="kw" placeholder="请输入关键词" <input type="submit" class="su" value="百度一下" <span class="tools" <a href="http://www.baidu.com/more/"更多工具»</a </span </form </div </div <div id="u1" <a href="http://news.baidu.com" name="tj_trnews"新闻</a <a href="http://www.hao123.com" name="tj_trhao123"hao123</a <a href="http://map.baidu.com" name="tj_trmap"地图</a <a href="http://v.baidu.com" name="tj_trvideo"视频</a <a href="http://tieba.baidu.com" name="

顺便介绍一下我的另一篇专栏，《100天精通Python - 快速入门到黑科技》专栏，是由 CSDN 内容合伙人丨全站排名 Top 4 的硬核博主不吃西红柿倾力打造。 基础知识篇以理论知识为主，旨在帮助没有语言基础的小伙伴，学习我整理成体系的精华知识，快速入门构建起知识框架；黑科技应用篇以实战为主，包括办公效率小工具、爬虫、数据分析、机器学习、计算机视觉、自然语言处理、数据可视化等等，让你会用一段简单的Python程序，自动化解决工作和生活中的问题，甚至成为红客。

Python小姿势 - Python爬取网页数据相关推荐

python爬虫scrapy框架爬取网页数据_Scrapy-Python
scrapy Scrapy:Python的爬虫框架实例Demo 抓取:汽车之家.瓜子.链家等数据信息版本+环境库 Python2.7 + Scrapy1.12 初窥Scrapy Scrapy是一 ...
python爬取网页汉字_程序小技巧：Python3借助requests类库3行代码爬取网页数据！快来...
爬取网页数据是python很长干的一件事情,不过做起来基本上都是很冗长的一段代码,看起来复杂,不宜理解.今天给大家分享一个小诀窍,利用python3中的requests类库进行爬取网页数据. 我们先看 ...
如何用python爬取网页数据,python爬取网页详细教程
大家好,本文将围绕python怎么爬取网站所有网页展开说明,如何用python爬取网页数据是一个很多人都想弄明白的事情,想搞清楚python如何爬取网页数据需要先了解以下几个事情. 1.如何用Pyth ...
java爬取网页数据_利用Python做数据分析—对前程无忧数据类岗位进行分析
引言随着时代的发展,我国在各行各业都需要大量的人才引进,处于近几年最热门的行业也称"最火行业":大数据.数据分析.数据挖掘.机器学习.人工智能,这五门行业各有不同又互有穿插.近几 ...
python爬取网页公开数据_如何用Python爬取网页数据
使用Python爬取网页数据的方法: 一.利用webbrowser.open()打开一个网站:>>> import webbrowser >>> webbrowse ...
编程python爬取网页数据教程_实例讲解Python爬取网页数据
一.利用webbrowser.open()打开一个网站: >>> import webbrowser >>> webbrowser.open('http://i.f ...
python爬取网页数据软件_python爬虫入门10分钟爬取一个网站
一.基础入门 1.1什么是爬虫爬虫(spider,又网络爬虫),是指向网站/网络发起请求,获取资源后分析并提取有用数据的程序. 从技术层面来说就是通过程序模拟浏览器请求站点的行为,把站点返回的HT ...
python爬取网页数据(例如淘宝)
爬取网页数据(例如淘宝) 现在淘宝商品页面不能直接爬取,需要登录,所以我们得实现模拟登录,如下即可实现模拟登录: import requests cookie_str = r'cna=QsJDGKPt ...
python爬虫教程：实例讲解Python爬取网页数据
这篇文章给大家通过实例讲解了Python爬取网页数据的步骤以及操作过程,有兴趣的朋友跟着学习下吧. 一.利用webbrowser.open()打开一个网站: >>> import w ...

Python小姿势 - Python爬取网页数据

Python小姿势 - Python爬取网页数据相关推荐

最新文章

热门文章