python--爬虫01

首先要引入urllib包
利用urlopen打开需要采集的网址
import urllib.request
url = "http://www.baidu.com"
htmlobj = urllib.request.urlopen(url)
html = htmlobj.read()  #二进制的代码
html = html.decode("utf-8")  #解码
print(html)
##################################################
获取到的网页代码
<html>
<head>
<meta http-equiv="content-type" content="text/html;charset=utf-8">
<meta http-equiv="X-UA-Compatible" content="IE=Edge">
<meta content="always" name="referrer">
<meta name="theme-color" content="#2932e1">
<link rel="shortcut icon" href="/favicon.ico" type="image/x-icon" />
<link rel="search" type="application/opensearchdescription+xml" href="/content-search.xml" title="百度搜索" />
<link rel="icon" sizes="any" mask href="//www.baidu.com/img/baidu.svg">
<link rel="dns-prefetch" href="//s1.bdstatic.com"/>
<link rel="dns-prefetch" href="//t1.baidu.com"/>
<link rel="dns-prefetch" href="//t2.baidu.com"/>
<link rel="dns-prefetch" href="//t3.baidu.com"/>
.................................................

python--爬虫01相关推荐

Python爬虫01——第一个小爬虫
原文:https://www.cnblogs.com/Axi8/p/5757270.html Python小爬虫--贴吧图片的爬取在对Python有了一定的基础学习后,进行贴吧图片抓取小程序的编写. ...
Python爬虫01—请求模块
请求模块一.基本概念 1.请求方法 1.1 GET 1.2 POST 2.Refer 3.状态码二.获取图片 1.requests模块 2.request模块三.获取网页源码 urllib.re ...
python爬虫日记01
PYTHON爬虫日记01 记录自己的学习爬虫日记选用python作为编程语言 1.环境准备 python3.6+ mysql pycharm 2.思路以爬取猫眼top100为目标 1.分析ur ...
爬虫python代码-Python爬虫入门(01) -- 10行代码实现一个爬虫
跟我学习Python爬虫系列开始啦.带你简单快速高效学习Python爬虫. 一.快速体验一个简单爬虫以抓取简书首页文章标题和链接为例简书首页就是以上红色框内文章的标签,和这个标题对应的url链接 ...
python免费教学视频400集-如何入门 Python 爬虫？400集免费教程视频带你从0-1全面掌握...
学习Python大致可以分为以下几个阶段: 1.刚上手的时候肯定是先过一遍Python最基本的知识,比如说:变量.数据结构.语法等,基础过的很快,基本上1~2周时间就能过完了,我当时是在这儿看的基础: ...
python爬虫代码-Python爬虫入门(01) -- 10行代码实现一个爬虫
跟我学习Python爬虫系列开始啦.带你简单快速高效学习Python爬虫. 一.快速体验一个简单爬虫以抓取简书首页文章标题和链接为例简书首页就是以上红色框内文章的标签,和这个标题对应的url链接 ...
2021最新《python爬虫从0-1》5.正则表达式讲解
正则表达式讲解常用正则表达式 re库 re.search re.findall 教程地址常用正则表达式字符描述 \d 代表任意数字,就是阿拉伯数字 0-9 这些玩意. \D 大写的就是和小写的 ...
python爬虫入门教程--优雅的HTTP库requests（二）
requests 实现了 HTTP 协议中绝大部分功能,它提供的功能包括 Keep-Alive.连接池.Cookie持久化.内容自动解压.HTTP代理.SSL认证等很多特性,下面这篇文章主要给大家介绍 ...
python爬虫 - Urllib库及cookie的使用
lz提示一点,python3中urllib包括了py2中的urllib+urllib2.[python2和python3的区别.转换及共存 - urllib] 怎样扒网页? 其实就是根据URL来获取它 ...
Python爬虫入门并不难，就看你如何选择？
互联网的数据爆炸式的增长,而利用 Python 爬虫我们可以获取大量有价值的数据: 1.爬取数据,进行市场调研和商业分析爬取知乎优质答案,筛选各话题下最优质的内容: 抓取房产网站买卖信息,分析房价变 ...

python--爬虫01

python--爬虫01相关推荐

最新文章

热门文章