首先要引入urllib包
利用urlopen打开需要采集的网址
import urllib.request
url = "http://www.baidu.com"
htmlobj = urllib.request.urlopen(url)
html = htmlobj.read()  #二进制的代码
html = html.decode("utf-8")  #解码
print(html)
##################################################
获取到的网页代码
<html>
<head>
<meta http-equiv="content-type" content="text/html;charset=utf-8">
<meta http-equiv="X-UA-Compatible" content="IE=Edge">
<meta content="always" name="referrer">
<meta name="theme-color" content="#2932e1">
<link rel="shortcut icon" href="/favicon.ico" type="image/x-icon" />
<link rel="search" type="application/opensearchdescription+xml" href="/content-search.xml" title="百度搜索" />
<link rel="icon" sizes="any" mask href="//www.baidu.com/img/baidu.svg">
<link rel="dns-prefetch" href="//s1.bdstatic.com"/>
<link rel="dns-prefetch" href="//t1.baidu.com"/>
<link rel="dns-prefetch" href="//t2.baidu.com"/>
<link rel="dns-prefetch" href="//t3.baidu.com"/>
.................................................

python--爬虫01相关推荐

  1. Python爬虫01——第一个小爬虫

    原文:https://www.cnblogs.com/Axi8/p/5757270.html Python小爬虫--贴吧图片的爬取 在对Python有了一定的基础学习后,进行贴吧图片抓取小程序的编写. ...

  2. Python爬虫01—请求模块

    请求模块 一.基本概念 1.请求方法 1.1 GET 1.2 POST 2.Refer 3.状态码 二.获取图片 1.requests模块 2.request模块 三.获取网页源码 urllib.re ...

  3. python爬虫日记01

    PYTHON爬虫日记01 记录自己的学习爬虫日记 选用python作为编程语言 1.环境准备 python3.6+ mysql pycharm 2.思路 以爬取猫眼top100为目标 ​ 1.分析ur ...

  4. 爬虫python代码-Python爬虫入门(01) -- 10行代码实现一个爬虫

    跟我学习Python爬虫系列开始啦.带你简单快速高效学习Python爬虫. 一.快速体验一个简单爬虫 以抓取简书首页文章标题和链接为例 简书首页 就是以上红色框内文章的标签,和这个标题对应的url链接 ...

  5. python免费教学视频400集-如何入门 Python 爬虫?400集免费教程视频带你从0-1全面掌握...

    学习Python大致可以分为以下几个阶段: 1.刚上手的时候肯定是先过一遍Python最基本的知识,比如说:变量.数据结构.语法等,基础过的很快,基本上1~2周时间就能过完了,我当时是在这儿看的基础: ...

  6. python爬虫代码-Python爬虫入门(01) -- 10行代码实现一个爬虫

    跟我学习Python爬虫系列开始啦.带你简单快速高效学习Python爬虫. 一.快速体验一个简单爬虫 以抓取简书首页文章标题和链接为例 简书首页 就是以上红色框内文章的标签,和这个标题对应的url链接 ...

  7. 2021最新《python爬虫从0-1》5.正则表达式讲解

    正则表达式讲解 常用正则表达式 re库 re.search re.findall 教程地址 常用正则表达式 字符 描述 \d 代表任意数字,就是阿拉伯数字 0-9 这些玩意. \D 大写的就是和小写的 ...

  8. python爬虫入门教程--优雅的HTTP库requests(二)

    requests 实现了 HTTP 协议中绝大部分功能,它提供的功能包括 Keep-Alive.连接池.Cookie持久化.内容自动解压.HTTP代理.SSL认证等很多特性,下面这篇文章主要给大家介绍 ...

  9. python爬虫 - Urllib库及cookie的使用

    lz提示一点,python3中urllib包括了py2中的urllib+urllib2.[python2和python3的区别.转换及共存 - urllib] 怎样扒网页? 其实就是根据URL来获取它 ...

  10. Python爬虫入门并不难,就看你如何选择?

    互联网的数据爆炸式的增长,而利用 Python 爬虫我们可以获取大量有价值的数据: 1.爬取数据,进行市场调研和商业分析 爬取知乎优质答案,筛选各话题下最优质的内容: 抓取房产网站买卖信息,分析房价变 ...

最新文章

  1. 大数据竞赛平台——Kaggle 入门篇
  2. 数据集中存在错误标注怎么办? 置信学习帮你解决
  3. java $.getjson_JQuery 获取json数据$.getJSON方法的实例代码
  4. 负载均衡算法及其Java代码实现
  5. iframe 禁止打开新窗口_教育部新政策:禁止中学生复读?
  6. 读薄《高性能MySql》(四)查询性能优化
  7. 分布式是写出来的(一)
  8. 字符串经典题之大数相加
  9. LeetCode 20. Valid Parentheses(c++)
  10. Reids Lua 模糊查询所有key 及 相对应的集合总数
  11. mysql必背_必背的mysql语句.doc
  12. 怎样保存CAD图纸到电脑桌面呢?
  13. 资源 就是Tianmao项目里小部分备用 测试 的数据以及图片
  14. 关于校园粮食浪费问题的调查
  15. 苹果iphone APP界面设计尺寸官方版
  16. 微信小程序实现朋友圈图片展现形式
  17. CCF 201712-4 行车路线
  18. go zap + lumberjack 日志按大小分割demo整理
  19. java整合消息推送_SpringMVC整合websocket实现消息推送及触发功能
  20. 视频剪辑用计算机,剪辑视频用的电脑该如何配置 真的配置越高越好?

热门文章

  1. python步态识别算法_译 | GaitSet:将步态作为序列的交叉视角步态识别(一)
  2. 怎么调出matlab的函数,matlab定义函数【搞定方法】
  3. 前台setcookie之后从后台取出来_后台设置Cookie值,前台进行获取
  4. nginx安装到指定目录
  5. 六大举措深耕光通信市场
  6. 南阳14(会场安排问题)
  7. java.io 相关tips
  8. tomcat部署多个项目,通过域名解析访问,不同的网站
  9. FCKeditor在Asp.Net中的配置
  10. MSSQL中使用CASE函数来灵活返回结果