Python 爬虫入门(1)获取豆瓣网页源代码

import urllib.request #引入第三方模块

url = "http://www.douban.com" #每一个网页都有一个唯一的名称标识通常称为URL

headers = {"User-Agent":"......"} #模仿正常网页访问时，提供计算机ip 地址 (反爬虫的第一步)

#user-agent 的查找方式: 按F12 点击网络(network) 点击标头(head) 滑到最下面就会发现你电脑的具体ip地址

date = bytes(urllib.parse.urlencode({"name":"eric"}),encoding="utf-8") #date=bytes 将数据转化成二进制数字包 ; urllib.parse 解析url; urlencode 用于封装数据发送给爬取的网址;encoding="utf-8" 编译方式。

req=urllib.request.Request(url=url,date=date,headers=headers)

# 发出请求信息其中: req 为一个对象 urllib.request 为引入的一个包 Request封装了浏览器向服务器发送请求的信息

response = urllib.request.urlopen(req)

#封装服务器发给浏览器的响应信息 (服务器指对面的,浏览器是我自己模拟的)

print(response.read().decode("utf-8")

#输出读取的内容 ,解析器为"utf-8"

Python 爬虫入门(1)获取豆瓣网页源代码相关推荐

python 爬虫源代码-Python爬虫学习之获取指定网页源码
本文实例为大家分享了Python获取指定网页源码的具体代码,供大家参考,具体内容如下 1.任务简介前段时间一直在学习Python基础知识,故未更新博客,近段时间学习了一些关于爬虫的知识,我会分为多篇 ...
python基础教程第三版豆瓣-Python爬虫入门教程：豆瓣读书练手爬虫
点击蓝字"python教程"关注我们哟! 前言 Python现在非常火,语法简单而且功能强大,很多同学都想学Python!所以小的给各位看官们准备了高价值Python学习视频教程及 ...
python爬虫基础教程115_Python解析网页源代码中的115网盘链接实例
本文实例讲述了python解析网页源代码中的115网盘链接的方法.分享给大家供大家参考.具体方法分析如下: 其中的1.txt,是网页http://bbs.pediy.com/showthread.ph ...
Python爬虫基础-如何获取网页源代码
Python爬虫基础-如何获取网页源代码网络爬虫(Web Crawler),又称网页蜘蛛(Web Spider),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.爬虫程序根据一组特定的规则 ...
Python爬虫入门（爬取豆瓣电影信息小结）
Python爬虫入门(爬取豆瓣电影信息小结) 1.爬虫概念网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序或脚本.爬虫的本质是模拟浏览器打开网页,获取网页中我们想要的那部分数据. 2.基本流程 ...
Python爬虫入门 | 4 爬取豆瓣TOP250图书信息
先来看看页面长啥样的:https://book.douban.com/top250 我们将要爬取哪些信息:书名.链接.评分.一句话评价-- 1. 爬取单个信息我们先来尝试爬取书名,利用之 ...
Python爬虫入门 | 7 分类爬取豆瓣电影，解决动态加载问题
比如我们今天的案例,豆瓣电影分类页面.根本没有什么翻页,需要点击"加载更多"新的电影信息,前面的黑科技瞬间被秒-- 又比如知乎关注的人列表页面: 我复制了其中两个人昵称 ...
Python爬虫入门8：BeautifulSoup获取html标签相关属性
☞ ░ 前往老猿Python博客 https://blog.csdn.net/LaoYuanPython ░ 一. 引言在上节<https://blog.csdn.net/LaoYuanPyt ...
Python爬虫入门实战2：获取CSDN个人博客文章基础信息
☞ ░ 老猿Python博文目录:https://blog.csdn.net/LaoYuanPython/article/details/98245036 ░ 一.引言当爬取博文内容时,有时需要进行 ...

Python 爬虫入门(1)获取豆瓣网页源代码

Python 爬虫入门(1)获取豆瓣网页源代码相关推荐

最新文章

热门文章