5 实战1—利用Python获取新闻网页源代码
利用Python获取新闻网页源代码
通过Requests库来尝试获取百度新闻的网页源代码
import requests
url = 'https://www.baidu.com/s?tn=news&rtt=1&bsst=1&cl=2&wd=阿里巴巴'
res = requests.get(url, headers=headers).text
print(res)
'''
输出结果为:
<html>
<head><script>location.replace(location.href.replace("https://","http://"));</script>
</head>
<body><noscript><meta http-equiv="refresh" content="0;url=http://www.baidu.com/"></noscript>
</body>
</html>
'''
我们并没有获取真正的网页源代码,这是因为网站只认可浏览器发送的访问请求,不认可通过Python发送的访问请求,所以我们需要设置requests.get()中的headers参数,模拟浏览器的访问请求。headers参数提供的是网站访问者的信息,headers中的Users-Agent(用户代理)表示的是用什么浏览器访问的。
修改与结果如下:
import requests
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}
url = 'https://www.baidu.com/s?tn=news&rtt=1&bsst=1&cl=2&wd=阿里巴巴'
res = requests.get(url, headers=headers).text
print(res)
这里的headers是一个字典,第一个元素的键名为‘User-Agent’,值为’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36’。
User-Agent表示的是访问网站的浏览器是那种浏览器。
方法:在浏览器的地址栏输入:about:version,即可查看用户代理,他就是User-Agent的值
然后每次用requests.get()访问网站时,加上headers=headers即可。
5 实战1—利用Python获取新闻网页源代码相关推荐
- 实战教程!利用Python获取数据,并在地图上批量标注
我们想要在地图上批量标注某一类的大量点位,该怎么操作呢?没有它的坐标数据,就没有办法批量标注.今天给大家介绍下,来自图新地球用户王泽的原创教程--利用Python获取数据,并在地图上批量标注的方法! ...
- 利用python获取自己的qq群成员信息!
利用python获取自己的qq群成员信息! 首先说明一下需要使用的工具以及技术:python3 + selenium ,如有兴趣可以加群交流噢 selenium安装方法:pip install sel ...
- 可转债代码交流第二期:利用Python获取集思录数据(改)
上期内容讲解了宁稳网数据获取的方法(用于初步计算未上市可转债价格),具体方法参考第一期:可转债代码交流第一期:利用Python获取宁稳网数据(包含基本的环境搭建与Python编辑器安装方法) 本人并非 ...
- 一张图片就能追溯到你的位置!| 利用Python获取图片定位
使用场景: 利用Python获取图片的位置信息 使用过程: 过程主要分为两大部分, 第一步:获取图片的经纬度: 第二步:利用高德API的逆地理编码,将经纬度识别成具体地址. 源码如下: import ...
- 利用 Python 获取余额宝历史收益数据
最近想做一个关于用一些指数基金与余额宝组成的简单 风险-无风险 投资组合的实验计算,发现通达信之类的行情软件并没有提供完整的余额宝收益信息,如通达信仅有年化收益率的数据,并没有万份收益的数据.因此考虑 ...
- 在Linux上利用python获取本机ip
下面介绍在Linux上利用python获取本机ip的方法. 经过网上调查, 发现大致有两种方法, 一种是调用shell脚本,另一种是利用python中的socket等模块来得到,下面是这两种方法的源码 ...
- NLP实战:利用Python理解、分析和生成文本 | 赠书
导读:本文内容参考自<自然语言处理实战:利用Python理解.分析和生成文本>一书,由Hobson Lane等人所著. 本书是介绍自然语言处理(NLP)和深度学习的实战书.NLP已成为深度 ...
- python过去日期_利用python获取当前日期前后N天或N月日期的方法示例
前言 最近因为工作原因,发现一个Python的时间组件,很好用分享出来!(忘记作者名字了,在这里先感谢了),下面话不多说,来一起看看详细的介绍吧. 示例代码: # -*- coding: utf-8 ...
- Python语言学习:利用python获取当前/上级/上上级目录路径(获取路径下的最后叶目录的文件名、合并两个不同路径下图片文件名等目录/路径案例、正确加载图片路径)之详细攻略
Python语言学习:利用python获取当前/上级/上上级目录路径(获取路径下的最后叶目录的文件名.合并两个不同路径下图片文件名等目录/路径案例.正确加载图片路径)之详细攻略 目录 利用python ...
- python自动保存ping结果_利用python获取Ping结果示例代码
前言 本文主要跟大家分享了关于利用python获取Ping结果的相关内容,分享出来供大家参考学习,下面话不多说,来一起看看详细的介绍吧. 示例代码: # -*- coding: utf-8 -*- i ...
最新文章
- 华为:憧憬6G,共同定义6G
- 广度优先搜索 BFS算法
- soft_argmax
- oracle10官网下载安装,oracle11g安装(win10)下载安装
- 为你整理了一份 Mysql 的学习笔记,建议收藏学习!
- hp 服务器 无线网卡,惠普HP 615 无线网卡驱动
- 关于MeScroll的下拉刷新,上拉加载的js框架的学习和使用
- sht20中写用户寄存器_SHT20 中文技术手册
- error: Microsoft Visual C++ 14.0 or greater is required. Get it with “Microsoft C++ Build Tools“
- 【Unity】 HTFramework框架(三十九)UI的数据驱动模式,MVVM
- 怎么_如何制作h5页面?
- boss网人脸识别认证_老来网社保认证官网版app下载
- 了解阿克曼转向原理的作用
- mysql如何恢复单表_MySQL如何恢复单库或单表,以及可能遇到的坑
- spark开发及调优
- 树莓派--seafile搭建私人网盘
- 编程之美 - 中国象棋将帅问题
- kafka的Rebalance问题分析(续)
- 自动解压缩pcap中chunk编码和gzip压缩的数据
- Wetool 一款高效免费的微信社群管理工具,检查单向好友,自动回复、群发