Python-爬虫遇到的问题
页面乱码问题
很多时候你读取的页面编码是utf-8但是内容就是乱码,以下方式通用解决乱码的问题
导包
import requests
查询当前页面的编码情况
r = requests.get('https://www.89ip.cn/index_1.html')content = r.content print(r.headers['content-type'])print(r.encoding)print(r.apparent_encoding)
结果
text/html;charset=utf-8
utf-8
utf-8
可以看到是utf-8 但是内容取出来就是乱码,解决办法
def getHtmlAndDealCode(url):urllib3.disable_warnings() # 去除警告html=requests.get(url,verify=False)code=html.encodinghtml=html.texthtml=html.encode(code)html=html.decode('utf-8')# parser = 'html.parser'# soup = BeautifulSoup(html ,parser)# 如果使用BeautifulSoup那么返回soup即可return html
效果演示
htmlAndDealCode = getHtmlAndDealCode('https://www.89ip.cn/index_1.html')rhtml = html.fromstring(htmlAndDealCode)result = rhtml.xpath('//table/tbody/tr/td')
爬取页面获取不到某些内容
一般遇到这种情况,坑操蛋比如下面这种情况
这种方式会我们爬虫是爬取不到的,因为这里的他是利用js的加密和解密后期在通过js渲染上去的,而我们爬虫爬取出来的只能是document.write(window.atob("MTA2Ljc1LjIyNi4zNg=="));
而真实的数据我们拿去不到的,解决办法,使用python自动化selenium这个技术是能模拟真人操作的,只要是你人进入这个页面能看到的数据那么使用selenium都能获取到,但是就是比爬虫慢很多处理起来也有些费劲,但是这些都是难不倒我们的,勇敢牛牛不怕困难,加油
我这里就贴一段演示代码,具体细节不提供代码有点多
第一个案例: 刷新视频播放量至于谁的o( ̄︶ ̄)o保密
第二个案例: 爬取指定网页的内容
点赞 -收藏-关注-便于以后复习和收到最新内容 有其他问题在评论区讨论-或者私信我-收到会在第一时间回复 在本博客学习的技术不得以任何方式直接或者间接的从事违反中华人民共和国法律,内容仅供学习、交流与参考 免责声明:本文部分素材来源于网络,版权归原创者所有,如存在文章/图片/音视频等使用不当的情况,请随时私信联系我、以迅速采取适当措施,避免给双方造成不必要的经济损失。 感谢,配合,希望我的努力对你有帮助^_^
Python-爬虫遇到的问题相关推荐
- 关于Python爬虫原理和数据抓取1.1
为什么要做爬虫? 首先请问:都说现在是"大数据时代",那数据从何而来? 企业产生的用户数据:百度指数.阿里指数.TBI腾讯浏览指数.新浪微博指数 数据平台购买数据:数据堂.国云数据 ...
- python爬虫之Scrapy框架的post请求和核心组件的工作 流程
python爬虫之Scrapy框架的post请求和核心组件的工作 流程 一 Scrapy的post请求的实现 在爬虫文件中的爬虫类继承了Spider父类中的start_urls,该方法就可以对star ...
- python爬虫抓取信息_python爬虫爬取网上药品信息并且存入数据库
我最近在学习python爬虫,然后正好碰上数据库课设,我就选了一个连锁药店的,所以就把网上的药品信息爬取了下来. 1,首先分析网页 2,我想要的是评论数比较多的,毕竟好东西大概是买的人多才好.然后你会 ...
- python爬虫案例_推荐上百个github上Python爬虫案例
现在学生都对爬虫感兴趣,这里发现一些好的github开源的代码,分享给各位 1.awesome-spider 该网站提供了近上百个爬虫案例代码,这是ID为facert的一个知乎工程师开源的,star6 ...
- Python培训分享:python爬虫可以用来做什么?
爬虫又被称为网络蜘蛛,它可以抓取我们页面的一些相关数据,近几年Python技术的到来,让我们对爬虫有了一个新的认知,那就是Python爬虫,下面我们就来看看python爬虫可以用来做什么? Pytho ...
- 玩转 Python 爬虫,需要先知道这些
作者 | 叶庭云 来源 | 修炼Python 头图 | 下载于视觉中国 爬虫基本原理 1. URI 和 URL URI 的全称为 Uniform Resource Identifier,即统一资源标志 ...
- 买不到口罩怎么办?Python爬虫帮你时刻盯着自动下单!| 原力计划
作者 | 菜园子哇 编辑 | 唐小引 来源 | CSDN 博客 马上上班了,回来的路上,上班地铁上都是非常急需口罩的. 目前也非常难买到正品.发货快的口罩,许多药店都售完了. 并且,淘宝上一些新店口罩 ...
- 一个月入门Python爬虫,轻松爬取大规模数据
如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样一个月入门Python爬虫,轻松爬的编程语言提供越来越多的优秀工具,让爬虫 ...
- Python爬虫获取文章的标题及你的博客的阅读量,评论量。所有数据写入本地记事本。最后输出你的总阅读量!
Python爬虫获取文章的标题及你的博客的阅读量,评论量.所有数据写入本地记事本.最后输出你的总阅读量!还可以进行筛选输出!比如阅读量大于1000,之类的! 完整代码在最后.依据阅读数量进行降序输出! ...
- Python爬虫破解有道翻译
有道翻译是以异步方式实现数据加载的,要实现对此类网站的数据抓取,其过程相对繁琐,本节我以有道翻译为例进行详细讲解. 通过控制台抓包,我们得知了 POST 请求的参数以及相应的参数值,如下所示: 图1: ...
最新文章
- 德州阿尔法计算机技术有限公司,德州扑克被人工智能完美攻陷 为什么比阿尔法狗还值得关注?...
- 为什么HTTPS是安全的
- Jackson 注解 -- 自定义输出格式
- 情感分析基于词典(算例代码)
- java网页中url传值的转码
- 唤醒幻数据包禁用会怎么样_如何利用splashtop实现远程开机、远程唤醒电脑
- 电脑网络维护_电脑维护小技巧(全面)
- Linux系统编程之进程控制(进程创建,fork函数,进程中止,进程等待,程序替换)
- linux如何查看磁盘剩余空间
- 微软沈向洋自述:在实现职业目标的道路上,我得到了七个教训
- 世界第一台电脑_电脑的诞生与发展
- java fragment_初步认识Fragment 之一 编写简单的fragment代码
- 在承德避暑山庄里待过,给你的最大感受是什么?
- iOS UIView异步绘制实现圆角的方案
- 计算机科学与工程国际研讨会,2018年北京计算机科学与技术国际研讨会
- linux安装 soapui_SoapUI命令行方式运行
- H5+canvas+js实现连线题
- excel教程自学网_企业Office办公软件自学视频教程word/excel/ppt 2003 2013 2016全套
- d3d11初窥(Introduction to 3D Game Programming with DirectX 11下载)
- AAAI2021论文: 时空Kriging的归纳式图神经网络