python爬虫过程中遇到的问题_python爬虫过程中出现的问题汇总-Go语言中文社区
1.出现 UnicodeDecodeError: 'ascii' codec can't decode byte 0xe5 in position 7: ordinal not in range(128)
原因:混淆了 python2 里边的 str 和 unicode 数据类型
解决办法:在出错的脚本前加上以下代码:
import sys
reload(sys)
sys.setdefaultencoding('utf8')
或者是:
import sys
if sys.getdefaultencoding()!='utf-8':
reload(sys)
sys.setdefaultendcoding('utf-8')
2.出现 SyntaxError: Non-ASCII character 'xe8' in file
原因:Python的默认编码文件是用的ASCII码
解决:只要在文件开头加入#-*- coding: UTF-8 -*-或者 #coding=utf-8就可以了
3.利用githup上的爬虫爬取裁判文书网时,在文书id的解密过程中出现了如下问题
异常产生于:
def decrypt_id(RunEval, id):
"""
docid解密
"""
js = ctx2.call("GetJs", RunEval)
print js
js_objs = js.split(";;")
js1 = js_objs[0] + ';'
js2 = re.findall(r"_[_][_]((.*?))();", js_objs[1])[0]
key = ctx2.call("EvalKey", js1, js2)
key = re.findall(r""([0-9a-z]{32})"", key)[0]
docid = ctx2.call("DecryptDocID", key, id)
return docid
注意:安装node.js后还需要更换cnpm的镜像(执行下面这条语句)
npm install -g cnpm --registry=https://registry.npm.taobao.org
文书id解密过程:
首先,由获得的runEval得到下图:
提取com.str._KEY的值,传入到js文件中的com.str._KEY
之后,对加密的id进行解密
var unzipid=unzip(id);
var realid=com.str.Decrypt(unzipid);
return realid;
最终的返回值即文书id明文。
python爬虫过程中遇到的问题_python爬虫过程中出现的问题汇总-Go语言中文社区相关推荐
- python的重点和难点_python知识点汇总-Go语言中文社区
1.反编译: 1.1Windows下生成pyd文件(加密) [Windows下安装Python扩展提示"Unable to find vcvarsall.bat"](https:/ ...
- python爬取王者_python爬取王者荣耀APP英雄皮肤-Go语言中文社区
我们用fillder抓包下载,>>fillder软件下载 1.下载安装软件,设置Tools >> HTTPS里面全部勾选 2.options >> connecti ...
- rust的矿坑_转: Rust中的Pin详解 【Rust语言中文社区】
Rust中的Pin详解 原创 automanyang Rust语言中文社区 昨天 https://mp.weixin.qq.com/s/PjctbPbyR5OeaqTHZdB5uQ 相关概念 Pin ...
- python 依据某几列累加求和_Python爬虫笔记:爬取单个页面
前言 学习Python爬虫技术也是一件需要大量实践的事情,因为并不是所有的网站都对爬虫友好,更多的一种情况是网站为了限制爬虫不得不在最小化影响用户体验的前提下对网站访问做出一定的限制,最常见的就是一些 ...
- python爬虫爬取多个页面_Python爬虫笔记:爬取单个页面
前言 学习Python爬虫技术也是一件需要大量实践的事情,因为并不是所有的网站都对爬虫友好,更多的一种情况是网站为了限制爬虫不得不在最小化影响用户体验的前提下对网站访问做出一定的限制,最常见的就是一些 ...
- python爬虫爬取百度图片总结_python爬虫如何批量爬取百度图片
当我们想要获取百度图片的时候,面对一张张图片,一次次的点击右键下载十分麻烦.python爬虫可以实现批量下载,根据我们下载网站位置.图片位置.图片下载数量.图片下载位置等需求进行批量下载,本文演示py ...
- 基于python爬虫的论文标题_python爬虫——简单论文标题检索-Go语言中文社区
有趣的爬虫,独有的意义召唤着我去学习,去尝试.最近有感于每天对于论文的收集,感觉自己的收集速度赶不上论文的更新速度,同时对于自己想找到的论文的收集比较麻烦.因此,学习用python写一个很简单的爬虫, ...
- python爬虫工程师认证证书报考条件_Python爬虫工程师要具备怎样的技能
对于程序员来说基本上不存在重复性的工作,任何重复劳动都可以通过程序自动解决.下面千锋带你一起了解爬虫需要哪些相关的技能. 1.基本的编码基础(至少一门编程语言) 这个对于任何编程工作来说都是必须的.基 ...
- python爬虫文件下载很慢卡住线程_python爬虫多线程假死怎么解决?
抓baidu数据,但跑不了多久就假死,无反应也不报错,初学python,搞了两礼拜没搞明白,望各位前辈指点下 #coding:utf-8 ''' 百度排名查询,代理多线程版本 ''' import S ...
最新文章
- pandas dataframe 字符映射为数字
- 带毫秒的字符转换成时间(DateTime)格式的通用方法
- 验证ArrayList插入同样数据使用指定容量和默认容量的效率
- AndroidStudio EventBus报错解决方法its super classes have no public methods with the @Subscribe
- Nature出炉「中国博士生图鉴」:过半学生想换领域换导师,40%学生受抑郁、焦虑困扰...
- mysql数据库的环境搭建_数据库学习(一)MySql环境搭建
- CodeForces - 1141D Colored Boots(暴力+水题)
- jquery让页面滚动到底部
- Hadoop集群搭建之问题锦集
- 关于安装AccessDatabaseEngine_x64.exe 的说明
- windows iphone 传输
- Zookeeper基础简介
- sed和awk常用命令式例
- 数据挖掘:概念与技术 笔记
- 使用LoadRunner进行性能测试的简单步骤
- 【LaTeX安装】如何在windows电脑上安装 texlive2021
- 计算机软件系统由程序和相应的文档组成,ab计算机软件
- 大学计算机在线作业答案,大学计算机第一次在线作业及答案
- Springboot整合轻量级反爬虫组件kk-anti-reptile
- 【原创】uniapp开发的微商个人相册多端小程序源码以及安装
热门文章
- 2017.5.25-5.28 hide捉迷藏 失败总结
- 学计算机比学农好吗,学农教育效果如何?学生:“做农活比打游戏有意义”
- 手机计算机英语,计算机英语翻译
- Codeforces初体验
- go中如何使用easyjson_两分钟让你明白Go中如何继承
- 完整html生日祝福代码_孩子生日发朋友圈祝福语(一)!
- OpenGL ES Emulator横向比较
- Objective-c的点符号(.)的奇怪之处
- 常用的linux文件权限
- 正则表达式之初入江湖