终于填了一个大坑:Python中如何处理《牛津高阶英汉词典》编码通不过问题(解决“UnicodeEncodeError”错误)
Python中的文本文件编码真是一个大坑,动不动就出现“UnicodeEncodeError”错误,研究了几天,今天又下载了官方的《Howto-Unicode》,终于找到了处理乱码的方法。要点就是忽略乱码,在解码中加入“ignorance”参数即可。另外,如果不知道文本文件用的是什么编码,可以用word读该文件,如果不是系统默认编码,就会出现选择编码窗口,通过在窗口手动测试,对于大约用什么编码就清楚了。答案就是这么简单,但是解决问题的过程却是大费周折,当然乐趣也在其中。
import re
#查找单词。【单词后往往会有空格,】所以加了\s
#括号十分关键,有括号和没有括号结果不同
#至于为什么,再研究
p=re.compile(r"\n([a-z]{2,40})\s?\r\n")#将包含乱码的文件以二进制读出
fileOrin=open(r"files\Z.txt","rb")#对文件进行解码
#最为关键的是增加"ignorance"参数
#此参数将忽略乱码
lines=fileOrin.read().decode("gb2312","ignorance")#在字典中查找相关单词
result=re.findall(p,lines)
print(result)#留下的问题:
#去重,后面解决吧
运行结果是:
今天弄清楚了这个问题,也很有获得感!
终于填了一个大坑:Python中如何处理《牛津高阶英汉词典》编码通不过问题(解决“UnicodeEncodeError”错误)相关推荐
- Python中常用的高阶函数
Python 中常用的高阶函数 ① filter(function,iterable)filter(function, iterable)filter(function,iterable) 过滤器 ...
- python:mdict + bottle = web 查询英汉词典
pip install readmdict ; 参见:使用Python调用mdx字典文件进行查词 安装 Mdict 去 MDict pip install bottle mdict_bottle.py ...
- python:mdict + flask = web 查询英汉词典,汉英词典
pip install pinyin; pip install snownlp; pip install flask pip install readmdict ; 参见:使用Python调用mdx字 ...
- 欧路词典高阶使用指南-扩充词典/ 如何在Mac原生字典中加入牛津高阶第八版(三指取词)
欧路词典高阶指南 一.欧路词典 1.1 mac端 1.2 ios(iphone和ipad端) 二.具体方法和资料链接汇总 安装详细教程 完整(20多本)字典文件资源 三.毕坑指南 3.1 ios(ip ...
- Python学习日志10 - 高阶函数和高级应用
Python学习日志 RBHGO的主页欢迎关注 温馨提示:创作不易,如有转载,注明出处,感谢配合~ 目录 文章目录 Python学习日志 目录 前言 进入正题 Python学习日志10课 - 高阶函数 ...
- python:SL4A ecdict.py 英汉词典查询
安卓手机上安装 sl4a_r6.apk , 可以执行 python 2.6 . ecdict.py 英汉词典查询程序放在 sl4a/scripts/ # -*- coding: utf-8 -*- i ...
- Python中import导入上一级目录模块及循环import问题的解决
Python中import导入上一级目录模块及循环import问题的解决 参考文章: (1)Python中import导入上一级目录模块及循环import问题的解决 (2)https://www.cn ...
- python下载库报错_下载python中Crypto库报错:ModuleNotFoundError: No module named ‘Crypto’的解决...
下载python中Crypto库报错:ModuleNotFoundError: No module named 'Crypto'的解决 前言 最近在网上找了很多下载Crypto的方法,感觉作用都不算很 ...
- python 惰性序列_菜鸟学飞自学Python(五)高阶函数
(仅个人学习摘抄) 函数式编程 函数式编程就是一种抽象程度很高的编程范式,特点是允许把函数本身作为参数传入到另一个函数,还允许返回一个函数. 高阶函数 高阶函数--Higher-order funct ...
- Python基础笔记_Day14_Python图形化界面、Python GUI、tkinter、Python英汉词典
Day14_Python图形化界面.Python GUI.tkinter.Python英汉词典 14.01_Python语言基础(Python实现英汉字典)(掌握) 14.02_Python语言基础( ...
最新文章
- 如何实现iframe(嵌入式帧)的自适应高度
- 20165334 四则运算阶段性总结(第二周)
- JdbcTemplate(1)(数据连接池)
- 第二十二章 SHELL脚本-CENTOS7.5知识
- javax.servlet.http.httpServletRequest接口
- 2018多校1 hdu6298 6300 6308
- Qt工作笔记-使用qrand与QTime产生随机数
- 让局域网内部挺高网速
- jquery查找父窗体id_js/jquery如何获取父窗口的元素?
- java 静态变量与静态初始化块中变量的初始化顺序
- 删除指定路径下的文件以及文件夹
- 2.1.0 Python初识面向对象
- python是不是都是英语_python为什么最近很流行?各种应用文档全是英文的吗?
- jsp九大内置对象的作用及用法
- 身份证前六位对应代码
- Linux C语言学习day11:递归与结构体
- 超详细软件工程黑书思维导图(从第一章到第八章)
- netbeans java中文_NetBeans添加中文javadoc
- 双色球(过滤历史数据+过滤连号+红球包含+篮球包含+大小分布)
- WINVNC源码阅读(七)
热门文章
- java根据天数求周数_利用Java中Calendar计算两个日期之间的天数和周数
- PyTorch中文教程 | (4) 迁移学习教程
- 个性化制作nodemcu-firmware(esp8266/esp8285 固件制作)----包含lua程序bin的制作
- gensim lda文本无监督分类实现 (有代码)
- chrome open axure 自动跳转到axure插件
- java 页面 pdf 下载_java下载PDF文件
- 图解Kafka中的数据采集和统计机制
- dwg格式转换成html,DWG格式转换器BitRecover DWG Converter Wizard
- 前端实现登录时记住密码功能
- 斐讯盒子N1_YYF_刷机ROM_讯飞语音助手实用版固件及教程分享