python读取 .trs 格式等特殊文本文件

1.前言

.trs文件是拓尔思bai(trs)公司异构文本检索的类似“du脚本”的文件,带有数据库的简单描述内容。

trs格式文件在windows可以用 记事本软件打开,和txt文件一样

由此,在读取上基本和txt一样,只是trs等特殊格式文本文件可能不是用utf-8统一编码。而是用本地编码,国内多是gbk编码

2.实例

# 方式一
fp = open("trs文件.trs", "r").read()  # 不用close文件了
print(fp)# 方式二
fp = open("trs文件.trs", "r", encoding='gbk').read()  # 不用close文件了,一般为gbk编码
print(fp)# 方式三,以二进制文件读入
fp = open("trs文件.trs", "rb").read()
print("line.decode('gbk'):", fp.decode('gbk'))  # 解码,在中国trs文件一般为gbk编码

细说一下以二进制读取文本文件。

由于读入的是二进制数据,所以那些常见的用于字符串str的函数不能用了,如:split,

print输出的是十六进制的数据,要解码才能变成字符串。

优点:二进制读取文件比较快。

有一些库函数可以处理二进制的文本文件数据,如jieba分词库。当然,可能他内部也是把其转换为字符串再进行下一步的处理。

方式一结果

<REC>
<公开(公告)号>
<公开(公告)日>
<申请号>
<申请日>
<专利号>
<名称>
<主分类号>
<分类号>
<申请(专利权)人>
<发明(设计)人>
<摘要>
<国省代码>
<地址>
<发布路径>
<页数>
<申请国代码>
<专利类型>
<申请来源>
<公报发布路径>
<公报所在页>
<公报翻页信息>进程已结束,退出代码0

python读取 .trs 格式等特殊文本文件相关推荐

  1. python用os.system打开wav文件_使用python读取wav格式文件

    ** 使用python读取wav格式文件 ** - 基本概念 [采样频率] 即取样频率, 指每秒钟取得声音样本的次数.采样频率越高,声音的质量也就越好,声音的还原也就越真实,但同时它占的资源比较多.由 ...

  2. python读取json格式的超参数

    python读取json格式的超参数 json文件: {"full_finetuning": true,"max_len": 180,"learnin ...

  3. python获取的html转换为json,python读取XML格式文件并转为json格式

    XML文件如下: 红楼梦书名> 曹雪芹作者> 描述贾宝玉和林黛玉的爱情故事主要内容> 人民文学出版社出版社> 图书> 一.python读取XML格式文件代码: impor ...

  4. RAW图像详解及使用Python读取raw格式图像并显示

    一.RAW图像详解 1.1 什么是raw格式图像? RAW在英文中的解释是未处理的.自然状态的,这也就是RAW文件的真谛.RAW图像就是CMOS或者CCD图像感应器将捕捉到 的光源信号转化为数字信号的 ...

  5. 使用Python读取raw格式图像并显示

    整理日期:2020-02-13 整理内容:使用Python读取raw格式图像并显示 代码如下: import cv2 #OpenCV包 import numpy as np# 首先确定原图片的基本信息 ...

  6. python读取webp格式图像

    使用python读取webp格式图像 from PIL import Imageimport pdb;pdb.set_trace() filename = '000.webp' im = Image. ...

  7. python读取各种格式文件方式

    python读取各种格式文件方式 1.读取图片并显示 #方法1 from PIL import Image img=Image.open('1.jpg') img.show() #方法2 import ...

  8. python读取特殊格式文件

    python读取特殊格式文件 1.pytorch读取lmdb格式文件 参考文献 做深度学习/数据分析,数据读取是基础.必需的一环.特整理,以待后用. 1.pytorch读取lmdb格式文件 内容来源于 ...

  9. python 读取excel格式xml,读取xml格式的xls文件、解析其中数据

    1.python 读取excel格式xml,解析其中数据 当excel文件的格式是xml的时候,window系统是可以正常打开的,但是使用pandas直接读取则会报错,原因就是现在已经是xml文件了, ...

最新文章

  1. 原根与指标,离散对数
  2. 查看电脑主板的最大支持内存
  3. 8 MyBatis动态SQL
  4. snmp v3 参数_snmp v3 配置
  5. 防止私自接交换机_防止私接家用路由器干扰DHCP功能,禁止用户手动设置IP地址-肖哥...
  6. idea打印sql的插件_[Mybatis]-[基础支持层]-插件-自定义简易SQL打印插件
  7. 艾伟_转载:.NET 4.0新特性-- Corrupted State Exceptions
  8. 查看Oracle实例的EM端口
  9. 响应式设计PageAdmin个人博客系统源码v4.0.10
  10. Linux debian 查看CPU温度
  11. cacti 监控平台部署心得
  12. linux-优化内核参数 /etc/sysctl.conf
  13. shared_ptr四宗罪
  14. 大数据开发之Hadoop---初始Hadoop
  15. java流程语句_java流程控制语句总结
  16. Taskctl安装以及简单使用
  17. CIS 流程图 UML
  18. 计算机网络:网络地址-MAC地址、IP地址、子网掩码
  19. apollo自动驾驶进阶学习之:如何实现施工路段限速绕行及其参数调试
  20. Fetch —— 中止尚未完成的接口请求

热门文章

  1. 计算机教师继续教育心得,教师继续教育心得体会
  2. method属性值为get提交表单信息,为什么在地址栏不会显示呢。
  3. python3爬小说_python3小说爬虫
  4. Android APP的字体设置
  5. mac迅雷如何批量下载页面全部链接(无需插件,只需三步)
  6. 李政道与冯诺依曼计算机的基本原理,你们知道各个领域的领头人是哪几个?
  7. coreldraw x7 分布_CorelDRAW-X7教程(全部)
  8. coreldraw x4如何出血_coreldraw x4教程
  9. ZCMU-1411 喜闻乐见的a+b
  10. linux 星际争霸,让星际争霸在Linux操作系统下转起来