作者:帅得不敢出门   C++爱好者灌水天堂群 3503799   转载请保留此信息
目的:chm转换成txt
首先反编译解压chm文件
解压后的html文件是以字母顺序生成的,这样把所有html转成一个txt过程顺序无法查知。
解决方法:
1种.打开.hhc文件,分析
文件内容以如下结构组织
<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML//EN">
<HTML>
<HEAD>
<meta name="GENERATOR" content="Microsoft&reg; HTML Help Workshop 4.1">
<!-- Sitemap 1.0 -->
</HEAD><BODY>

<UL>

<LI> <OBJECT type="text/sitemap">
<param name="Name" value="原作者的说明">
<param name="Local" value="1313.html">
</OBJECT>
<LI> <OBJECT type="text/sitemap">
<param name="Name" value="进行重新编译的说明">
<param name="Local" value="1314.html">
</OBJECT>
.................
如上面 1313.html就是第一个页面,而1314.html则是第二个,依此类推

2种方法.分析#URLSTR文件
用文本打开,有部分乱码,其中夹杂着1313.html    1314.html 等信息
用ultraedit-32打开
发现其组织形式如下:
0000000: 4200 0000 0000 0000 0031 3331 332e 6874  B........1313.ht
0000010: 6d6c 0000 0000 0000 0000 0031 3331 342e  ml.........1314.
0000020: 6874 6d6c 0000 0000 0000 0000 0031 3031  html.........101
可见用windows自带的文件编译器查看时显示的乱码其实是都是二进制0。
大部分间隔都是9个0x00,但是仔细观察发现并非如此
中间有21个0x00间隔。所以分析的时候要小心。
且文件最后会以0d0a做为结束标志:

chm转换成txt的url顺序问题相关推荐

  1. ruby + nokogiri实现将天涯易读全帖转换成txt文件的功能

    YiduFreeTxt 0.1beta版发布 天涯易读网站原本是有提供下载全帖txt版本的功能的,但是该功能需要易读积分,这对于从来不登陆易读的笔者来说,无疑是一件不可能完成的任务. 于是随手写了个免 ...

  2. python pdf转txt保留全部信息_Python 将pdf转换成txt(不处理图片)

    上一篇文章中已经介绍了简单的python爬网页下载文档,但下载后的文档多为doc或pdf,对于数据处理仍然有很多限制,所以将doc/pdf转换成txt显得尤为重要.查找了很多资料,在linux下要将d ...

  3. pdf电子书转换成txt文档

    pdf电子书转换成txt文档 我们在收到用户发来的PDF格式的文件合同时,为了能够将里面的内容重新进行编辑,很多时候需要将PDF格式的电子书转换成TXT,有什么好的方法可以实现PDF转TXT. 在没有 ...

  4. 怎么把pdf电子书转换成txt格式

       PDF文件因其快捷.方便.文件小.安全性高等优点已经被广泛应用.然而生活中为了能够圆满完成领导交代的工作,常常需要对批量的PDF文件践行编辑,这就涉及到PDF文件的格式转换问题.少数几个PDF文 ...

  5. 从Word中读取内容将word转换成txt

    1.将Word转化成txt # -*- coding=utf-8 -*- import sys import os from win32com import client word=client.Di ...

  6. 把Form转换成TXT格式的文件

    把Form转换成TXT格式的文件 命令: frmcmp_batch INVIDITM.fmb apps/apps@md0yd201 Compile_All=yes Forms_Doc=yes Form ...

  7. 如何将xlsx表格文件转换成txt文件?

    #第二次写CSDN的文章,排版见谅. #主要的目的还是为了给自己留个纪念,十年二十年回过头来看,也是一件不错的事,能够看到自己的点滴成长,回首过往,如何从小菜鸟一步一步变成老菜鸟. #另一个目的就是现 ...

  8. 如何将PDF文件转换成TXT文档

    相信大家都知道什么是PDF文件,可是在使用PDF文件的时候我们常常会碰到一个难题,就是将 PDF文件转换成TXT或者Word文档进行编辑,今天就给大家分享一种简单的转换方法. 1.先打开手机,可借助手 ...

  9. pdf转txt java_pdf转换txt怎么操作?pdf文件可以转换成txt文件吗?

    虽说PDF文件看起来很华丽,包含的信息很多,有文字.有图片,甚至还能有附加的网页信息和视频内容,但是看起来舒服的PDF文件其实使用起来却非常的麻烦,其中可能会有各种各样的格式,二次利用的时候,还需要将 ...

  10. python读取pdf文件并转换成txt文件

    将pdf文件转换成txt文件 官网 文档 中英文pdf都可以,而且处理速度很快,一秒可以处理10页左右 python2: pip install pdfminer python3: pip insta ...

最新文章

  1. 剑指offer:面试题05. 替换空格
  2. 在大厂干了 5 年产品后,如今她裸辞回家开店去了
  3. 用树莓派打造世界上最小的“iMac”
  4. python中国大学排名爬虫写明详细步骤-【Python爬虫】从html里爬取中国大学排名...
  5. CentOS6 kvm添加网卡桥接口脚本
  6. sublime插件开发教程(附源码)
  7. Let‘s Play Curling 二分,lower_bound(2020.12.南京)
  8. Impala入门笔记
  9. 一键清理maven未下载完全的依赖脚本
  10. 开心的金明(洛谷-P1060)
  11. Vue中data为何以函数形式返回
  12. 认知维度与API的可用性评估
  13. AppleALC.kext驱动支持的硬件型号与ID速查列表:
  14. 修改Hosts文件解决文件访问问题
  15. Encoded password does not look like BCrypt 异常问题
  16. MMO游戏服务器从零开发(架构篇)- 网络部分
  17. 什么东西可以帮助睡眠,对睡眠好的东西分享
  18. 智慧工厂三维可视化决策系统平台(数字孪生)-解决方案开发案例
  19. Python疫情数据采集, 并做可视化展示
  20. 华为云计算IE面试笔记-eBackup有哪几种备份组网方式,各备份组网方式主要的应用场景及备份流程?

热门文章

  1. 个人信息保护中,APP经常调用的Android类和方法
  2. 还在用ListView?!OutMan!RecyclerView!
  3. 全球与中国具有集成保护功能的共模滤波器(CMF)市场深度研究分析报告
  4. [每日一氵] openCV drawMatches 函数中 flag 用法
  5. VS2010开发的winform程序在XP系统打不开的原因(与ico图标像素有关)
  6. Hubble数据库x某股份制商业银行 信用卡反欺诈项目构建2.4亿条社交网络库
  7. 快速文本分类(FastText)
  8. 推荐国内外,安全好用的电子邮箱
  9. 基于openmv的汽车内后视镜
  10. chcp 437>nul graftabl 936>nul