前言

本文旨在对开发过程中出现的若干问题作记录。因为开发本身过程大多采用参考代码,不完全原始开发,因此不涉及具体的python语法记录,只对搭建环境及需求分析作统一的记述。

需求描述

目的

旨在开发一个词频统计工具。统计某个文件夹下所有的.txt,.docx,.doc文件中出现的所有单个字出现的次数。

区别于现代文和英文(现代文设计组词分词,英文则是根据空格区分单词),文言文的基本释义是一字一义。因此,我们的统计可以适用于遍历所有的汉字,然后作统计。

选用 python 的目的

本次的需求实际上是一个桌面端应用的开发。当前能够使用的桌面端开发工具有许多。

Windows 平台下的桌面端仍然是微软提供的 MFC 开发,采用 C++语言

Mac 平台下和iOS 相同,采用Objective-C 或 Swift配合Xcode IDE

本次的工具旨在开发一款跨平台的桌面端应用(在Windows, MacOSX)下通用。目前我个人已知的跨平台开发库除了Python相关的库外,就是JavaScript世界中的几个跨院库:Electron等。

跨平台开发本质上意味着牺牲一部分的性能以及包大小。简单来说就是各个平台本身有一套根据自身硬件性能和平台 api 特性设计的开发方案。跨平台的开发工具先用自身的开发逻辑实现了所有的业务,最后通过解释器生成原生使用的机器语言。

简单的解释,好比你带了一个翻译出国旅行。虽然也可以算得上畅行无阻,但是交流起来毕竟隔了一层。

本次的需求本身而言并不复杂,选用python的原因主要还是因为他的简单易用性。而electron,还需要熟悉更多额外的内容。

设计思路

文言文统计流程图

开发环境及搭建

python环境 —— python 2.7

Windows需要额外安装,下载这个链接中的Windows x86-64 MSI installer,安装时记得勾选最后一个add python.exe to Path(这一步是添加python 到环境变量,如果不勾选,回头还要手动作,很麻烦)

图片

mac 下因为自带了python 2.7不需要额外安装

python IDE 这没啥好说的,就是使用JetBrains他们家的Pycharm.

这里额外说明一下,用过pycharm的同学可以直接跳过。

Pycharm的优点在于:

良好的包管理工具 —— 开发者不需要像很多教程中提到的,使用命令行进行pip的手动安装,直接搜索库中已有的第三方库。直接可视化操作。

默认安装了虚拟环境 —— 安装虚拟环境的目的:通常地,创建一个python项目,如果有用到第三方库,我们都是直接安装在本地目录下。

这样造成的一个结果就是,每当我新建一个工程,也许都存在一个不相干的共享的python库在其中。

虚拟环境的搭建,旨在针对每一个新建的python工程,都有一个干净的python库在其中。下面是在pycharm中建立虚拟环境 virtualEnv(virtual environment)

示意图1

示意图2

使用到的第三方库:

xlwt 生成/写入excel文件的库

python-docx 读取Word文档的第三方库

zhon 处理汉字标点符号

langconv 处理简繁体转化

Tkinter 这个是python自带的桌面GUI 开发工具,比较轻量级。最后的效果大概如下

mac 端的视图

遇到的问题

业务逻辑上的问题

除了上面提到的程序上的问题外,业务本身还存在几个开发过程中需要解决的痛点。这里一一罗列:

标点符号 —— 我们统计词频的时候,需要做的事就是“掐头去尾”,即,遍历每一行的字符串内容,去掉其中的所有标点符号(包括中英文),然后作下一步操作

简繁转化 —— 简体字和繁体字并不是一一对应的关系。比如繁体字的"麵條"和“面對”,对应简体字都是“面”,繁转简还好说,简转繁的时候,究竟对应哪个面,也许就不得而知了。

目前的做法是统一转化成简体。但是一些特殊情况也会出问题,比如“乾隆”和“乾坤”,转成简体字,会变成“干隆”和“干坤”。

之前使用的简繁转换库叫做opencc,之后发现打包后运行时,会报转化失败的错误。故而改用一个引入源码的库langconv.py

读取 .txt和.docx/.doc的区别

Word相对于记事本,是支持富文本的。因此在文件的读取上也有很多的不同。这里专门使用了一个python的Word读取库叫做python-docx作读取操作。

开发中遇到的问题

不同平台下的若干问题

打包问题 —— 使用什么打包工具

网上有很多的文章,提到了windows 平台使用py2exe等等的库,mac 平台使用py2app.实际情况是,这些库都不尽如人意,存在许许多多的问题。不是打包失败,就是打包成功后运行失败,且无法定位问题。

闲话少叙,这里使用的是叫做Pyinstaller的打包工具。

这里也有一个小坑:首次安装pyinstaller后,在虚拟环境中执行终端的打包指令是会报无法识别pyinstaller的。这时候必须要将整个pycharm重启。当看到终端指令前面出现(venv)的字样,才能执行。

示意图3

打包mac 下的 app,那么要在 mac 下运行。打包 Windows 的.exe 文件,那么工程必须运行在 Windows 下。也就是说,我在 A 平台的时候,不能打包 B 平台下的包。这个其实也蛮麻烦的,等于我在两个平台都要安装一遍程序。

* 打开文件/文件夹,mac 和 windows 下的命令不同,代码要做兼容

完成统计后,我们理想的状态是打开生成的`excel`和它所在的文件夹。

* mac 底下用的是`open ./desExcel.xls`,

* windows 底下的命令是`./desExcel.xls`

针对这点,需要作区别处理完成兼容

调试过程中可以正常使用,打包后无法运行。—— 涉及打包后如何定位问题

在mac平台,打包后在dist文件夹下会生成两个文件,一个是.app,一个是一个终端文件,直接拖曳进入终端后可以执行,且会出现打印日志,方便定位运行失败问题。

示意图4

异常处理 —— 对于Word会生成隐藏的临时文件,当临时文件为空时,python中的读取会报错。

这里可以使用try except语法忽略空文件。因为涉及语法,不赘述。

以上。

python怎么读单词和古文_Python 实现文言文词频统计相关推荐

  1. python怎么读单词和古文,Albino Python是什么意思

    1. A landlord in Florida got quite a shock when she opened a closet of her rental property, a gigant ...

  2. 北京交通大学Python课程设计大作业(四)——典籍词频统计

    北京交通大学Python课程设计大作业(四)--典籍词频统计 文章目录 北京交通大学Python课程设计大作业(四)--典籍词频统计 一.词频统计任务介绍 二.典籍词频统计python源代码如下 三. ...

  3. python分析红楼梦出现的虚词词频统计,python对红楼梦的每一章节进行词频统计

    python对红楼梦的每一章节进行词频统计 python对红楼梦的每一章节进行词频统计 import jieba f=open("G:\\红楼梦.txt","r" ...

  4. python对红楼梦的每一章节进行词频统计

    python对红楼梦的每一章节进行词频统计 import jieba f=open("G:\\红楼梦.txt","r",encoding="utf-8 ...

  5. python单词词频字典_Python字典使用--词频统计的GUI实现

    字典是针对非序列集合而提供的一种数据类型,字典中的数据是无序排列的. 字典的操作 为字典增加一项 dict[key] = value students = {"Z004":&quo ...

  6. python英文文本词频统计_Python英文文章词频统计(14份剑桥真题词频统计)

    Python剑桥真题词频统计 最好还是要学以致用,自主搜集了19年最近的14份剑桥真题之后,通过Python提供的jieba第三方库,对所有的文章信息进行了词频统计,并选择性地剔除了部分简易词汇,比如 ...

  7. Python 《Hamlet》哈姆雷特英文词频统计

    英文词频统计 关键问题: 1.词语 -- 键 2.相同词语的累加 -- 值 讨论:定义什么数据类型 -- 字典类型 问题描述: I:文件的输入 P:采用字典类型的结构统计词语出现的频率 O:每个单词及 ...

  8. python编程试题单词倒排_Python:将句子中的单词全部倒排过来,但单词的字母顺序不变...

    早上看到好友未央的一篇博文<一道google的测试工程师笔试题>,内容如下: 这是去年面试google测试工程师的一道题,题目如下: 设计一个函数,使用任意语言,完成以下功能: 一个句子, ...

  9. python 边读边写文件_Python 文件读写

    Python 文件读写 Python内置了读写文件的函数,用法和C是兼容的.本节介绍内容大致有:文件的打开/关闭.文件对象.文件的读写等. 本章节仅示例介绍 TXT 类型文档的读写,也就是最基础的文件 ...

  10. python编程试题单词倒排_Python 单词字母顺序不变且全部倒排

    [A1]以空格为分隔符,将单词取出放入list中. 关于split(): string.split(s[, sep[, maxsplit]]) Return a list of the words o ...

最新文章

  1. ConfigParser
  2. Python 计算机视觉(二) —— OpenCV 基础
  3. 华为S5700交换机开启telnet远程登陆配置(推荐)
  4. 多次点击android版本出现棒棒糖,android – 为前棒棒糖设备创建循环显示
  5. 米勒机会信托或将通过GBTC投资比特币
  6. Map3D中获取地图中心及Zoom到新的中心点
  7. strcat与strncat的C/C++实现
  8. py2exe支持python3.6_使用Py2Exe for Python3创建自己的exe程序示例
  9. Codeforces Round #197 (Div. 2): C. Xenia and Weights(记忆化搜索)
  10. linux[CentOS 6.5] 用户不在 sudoers 文件中,此事将被报告解决方案
  11. c语言圆形体体积计算器,圆的半径计算软件
  12. 云桌面优缺点_云桌面真的是办公最佳选择吗?云桌面的优缺点对比
  13. 微信小程序 测试号管理(appid和密钥)
  14. ApacheCN 翻译活动进度公告 2019.6.15
  15. U盘格式化后 容量变小如何解决
  16. 机器学习_深度学习毕设题目汇总——图像分割
  17. Android开发中遇到的坑
  18. [论文阅读笔记14]Nested named entity recognition revisited
  19. Stack Overflow简单介绍
  20. 十分钟实现灭霸打响指灰飞烟灭的效果

热门文章

  1. 群晖(Synology)配置 NAS + 软路由
  2. Visual Object Classes Challenge 2012 (VOC2012) 简介
  3. 参考文献起止页码怎么写_参考文献起止页码格式
  4. ABAP 出库单打印 产品 A搭A A搭B显示方式
  5. 自动阅读脚本成本分析大全(单月阅读成本核对)
  6. java preference xml,java – 找不到PreferenceScreen类
  7. 快速定制开发CAD电路图(电气原理图)详细流程及源码 浮云E绘图
  8. VPP使用心得(一)初步安装
  9. 如何破解qq仅三天可见
  10. Nginx与TCP协议的关系