python自动化写作_利用python打造“全自动公文写作神器”之构建公文词库
公文写作没有捷径可行,所谓“爬格子”,必须功在平时,要勤于积累素材,特别是一些好词、金句。这话很正确,没毛病。但却是一句正确的废话。为什么?看看老铁们日益庞大的各种收藏夹(然而再也没有看过第二遍)、堆积如山的word文档(能不能找到想要的,完全看运气)、越分越多的文件夹(N级嵌套文件夹,你让我静一静)就知道了...
素材积累,从入门到放弃……
是不是扎铁了,老心?
积累素材的意义是“随用随取”,不是把素材保存下来、划上重点就算完事了,那跟批阅“朕知道了”没区别。凡是不以“用”为目的的素材积累,都是耍流氓!!!
先看看下面这些低效率、反人性的方法:
低效率方法之一:网上摘抄的资料全放入一个word,然后靠“搜索”功能查找素材。这方法相当不科学,最大的问题在于,一段素材,可能符合某个关键词的含义,但就是没有出现这个关键词。
说起来太绕了,举个例子,干货君之前摘抄了下面这段话,觉得“接力赛”这个提法相当形象。
改革如接力赛,一棒失误造成的影响不容小觑,所以XX强调“减少失误也是效率”。
实际上,“接力赛”这个词完全可以用来写“试点”、写“推进工作”。但是上面这段话,完全没有出现“试点”两个字啊,搜“试点”是根本搜不出来的。学究一点就是,该方法不能实现“基于语义的模糊搜索”。
低效率方法之二:分门别类建立文件夹
为了解决方法一的缺陷,人类诞生了方法二——就是把上面那段话放入“试点”这个专门文件夹中,下次再写“试点”的时候,不就可以找到了吗?
且不说随着素材的日积月累,会产生多少个文件夹(甚至二级、三级文件夹)。就说一点,上面那段话,其实分属“试点”、“改革”、“推进工作”等多个领域,难不成要同时放入三个文件夹中?
分门别类建立起来的素材库,如果素材数量较少,分类不多,尚能一用。等到素材库日益庞大臃肿的时候,还不如自己百度直接找素材算了。
这不是意志力的问题,这是人类的天性。人类通常只能同时处理7个左右的信息单元,一个管理者通常最多只能有效管理15个直接下属。你让我同时面对几十个分类文件夹,你问我痛不痛苦、资不资瓷?
一、从词库源爬去素材
第一部先从人民日报评论版爬出所有评论文章,作为后面词库提取的素材。人民日报评论版囊括了国际上的风云变幻和国内时局的热点事件评论且用词讲究、立场鲜明,作为“第一爬”的资源相当合适。后面再把各类报、新闻之类的网站统统爬下来。海量的素材是后面构建词库、分析句式、打造神器的坚实基础。
先从人民日报评论版爬了150片评论文章。
二、词库提取
这里采用基于TF-IDF的文本关键词抽取方法
Python第三方工具包Scikit-learn提供了TFIDF算法的相关函数,这里主要用到了sklearn.feature_extraction.text下的TfidfTransformer和CountVectorizer函数。其中,CountVectorizer函数用来构建语料库的中的词频矩阵,TfidfTransformer函数用来计算词语的tfidf权值。
基于TF-IDF方法实现文本关键词抽取的代码执行步骤如下:
(1)读取前面提取的素材文件data.csv;
(2)获取每行记录的内容;
(3)对内容进行数据预处理操作,包括分词、筛选出符合词性的词语、去停用词,用空格分隔拼接成文本;
(4)遍历文本记录,将预处理完成的文本放入文档集corpus中;
(5)使用CountVectorizer()函数得到词频矩阵;
(6)使用TfidfTransformer()函数计算每个词的tf-idf权值;
(7)得到词袋模型中的关键词以及对应的tf-idf矩阵;
(8)遍历tf-idf矩阵,打印每篇文章的词汇以及对应的权重;
(9)对每篇文章,按照词语权重值降序排列,选取排名前50个词最为文本关键词,并写入数据框中;
(10)将最终结果写入文件result.csv中。
最终运行结果如下图所示:
python自动化写作_利用python打造“全自动公文写作神器”之构建公文词库相关推荐
- 怎样用python自动化办公_会python基础,如何学习自动化办公?
Python 自动化,爽爽的解决 本课程完全让你摒弃重复率高,机械操作的劳动,解放双手,自动化办公,比如Excel表的各种计算,合并,比对,尤其是跨表,大量数据的,连Excel打开都费劲的,Pytho ...
- python高斯求和_利用Python进行数据分析(3)- 列表、元组、字典、集合
本文主要是对Python的数据结构进行了一个总结,常见的数据结构包含:列表list.元组tuple.字典dict和集合set. image 索引 左边0开始,右边-1开始 通过index()函数查看索 ...
- 70后的人用python自动化办公_用 Python 自动化办公能做到哪些有趣或有用的事情?...
Python自动化办公能做到的事可太多了 常用如下: python 使用 python-docx 操作 word 1.python-docx 库介绍 * 该模块儿可以创建.修改 Word(.docx) ...
- python照片墙地图_利用python生成照片墙的示例代码
PIL(Python Image Library)是python的第三方图像处理库,但是由于其强大的功能与众多的使用人数,几乎已经被认为是python官方图像处理库了.其官方主页为:PIL. PIL历 ...
- python图色检测_利用python打开摄像头及颜色检测方法
最近两周由于忙于个人项目,一直未发言了,实在是太荒凉了....,上周由于项目,见到Python的应用极为广泛,用起来也特别顺手,于是小编也开始着手学习Python,-下面我就汇报下今天的学习成果吧 小 ...
- python selenium截图_利用 Python + Selenium 实现对页面的指定元素截图(可截长图元素)...
对WebElement截图 WebDriver.Chrome自带的方法只能对当前窗口截屏,且不能指定特定元素.若是需要截取特定元素或是窗口超过了一屏,就只能另辟蹊径了. WebDriver.Phant ...
- python音频聚类_利用python的KMeans和PCA包实现聚类算法
题目: 通过给出的驾驶员行为数据(trip.csv),对驾驶员不同时段的驾驶类型进行聚类,聚成普通驾驶类型,激进类型和超冷静型3类 . 利用Python的scikit-learn包中的Kmeans算法 ...
- python mysql 分页_利用python对mysql表做全局模糊搜索并分页实例
在写django项目的时候,有的数据没有使用模型管理(数据表是动态添加的),所以要直接使用mysql.前端请求数据的时候可能会指定这几个参数:要请求的页号,页大小,以及检索条件. "&quo ...
- python过去日期_利用python获取当前日期前后N天或N月日期的方法示例
前言 最近因为工作原因,发现一个Python的时间组件,很好用分享出来!(忘记作者名字了,在这里先感谢了),下面话不多说,来一起看看详细的介绍吧. 示例代码: # -*- coding: utf-8 ...
- python爬虫背景_利用Python代码实现一键抠背景功能
前言 又是一个逛csdn发现的一个有趣的小项目,可以一键抠背景,需要用到removebg模块及其API,API可从其官网免费获取,网址如下https://www.remove.bg/zh ps:加上/ ...
最新文章
- Apache学习路线
- android实现计算器功能吗,利用Android实现一个简单的计算器功能
- 将War发布到Tomcat7上遇到的问题及其解决
- 消除数组中重复元素的方法
- 新建maven(servlet项目) 引入不了HttpServlet
- 数据库设计笔记——概述(一)
- CentOS 8明年正式停止维护,以后再也不会有免费的RHEL了!
- Windows下使用C++(Win32SDK)编程无需提权读取硬盘序列号(XP、Win7和Win10都可用)
- 计算机 软考 网络工程 试题,2015年计算机软考网络工程师模拟试题及答案
- ipad和iphone横竖屏设置
- 印象笔记,为知笔记和 Effie 哪个更适合影评人呢?
- 个人六年的成长与工作经验分享
- Windows2003终端服务器超出了最大允许连接数
- Java虚拟机——Parallel Scavenge收集器
- web集群之通过tomcat部署jpress应用
- 【微分方程数值解】有限差分法(二)两点边值问题数值算例(附python代码)
- 你真的理解亲密关系的价值吗?
- Java逍遥游记_我与《Java逍遥游记》
- 一个初级运维工程师对于运维工作的一些浅显认知
- Linux网络编程常用头文件解释