提取网页内容存储为word的方法
应用需求
word是我们平常办公最常用的文字处理软件之一了,但是我们第一手阅读的材料却并不通常是用word来写就的(非doc格式),可能是txt文本,pdf文件,更多的可能就是网页内容了。我们希望有一种轻快便捷的方案可以很容易地将网页内容导出成doc格式的文件,这样我们就可以用word来处理它们了。
今天老师让我办件事,是登录进一个问卷调查网页,将所有问卷内容提取出来,整理成word文件发给她。我在登进问卷(.aspx格式)后发现,网页内容是受保护的,不可以直接复制内容(点击右键没有任何响应)。
于是乎,我就面临了第一个考验,如何获取网页内容?
pdf2word
我的第一种方法是利用浏览器的打印功能,将网页保存为pdf。保存了4个pdf文件(因为问卷有4页)之后,我首先利用在线文档转换工具Smallpdf将4个pdf文件合二为一,然后在线转为word。
然而令我大失所望的是,转化成的word文件有太多太多的格式、字体问题,别说是编辑重用了,连阅读都不堪其用。我试了许多其他的pdf转word在线平台,效果都是半斤八两,不堪入目。
html2word
既然pdf不是一个明智的选择,我开始思考其他方案。我发现在浏览器中还有这样一个功能:将页面存储为html格式。以谷歌为例,在功能->更多工具中选中另存为html,就可以将当前网页的html格式连同一个链接文件(如果存在)一起下载到本地。
接下来的操作异常简单:
- 选择下载好的html文件,右键点击“打开方式”选项,用Word打开;
- 打开后可以看到文件格式与网页中显示基本一致,选择“文件另存为”,存成以“docx”为后缀的文件;
- 如果html中有引用文件包中的链接,需要对其进行编辑(我遇到的网页无此情形);
- 可尝试删除与html文件一起被下载的文件包,以免每次打开html转成的word文件都需要授权。
这样一来,一个可以分享给他人的word文件就完成了。
为了方便以后的工作,以及分享给有需要的人,暂且把这些操作记录下来。
【其实我是个科研工作者~~~】
参考内容:
http://code.makery.ch/library/convert-web-page-to-word/
提取网页内容存储为word的方法相关推荐
- 用CSS方法提取网页内容
昨天用xpath提取了网页内容,今天用CSS方法重新提取一遍. 随便在伯乐在线找一篇文章,网址:http://blog.jobbole.com/113555/ #通过CSS选择器提取网页的字段#标题t ...
- 提取式存储才是最佳的记忆方法
上面这个公号「涩郎」,是我的一个备用号,为了防止万一哪天大号失联,平时一周我也会发三篇左右的我的思考,读书笔记,认知感悟等文章,带领大家一起探索精神与财务自由之路. 提取是最好的存储方式.提取式存储才 ...
- Node_exporter+Prometheus+Grafana 快速实现Linux系统性能数据提取、存储和可视化展示
Node_exporter+Prometheus+Grafana 快速实现Linux系统性能数据提取.存储和可视化展示 1. 前言 2. Node_exporter 2.1 安装 node_expor ...
- php导出页面word,php导出生成word的方法_PHP
php导出生成word的方法_PHP 本文实例讲述了php导出生成word的方法.分享给大家供大家参考,具体如下: PHP导出word (1)首先,预览html页面,示例化对象,定义要导出的数据(2) ...
- 从TS文件中提取DVB Subtitle字幕的有效方法
从TS文件中提取DVB Subtitle字幕的有效方法 深圳市同洲电子股份有限公司韦斌 (本文发表于<卫星电视与宽带多媒体>2013年16期) 摘要:DVB Subtitling标准 ...
- python读取word的方法,Python读取Word(.docx)正文信息的方法
Python读取Word(.docx)正文信息的方法 本文介绍用Python简单读取*.docx文件信息,一些python-word库就是对这种方法的扩展. 介绍分两部分: Word(*.docx)文 ...
- 如何用提取网页内容的工具快速提取网站内容
随着社会的不断的进步,我们已经进入一个效率时代,相信每个人在互联网上下载或者复制粘贴过内容.特别是整理行业的数据,以及收集资料.今天小编就教大家如何用提取网页内容的工具快速提取到你想要的信息,只需要点 ...
- python在windows下操作word的方法的代码
把写内容过程经常用的一些内容收藏起来,下边内容内容是关于python在windows下操作word的方法的内容,希望能对各位朋友有些好处. import win32com from win32com. ...
- word python 域 操作_python实现在windows下操作word的方法
本文实例讲述了python实现在windows下操作word的方法.分享给大家供大家参考.具体实现方法如下: import win32com from win32com.client import D ...
最新文章
- 数据结构(C语言版) 第 三 章 栈与队列 知识梳理 + 作业习题详解
- 如何打造项目级硬核简历,成为一名合格的大厂工程师(必看)
- Swift2.0语言教程之Swift2.0语言中的标准函数
- 设计模式:组合模式(Composite Pattern)
- 如果有一天,我们和甲方交换身份…
- Struts2知识点总结大全
- go mockweb接口_GitHub - duxiaoman/AnyMock: 通用接口Mock平台
- 力扣——查找常用字符
- 【nodejs】waitFor is deprecated
- Ubuntu20.04 安装在U盘上
- 免费IP切换工具有用吗?
- 问卷及量表统计与SPSS实战
- 图解傅里叶变换(时域频域)
- 二进制与十进制的转换
- 网络棋牌游戏成为网游主流力量
- 程序员,怎样打造个人影响力?
- 如何安装服务器操作系统 HP服务器系统安装
- 平板电脑桌面不显示此计算机,平板电脑桌面显示不出来怎么办
- Latex公式及编号
- 苏州大学计算机专业2018年复试上机真题
热门文章
- 【工作记录】支付系统数据库梳理
- AT32F435/437 EDMA使用指南
- 鱼C论坛小甲鱼Python课后题
- 个人开发经历--我的java学习之路(学校篇)
- [RK3568 Android11] 开发之蓝牙(AP6275S)
- html 屏幕垂直居中显示,页面内容居中设置(水平居中与垂直居中)
- kali2022如何安装w3af
- html5地图编辑器,XTranslator Map Editor(地图编辑器)
- 【Vue项目搭建】修改【若依框架】的侧边栏、导航栏、面包屑样式、修改全局页面样式
- XCode7 无需开发者账号真机调试