python从html中提取文本_使用Python从HTML中提取可读文本?
我知道像html2text,BeautifulSoup等的utils,但问题是他们也提取javascript并将其添加到文本中,因此很难将它们分开.
htmlDom = BeautifulSoup(webPage)
htmlDom.findAll(text=True)
交替,
from stripogram import html2text
extract = html2text(webPage)
这两个都提取了页面上的所有javascript,这是不受欢迎的.
我只是想要提取您可以从浏览器中复制的可读文本.
解决方法:
如果您想避免使用BeautifulSoup提取脚本标记的任何内容,
nonscripttags = htmlDom.findAll(lambda t: t.name != 'script', recursive=False)
会为你做到这一点,让root的直接子节点是非脚本标签(和一个单独的htmlDom.findAll(recursive = False,text = True)将获得直接子节点的字符串).你需要递归地做这件事;例如,作为发电机:
def nonScript(tag):
return tag.name != 'script'
def getStrings(root):
for s in root.childGenerator():
if hasattr(s, 'name'): # then it's a tag
if s.name == 'script': # skip it!
continue
for x in getStrings(s): yield x
else: # it's a string!
yield s
我正在使用childGenerator(代替findAll),这样我就可以让所有的孩子按顺序完成自己的过滤.
标签:python,html,text-extraction
python从html中提取文本_使用Python从HTML中提取可读文本?相关推荐
- python离线语音转文本_使用Python将语音转换为文本的方法
使用Python将语音转换为文本的方法,语音,转换为,文本,您的,麦克风 使用Python将语音转换为文本的方法 易采站长站,站长之家为您整理了使用Python将语音转换为文本的方法的相关内容. 语音 ...
- python 替换array中的值_利用Python提取视频中的字幕(文字识别)
我的CSDN博客id:qq_39783601,昵称是糖潮丽子~辣丽 从今天开始我会陆续将数据分析师相关的知识点分享在这里,包括Python.机器学习.数据库等等. 今天来分享一个Python小项目! ...
- python从视频中提取音频信号_三行Python代码提取视频中的音频
作者:小舟逝江海 http://suo.im/5yOtbx 写在开头 身处数据爆炸增长的时代,各种各样的数据都飞速增长,视频数据也不例外.我们可以使用 python 来提取视频中的音频,而这仅仅需要安 ...
- python搜索pdf内容所在页码_利用Python在pdf文档中寻找某些词出现的页码
要研究pdf文件的页码,首先要考虑这个文件的种类.pdf可能是一本书的电子版,可能是一份简历.可能是由Word.PPT或其他文档导出的--如果不是一本书,通常页面内容里是没有页码的:如果是一本书,虽然 ...
- python将音频转换成文字_用Python将音频内容转换为文本格式,方言可以吗?
当对一个或多个人的谈话进行记录时,采用一种高度准确和自动化的方式将口语提取为文本非常有用.转换成文字后,便可以将其用于进一步分析或用作其他功能. 在本教程中,我们将使用称为AssemblyAI(htt ...
- python交互式环境是什么意思_如何在交互式环境中执行 Python 程序
如何在交互式环境中执行 Python 程序 相信接触过 Python 的小伙伴们都知道运行 Python 脚本程序的方式有多种, 目前主要的方式有: 交互式环境运行命令行窗口运行开发工具上运行等, 其 ...
- beautifulsoup爬取网页中的表格_用 Python 爬取网页
来自公众号:优达学城Udacity 作者:Kerry Parker 编译:欧剃 作为数据科学家的第一个任务,就是做网页爬取.那时候,我对使用代码从网站上获取数据这项技术完全一无所知,它偏偏又是最有逻辑 ...
- python 直方图每个bin中的值_使用python中的matplotlib进行绘图分析数据
matplotlib 是python最著名的绘图库,它提供了一整套和matlab相似的命令API,十分适合交互式地进行制图.而且也可以方便地将它作为绘图控件,嵌入GUI应用程序中. 它的文档相当完备, ...
- 3文件提取器_奇淫巧技 | 快速批量提取 PPT 中所有图片素材方法
办公少不了会用到 PPT 幻灯片,今天有小伙伴问雷锋哥如何把所有 PPT 中的图片素材快速提取保存出来,人工一个一个保存,效率太低了.一开始想找看有没有提取的工具,后来发现一个小技巧很轻松就能批量提取 ...
最新文章
- SpringCloud Alibaba微服务实战(五) - Sentinel实现限流熔断
- Linux用命令修改dpi,Ubuntu17.10通过dpi更改系统字体大小比例的方法
- 多重背包单调队列优化思路_多重背包之单调队列优化理论性总结
- 小程序获取input 的value_[小发现] 现在可以获取任意小程序的小程序码了!
- Effective C# 原则48:了解更多的工具和资源(译)
- scala List
- 比特币的服务器作用,比特币白皮书解读-时间戳服务器
- 图像处理中的空间域处理方法
- python游戏设计需求分析_「Python小游戏」Bomb Catching--代码分析
- sohutv cachecloud启动
- java微信公众号授权登陆
- 什么是「重置SMC、NVRAM、PRAM」?看完这篇文章你就懂了!
- html去除背景颜色怎么设置,word文档背景颜色怎么去掉,文档背景颜色怎么去掉
- 当人工智能敲响了门 我们将迎来怎样的世界?/智库2861
- 计算机卸载或更改程序软件消失,win10系统控制面板“卸载或更改程序”窗口不显示已安装软件的还原方案...
- Python小白逆袭大神-结营心得-alading
- Office2007中简繁体转换功能按钮消失解决
- C++语言学习(十四)——C++类成员函数调用分析
- 宝塔实测-搭建LightPicture开源图床系统
- 外包公司值不值得去?
热门文章
- mysql主从之slave-skip-errors和sql_slave_skip_counter
- app流量相对专项测试(待续)
- How to make .dmg install for Mac
- 运用Mono.Cecil 反射读取.NET程序集元数据
- 《Javascript入门学习全集》 Javascript学习第一季(7)
- 温度湿度传感器流程图_为什么温湿度传感器用一段时间就会漂移?
- html中font size默认值,HTML basefont size 属性
- android+eclipse工程,#Cocos2d+lua#android+Eclipse工程编译设置
- php 合计,表格怎么合计总数
- python开发效率怎样提高_python 提高开发效率的5个小技巧