我知道像html2text,BeautifulSoup等的utils,但问题是他们也提取javascript并将其添加到文本中,因此很难将它们分开.

htmlDom = BeautifulSoup(webPage)

htmlDom.findAll(text=True)

交替,

from stripogram import html2text

extract = html2text(webPage)

这两个都提取了页面上的所有javascript,这是不受欢迎的.

我只是想要提取您可以从浏览器中复制的可读文本.

解决方法:

如果您想避免使用BeautifulSoup提取脚本标记的任何内容,

nonscripttags = htmlDom.findAll(lambda t: t.name != 'script', recursive=False)

会为你做到这一点,让root的直接子节点是非脚本标签(和一个单独的htmlDom.findAll(recursive = False,text = True)将获得直接子节点的字符串).你需要递归地做这件事;例如,作为发电机:

def nonScript(tag):

return tag.name != 'script'

def getStrings(root):

for s in root.childGenerator():

if hasattr(s, 'name'): # then it's a tag

if s.name == 'script': # skip it!

continue

for x in getStrings(s): yield x

else: # it's a string!

yield s

我正在使用childGenerator(代替findAll),这样我就可以让所有的孩子按顺序完成自己的过滤.

标签:python,html,text-extraction

python从html中提取文本_使用Python从HTML中提取可读文本?相关推荐

  1. python离线语音转文本_使用Python将语音转换为文本的方法

    使用Python将语音转换为文本的方法,语音,转换为,文本,您的,麦克风 使用Python将语音转换为文本的方法 易采站长站,站长之家为您整理了使用Python将语音转换为文本的方法的相关内容. 语音 ...

  2. python 替换array中的值_利用Python提取视频中的字幕(文字识别)

    我的CSDN博客id:qq_39783601,昵称是糖潮丽子~辣丽 从今天开始我会陆续将数据分析师相关的知识点分享在这里,包括Python.机器学习.数据库等等. 今天来分享一个Python小项目! ...

  3. python从视频中提取音频信号_三行Python代码提取视频中的音频

    作者:小舟逝江海 http://suo.im/5yOtbx 写在开头 身处数据爆炸增长的时代,各种各样的数据都飞速增长,视频数据也不例外.我们可以使用 python 来提取视频中的音频,而这仅仅需要安 ...

  4. python搜索pdf内容所在页码_利用Python在pdf文档中寻找某些词出现的页码

    要研究pdf文件的页码,首先要考虑这个文件的种类.pdf可能是一本书的电子版,可能是一份简历.可能是由Word.PPT或其他文档导出的--如果不是一本书,通常页面内容里是没有页码的:如果是一本书,虽然 ...

  5. python将音频转换成文字_用Python将音频内容转换为文本格式,方言可以吗?

    当对一个或多个人的谈话进行记录时,采用一种高度准确和自动化的方式将口语提取为文本非常有用.转换成文字后,便可以将其用于进一步分析或用作其他功能. 在本教程中,我们将使用称为AssemblyAI(htt ...

  6. python交互式环境是什么意思_如何在交互式环境中执行 Python 程序

    如何在交互式环境中执行 Python 程序 相信接触过 Python 的小伙伴们都知道运行 Python 脚本程序的方式有多种, 目前主要的方式有: 交互式环境运行命令行窗口运行开发工具上运行等, 其 ...

  7. beautifulsoup爬取网页中的表格_用 Python 爬取网页

    来自公众号:优达学城Udacity 作者:Kerry Parker 编译:欧剃 作为数据科学家的第一个任务,就是做网页爬取.那时候,我对使用代码从网站上获取数据这项技术完全一无所知,它偏偏又是最有逻辑 ...

  8. python 直方图每个bin中的值_使用python中的matplotlib进行绘图分析数据

    matplotlib 是python最著名的绘图库,它提供了一整套和matlab相似的命令API,十分适合交互式地进行制图.而且也可以方便地将它作为绘图控件,嵌入GUI应用程序中. 它的文档相当完备, ...

  9. 3文件提取器_奇淫巧技 | 快速批量提取 PPT 中所有图片素材方法

    办公少不了会用到 PPT 幻灯片,今天有小伙伴问雷锋哥如何把所有 PPT 中的图片素材快速提取保存出来,人工一个一个保存,效率太低了.一开始想找看有没有提取的工具,后来发现一个小技巧很轻松就能批量提取 ...

最新文章

  1. SpringCloud Alibaba微服务实战(五) - Sentinel实现限流熔断
  2. Linux用命令修改dpi,Ubuntu17.10通过dpi更改系统字体大小比例的方法
  3. 多重背包单调队列优化思路_多重背包之单调队列优化理论性总结
  4. 小程序获取input 的value_[小发现] 现在可以获取任意小程序的小程序码了!
  5. Effective C# 原则48:了解更多的工具和资源(译)
  6. scala List
  7. 比特币的服务器作用,比特币白皮书解读-时间戳服务器
  8. 图像处理中的空间域处理方法
  9. python游戏设计需求分析_「Python小游戏」Bomb Catching--代码分析
  10. sohutv cachecloud启动
  11. java微信公众号授权登陆
  12. 什么是「重置SMC、NVRAM、PRAM」?看完这篇文章你就懂了!
  13. html去除背景颜色怎么设置,word文档背景颜色怎么去掉,文档背景颜色怎么去掉
  14. 当人工智能敲响了门 我们将迎来怎样的世界?/智库2861
  15. 计算机卸载或更改程序软件消失,win10系统控制面板“卸载或更改程序”窗口不显示已安装软件的还原方案...
  16. Python小白逆袭大神-结营心得-alading
  17. Office2007中简繁体转换功能按钮消失解决
  18. C++语言学习(十四)——C++类成员函数调用分析
  19. 宝塔实测-搭建LightPicture开源图床系统
  20. 外包公司值不值得去?

热门文章

  1. mysql主从之slave-skip-errors和sql_slave_skip_counter
  2. app流量相对专项测试(待续)
  3. How to make .dmg install for Mac
  4. 运用Mono.Cecil 反射读取.NET程序集元数据
  5. 《Javascript入门学习全集》 Javascript学习第一季(7)
  6. 温度湿度传感器流程图_为什么温湿度传感器用一段时间就会漂移?
  7. html中font size默认值,HTML basefont size 属性
  8. android+eclipse工程,#Cocos2d+lua#android+Eclipse工程编译设置
  9. php 合计,表格怎么合计总数
  10. python开发效率怎样提高_python 提高开发效率的5个小技巧