还在学习lxml.我发现有时候我无法使用item.text从树中获取项目的文本.如果我使用item.text_content()我很高兴.我不确定我明白为什么.任何提示将不胜感激

好吧,我不确定如何在不让你处理文件的情况下提供一个例子:

这里是我写的一些代码,试图弄清楚为什么我没有得到一些我期望的文本:

theTree=html.fromstring(open(notmatched[0]).read())

text=[]

text_content=[]

notText=[]

hasText=[]

for each in theTree.iter():

if each.text:

text.append(each.text)

hasText.append(each) # list of elements that has text each.text is true

text_content.append(each.text_content()) #the text for all elements

if each not in hasText:

notText.append(each)

所以在我运行之后,我看一下

>>> len(notText)

3612

>>> notText[40]

>>> notText[40].text_content()

'(I.R.S. Employer'

>>> notText[40].text

python中content什么意思_python – 解析html时为什么我需要item.text和item.text_content()其他...相关推荐

  1. python中的eof错误_python – 解析器YACC中的EOF错误

    我试图使用PLY库中为Python提供的yacc解析器来解析字符串. 解析器本身很长,但我遇到的问题是它总是给我同样的错误,无论我放什么样的字符串. 错误是这样的: yacc:输入中的解析错误. EO ...

  2. python中为什么训练数据_python训练数据时打乱训练数据与标签

    {"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],&q ...

  3. python中if __name__ == '__main__': 的解析

    2019独角兽企业重金招聘Python工程师标准>>> python中if __name__ == '__main__': 的解析 当你打开一个.py文件时,经常会在代码的最下面看到 ...

  4. python中的sep参数_Python sep参数使用方法详解

    Python sep参数使用方法详解 这篇文章主要介绍了Python sep参数使用方法详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 Pyth ...

  5. 使用Python中的tabula模块进行pdf2excel转化时出现JAVA_NOT_FOUND_ERROR问题

    使用Python中的tabula模块进行pdf2excel转化时出现JAVA_NOT_FOUND_ERROR问题 1.python中pdf2excel转化模块的选用 1.1 pdfminer 1.2 ...

  6. python中sort函数源代码_Python中sort和sorted函数代码解析

    Python中sort和sorted函数代码解析 本文研究的主要是Python中sort和sorted函数的相关内容,具体如下. 一.sort函数 sort函数是序列的内部函数 函数原型: L.sor ...

  7. python中for循环流程图_Python While循环语句实例演示及原理解析

    这篇文章主要介绍了Python While循环语句实例演示及原理解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 Python 编程中 while ...

  8. python中get函数作用_python get函数有什么作用?示例解析

    这篇文章之中我们来了解一下关于python字典之中的pythonget函数的相关知识,get函数是什么意思,他有什么作用都将会在接下来的文章之中得到解答. 描述 Python 字典(Dictionar ...

  9. enumerate在python中是什么意思_python中enumerate的用法实例解析

    python 怎么使用enumerate先出一个题目:1.有一 list= [1, 2, 3, 4, 5, 6] 请打印输出: 0, 1 1, 2 2, 3 3, 4 4, 5 5, 6 打印输出, ...

最新文章

  1. BeanShell使用json.jar包处理Json数据
  2. mysql persistent_MySQL关于InnoDB的几个错误
  3. response.sendRedirect()重新定向的乱码问题
  4. sphinx配置文件继承
  5. 深度学习核心技术精讲100篇(二十三)-深度学习系列计算广告与推荐系统有哪些区别?使用的主流模型有哪些?
  6. 用java程序将GBK字符转成UTF-8编码格式(转)
  7. java课程设计进程管理_GitHub - Shadow-Java/OS: 操作系统课程设计,关键词:进程同步与互斥、进程死锁、LRU页面替换算法、时间片轮转算法、时钟等...
  8. ansible 修改文件变量_Ansible Playbook中的变量与引用
  9. 吴恩达机器学习课程笔记章节二单变量线性回归
  10. 上传文件到服务器地址怎么配置,文件上传到服务器怎么配置
  11. 请求url处理java_【脚本写作】Java: HttpURLConnection请求处理
  12. delphi 演示数据路径
  13. void及void指针含义的深刻解析
  14. 【To Debug】牛客网--华为机试在线训练3:明明的随机数
  15. FuisonInsight Hadoop中新增用户和Hbase授权
  16. iOS开发中那些高效常用的宏
  17. Markdown文件转pdf方法
  18. 新手如何玩转拼多多?需要注意什么?
  19. c语言一行黑白相间的瓷砖,磁砖样式——第八届蓝桥杯C语言B组(国赛)第二题...
  20. Spring AOP 的工作原理

热门文章

  1. 企业微信 web 项目工业级蜕变
  2. win的反义词_初中英语常见的同义词、反义词汇总
  3. Python下载网易云音乐(云音乐飙升榜)
  4. 计算机组装如何配置更好更便宜,电脑组装越贵越好?小白DIY组装电脑的几个误区...
  5. Oracle 11g 新特性 -- Oracle Restart 说明
  6. 独立按键之长按、短按、单击、双击
  7. 2022-2028年全球与中国插座行业市场深度调研及投资预测分析
  8. js 常用数组操作的方法
  9. oracle 分区表 变大,Oracle11G新特性:分区表分区默认segment大小64k变为8M
  10. HTTP协议知识点总结