我需要提取的数据可以在不同的标题下找到。

这是我到目前为止:

from BeautifulSoup import BeautifulSoup

ecj_data = open("data\ecj_1.html",'r').read()

soup = BeautifulSoup(ecj_data)

celex = soup.find('h1')

auth_lang = soup('ul', limit=14)[13].li

procedure = soup('ul', limit=20)[17].li

print "Celex number:", celex.renderContents(),

print "Authentic language:", auth_lang

print "Type of procedure:", procedure

我将所有数据存储在本地,这就是它打开文件ecj_1.html的原因。

Celex数字和Authentic语言有点好用。

celex回归

"Celex number:

61977J0059"

auth_lang返回"Authentic language:

French"

我只需要h1标签的内容(不是最后的中断)。

[另外,我需要auth_lang只返回“法语”,而不是

-tags。] 这不再是问题了。 我意识到我可以在“auth_lang”的末尾添加“.text”。

另一方面,程序返回:

Type of procedure:

Type of procedure:

Reference for a preliminary ruling

这是非常错误的,因为我只需要它返回“参考初步裁决”。

有什么办法可以实现吗?

第二次编辑:我用celex = soup('h1', limit=2)[0]替换了celex = soup.find('h1') ,并将.text添加到print celex中。

python从html拿到数据,python - 使用BeautifulSoup和Python从HTML文件中提取数据 - 堆栈内存溢出...相关推荐

  1. gnuradio上怎么使用python文件_使用Python从PDF文件中提取数据

    前言 数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都应该了 ...

  2. 使用Python从PDF文件中提取数据

    前言 数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都应该了 ...

  3. matlab从fig图文件中提取数据

    matlab从fig图文件中提取数据 lh=findall(gca,'type','line'); cell_l = cellfun('length',get(lh,'xdata')); i_lh=f ...

  4. 在jmeter中怎么提取数据_如何使用JMeter从文件中提取数据

    在性能测试方面,重用响应数据至关重要.几乎(如果不是全部!)负载测试场景假设您: 从先前的响应中提取有趣的方面,并在下一个请求中重用它们(也称为相关) 确保实际响应符合预期(又称断言) 因此,如果您是 ...

  5. python wireshark_用python编写脚本从wireshark导出的数据文件中提取数据

    上篇文章搭建了一个UDP多播程序的基础,所谓基础,就是看着它,我可以写简单的多播程序了,可以在这个基础上面开始工作了. 会多播了,多播的内容从哪里来,播出什么内容呢?呵呵,有个设备,没有通讯协议,用w ...

  6. python社区发现对gml文件的分析,在Python中从GML文件中提取数据

    我有一个GML(图形(不是涂鸦)建模语言)文件,我想从中创建ID到标签的映射.我不知道如何做到这一点,因为我的列表操作似乎不起作用.我尝试使用指定如何使用两个分隔符的示例,但它不适用于我的文件. 有人 ...

  7. python将输出结果写入csv_python - 将输出写入CSV文件[处于保留状态] - 堆栈内存溢出...

    我已经建立了一个对象检测模型来检测视频帧中的一些对象.它可以正常工作,但是我无法将输出数据写入到csv文件中 我已经编写了用于对象检测的代码,并将检测的一些输出参数写入csv文件. from __fu ...

  8. .net 从txt中读取行数据_【VBA项目】从指定文件中读取数据并绘制图表

    VBA 是一种很久远的编程语言,但并不过时.在满足以下两个条件时,借助 VBA 可以极大的提升生产率,降低出错率: 你的电脑上不允许自主安装软件: 你需要执行的工作中大部分的步骤都是固定且重复的. 项 ...

  9. 从.fig文件中提取数据

    matlab的绘图窗口可以保存为.fig文件,方便随后的修改和再加工.那么,当需要提取图中曲线的数据时,该怎么办?(2018b版matlab) 平移.缩放,使图中所有数据处于图窗内: 工具->刷 ...

最新文章

  1. Mandriva学习笔记之八:安装Redis2.2.14
  2. mysql 评论回复表设计_【数据库】评论回复表设计
  3. Dubbo与SpringBoot整合流程(从实例入手,附代码下载)
  4. 批处理脚本, 读取文件并字符串替换
  5. linux环境下安装nginx步骤(不错)
  6. 开发人员也要懂点的测试知识
  7. python做数据和大数据区别_不懂Python,不懂大数据的人,和咸鱼有什么区别?
  8. python matplotlib简单使用
  9. 信阳航空学院计算机,在航校|信阳航空服务学校二期建设震撼公布!
  10. Mapreduce从HBASE抽取数据,生成搜索下拉服务数据,hadoop jar 调用异常问题解决
  11. 前端分页功能(通用)
  12. 在线免费服务器,免费web服务器Tomcat
  13. 一部手机即可轻松玩转抖音四大主流变现方式——匀思电商
  14. 肇事逃逸人会受到什么处罚
  15. APS计划排程系统和生产排产系统,需要哪些基础资料(一)
  16. 3D游戏从入门到精通-2 -5
  17. 2016/5/21 Seperate by *
  18. html 中精灵图使用
  19. 【MATLAB教程案例27】基于matlab的图像配准算法的仿真与分析——sift,surf,kaze等
  20. Pedometer class 计步器类

热门文章

  1. 【hadoop】java 获取 yarn app 信息 报错 ConfiguredRMFailoverProxyProvider - Failing over to rm2
  2. 95-30-060-java.util-HashSet
  3. 90-20-010-源码-调试-Kylin-2.6.0源码调试
  4. 95-190-044-源码-window-window三要素
  5. 【Flink】Flink TimeServer 之 timerService().registerProcessingTimeTimer
  6. Job for slapd.service failed because the control process exited with error code. See systemctl stat
  7. org.elasticsearch.cluster.block.ClusterBlockException: blocked by: [SERVICE_UNAVAILABLE/1/state
  8. 提高千倍效率的35个编码小技巧,老司机带你飞!
  9. 来谈谈MySQL事务及事务引发的问题
  10. Java多线程学习二十六:原子类是如何利用 CAS 保证线程安全的?