python从html拿到数据,python - 使用BeautifulSoup和Python从HTML文件中提取数据 - 堆栈内存溢出...
我需要提取的数据可以在不同的标题下找到。
这是我到目前为止:
from BeautifulSoup import BeautifulSoup
ecj_data = open("data\ecj_1.html",'r').read()
soup = BeautifulSoup(ecj_data)
celex = soup.find('h1')
auth_lang = soup('ul', limit=14)[13].li
procedure = soup('ul', limit=20)[17].li
print "Celex number:", celex.renderContents(),
print "Authentic language:", auth_lang
print "Type of procedure:", procedure
我将所有数据存储在本地,这就是它打开文件ecj_1.html的原因。
Celex数字和Authentic语言有点好用。
celex回归
"Celex number:
61977J0059"
auth_lang返回"Authentic language:
French"
我只需要h1标签的内容(不是最后的中断)。
[另外,我需要auth_lang只返回“法语”,而不是
-tags。] 这不再是问题了。 我意识到我可以在“auth_lang”的末尾添加“.text”。
另一方面,程序返回:
Type of procedure:
Type of procedure:
Reference for a preliminary ruling
这是非常错误的,因为我只需要它返回“参考初步裁决”。
有什么办法可以实现吗?
第二次编辑:我用celex = soup('h1', limit=2)[0]替换了celex = soup.find('h1') ,并将.text添加到print celex中。
python从html拿到数据,python - 使用BeautifulSoup和Python从HTML文件中提取数据 - 堆栈内存溢出...相关推荐
- gnuradio上怎么使用python文件_使用Python从PDF文件中提取数据
前言 数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都应该了 ...
- 使用Python从PDF文件中提取数据
前言 数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都应该了 ...
- matlab从fig图文件中提取数据
matlab从fig图文件中提取数据 lh=findall(gca,'type','line'); cell_l = cellfun('length',get(lh,'xdata')); i_lh=f ...
- 在jmeter中怎么提取数据_如何使用JMeter从文件中提取数据
在性能测试方面,重用响应数据至关重要.几乎(如果不是全部!)负载测试场景假设您: 从先前的响应中提取有趣的方面,并在下一个请求中重用它们(也称为相关) 确保实际响应符合预期(又称断言) 因此,如果您是 ...
- python wireshark_用python编写脚本从wireshark导出的数据文件中提取数据
上篇文章搭建了一个UDP多播程序的基础,所谓基础,就是看着它,我可以写简单的多播程序了,可以在这个基础上面开始工作了. 会多播了,多播的内容从哪里来,播出什么内容呢?呵呵,有个设备,没有通讯协议,用w ...
- python社区发现对gml文件的分析,在Python中从GML文件中提取数据
我有一个GML(图形(不是涂鸦)建模语言)文件,我想从中创建ID到标签的映射.我不知道如何做到这一点,因为我的列表操作似乎不起作用.我尝试使用指定如何使用两个分隔符的示例,但它不适用于我的文件. 有人 ...
- python将输出结果写入csv_python - 将输出写入CSV文件[处于保留状态] - 堆栈内存溢出...
我已经建立了一个对象检测模型来检测视频帧中的一些对象.它可以正常工作,但是我无法将输出数据写入到csv文件中 我已经编写了用于对象检测的代码,并将检测的一些输出参数写入csv文件. from __fu ...
- .net 从txt中读取行数据_【VBA项目】从指定文件中读取数据并绘制图表
VBA 是一种很久远的编程语言,但并不过时.在满足以下两个条件时,借助 VBA 可以极大的提升生产率,降低出错率: 你的电脑上不允许自主安装软件: 你需要执行的工作中大部分的步骤都是固定且重复的. 项 ...
- 从.fig文件中提取数据
matlab的绘图窗口可以保存为.fig文件,方便随后的修改和再加工.那么,当需要提取图中曲线的数据时,该怎么办?(2018b版matlab) 平移.缩放,使图中所有数据处于图窗内: 工具->刷 ...
最新文章
- Mandriva学习笔记之八:安装Redis2.2.14
- mysql 评论回复表设计_【数据库】评论回复表设计
- Dubbo与SpringBoot整合流程(从实例入手,附代码下载)
- 批处理脚本, 读取文件并字符串替换
- linux环境下安装nginx步骤(不错)
- 开发人员也要懂点的测试知识
- python做数据和大数据区别_不懂Python,不懂大数据的人,和咸鱼有什么区别?
- python matplotlib简单使用
- 信阳航空学院计算机,在航校|信阳航空服务学校二期建设震撼公布!
- Mapreduce从HBASE抽取数据,生成搜索下拉服务数据,hadoop jar 调用异常问题解决
- 前端分页功能(通用)
- 在线免费服务器,免费web服务器Tomcat
- 一部手机即可轻松玩转抖音四大主流变现方式——匀思电商
- 肇事逃逸人会受到什么处罚
- APS计划排程系统和生产排产系统,需要哪些基础资料(一)
- 3D游戏从入门到精通-2 -5
- 2016/5/21 Seperate by *
- html 中精灵图使用
- 【MATLAB教程案例27】基于matlab的图像配准算法的仿真与分析——sift,surf,kaze等
- Pedometer class 计步器类
热门文章
- 【hadoop】java 获取 yarn app 信息 报错 ConfiguredRMFailoverProxyProvider - Failing over to rm2
- 95-30-060-java.util-HashSet
- 90-20-010-源码-调试-Kylin-2.6.0源码调试
- 95-190-044-源码-window-window三要素
- 【Flink】Flink TimeServer 之 timerService().registerProcessingTimeTimer
- Job for slapd.service failed because the control process exited with error code. See systemctl stat
- org.elasticsearch.cluster.block.ClusterBlockException: blocked by: [SERVICE_UNAVAILABLE/1/state
- 提高千倍效率的35个编码小技巧,老司机带你飞!
- 来谈谈MySQL事务及事务引发的问题
- Java多线程学习二十六:原子类是如何利用 CAS 保证线程安全的?