p_tags = '''

Full name Foobar

Born July 7, 1923, foo, bar

Current age 27 years 226 days

Major teams Japan, Jakarta, bazz, foo, foobazz

Also bar

foo style hand

bar style ball

foo position bak

这是我的Python代码,用美丽的汤:

def get_info(p_tags):

"""Returns brief information."""

head_list = []

detail_list = []

# This works fine

for head in p_tags.findAll('font', 'test-proof'):

head_list.append(head.contents[0])

# Some problem with this?

for index in xrange(2, 30, 4):

detail_list.append(p_tags.contents[index])

return dict([(l, detail_list[head_list.index(l)]) for l in head_list])

我从HTML获取正确的head_list但detail_list不工作。

head_list = [u'Full name',

u'Born',

u'Current age',

u'Major teams',

u'Also',

u'foo style',

u'bar style',

u'foo position']

我想是这样的

{

'Full name': 'Foobar',

'Born': 'July 7, 1923, foo, bar',

'Current age': '78 years 226 days',

'Major teams': 'Japan, Jakarta, bazz, foo, foobazz',

'Also': 'bar',

'foo style': 'hand',

'bar style': 'ball',

'foo position': 'bak'

}

任何帮助将是明显的。提前致谢。

2009-02-18

aatifh

如何提取html里面的文件,我如何从HTML文件中提取所需的数据?相关推荐

  1. 利用python提取abaqus节点坐标的脚本_用于在Abaqus中提取结点力的Python程序

    用于在Abaqus中提取结点力的Python程序 #coding=utf-8 from abaqus import * from abaqusConstants import * from odbAc ...

  2. 怎么从pdf中提取图片?三招告诉你如何从pdf中提取图片

    众所周知,PDF的格式对于一些重要文件的保存,以及隐私文件的保护来说都是非常好用的.同时,如果要将PDF格式的文件转换成其它格式的文件也挺方便的.因此,PDF格式在日常办公中具有较高的使用率.那么我们 ...

  3. open cv roi提取_使用pytesseract open cv从扫描的pdf中提取文本

    open cv roi提取 The process of extracting information from a digital copy of invoice can be a tricky t ...

  4. 计算机中公式提取用什么函数,技巧:Excel快速从文本中提取单元格中的数字函数公式...

    有时,我们将一些文本导入Excel.这些文本包含中文,字母,数字,并且全部堆积在一个单元格中.但是,我们只需要数字.那么,如何快速从中文,字母和数字中提取数字呢?在这里,王小老师将为您分享一些实用的函 ...

  5. python中提取几列_自己录制的公开课视频中提取字幕(python+opencv+Tesseract-OCR)

    最近在mooc上看了一个公开课:职场英语,用来学习在找工作时或者工作中用到的英语交流技巧,非常不错.由于自己听力不是很好,有的字幕中的单词不认识,并且想记下来便于以后学习.所以想把公开课中的字幕都记录 ...

  6. 从bag包中提取图片和点云数据为pcd格式点云文件

    从bag包中提取图片和点云数据为pcd格式点云文件 1 开始提取bag包之前的准备工作 2 从bag包中提取图片和点云数据 首先说明一下我运行的系统环境: python2 Ubuntu18.04 RO ...

  7. cad坐标提取插件_如何快速地将CAD里的坐标提取到Excel中?最简单的方法你知道吗?...

    在工作中,我们经常拿到一张图纸,要将里面的数据快速提取出来,以方便后续的工作,就拿提取某些图形的坐标来说吧,你知道怎么快速提取到Excel里吗?不要告诉我你是一个一个复制粘贴的,那估计要弄到猴年马月! ...

  8. python语音特征提取_使用Python从视频中提取语音

    python语音特征提取 In this post, I will show you how to extract speeches from a video recording file. Afte ...

  9. 一文详解CAD与图新地球软件中提取高程点的方法图新地球

    今天小编就先来讲一下如何在CAD和图新地球软件中基于地形文件中提取高程点文件,为咱们后面制作地形模型打下一个基础. 一.CAD软件中提取高程点 1.我们先使用CAD将地形图纸打开,按照我们处理图纸的习 ...

  10. php生成ical文件,php – 动态创建.ics文件

    我为客户提供了一个可以发布活动的网站.而不是从iCal为每个事件手动创建.ics文件并上传它,而不是将其从数据库中拉出来并自动使用PHP自动创建一个.ics文件. 我可以从数据库中提取信息(没有问题) ...

最新文章

  1. 深度神经网络是否过拟合?
  2. LeetCode 746. Min Cost Climbing Stairs--动态规划--Java,C++,Python解法
  3. ultraedit正则表达式
  4. 图像分类数据库_图像分类器-使用僧侣库对房屋房间类型进行分类
  5. jax-ws和jax-rs_JAX-RS和OpenAPI对Hypermedia API的支持:任重而道远
  6. 三相电压和电流的模拟前端处理
  7. 骗子公司陆续公布中...
  8. Redis学习一Redis的介绍与安装部署
  9. python网页版本_python 网页版
  10. linux加载scsi硬盘驱动程序使用,linux scsi硬盘的安装
  11. 聚宽数据(JQData)本地化解决方案:基于MongoDB
  12. SpringBoot实现异步任务以及定时任务
  13. html5脑图_HTML5 D3.js 树形结构动画示范(可绘制脑图)
  14. [小记] 微信小程序 - 人脸识别前端(一)初体验
  15. 如何重新认知性能优化及其度量方法
  16. 怎么学习CAD?初学CAD如何入门
  17. 多级弹出菜单jQuery插件ZoneMenu
  18. python 检查图品二维码,识别图片二维码
  19. 基于ArduinoUNO的LD3320语音识别+SYN6288语音合成的智能分类垃圾桶
  20. 央企招聘:正式编制!八险三金!各项福利!中国邮政招人啦!

热门文章

  1. 按方位角标注边长lisp_附合与闭合水准测量内业计算
  2. Echarts + layer 图表放大实现方案
  3. 如何通俗易懂的解释无线通信中的那些专业术语!
  4. Android 内存优化实操,定位内存问题
  5. 班尼机器人维修方法_机器人维修示教器常见故障及解决方案
  6. 统计思维(实例11)——时间序列分析
  7. js 数组对象去重reduce
  8. 车载监控对消防有多重要?如何助力消防车辆智慧化监管?
  9. CentOS 7下安装TeamViewer
  10. python 时间等待函数