python文本筛选html,从html页面的列表元素中筛选数据
是否需要使用字典取决于您自己,但是如果您选择使用字典,则最好为每个列表项单独使用一个字典,而不是为所有条目使用一个字典。在
我建议你把所有的条目都存储在一个列表中。下面的代码显示了两个建议,要么使用tuple来存储每个项目的不同信息位,要么使用字典。在
如果您只想显示信息或将其写入文件,tuple解决方案会更快。在# Two possible ways of storing your data: a list of tuples, or a list of dictionaries
entries_tuples = []
entries_dictionary = []
soup = BeautifulSoup(text)
div = soup.find('div', {'id': 'object-a'})
ul = div.find('ul', {'id': 'object-a-1'})
for li in ul.findAll('li'):
title = li.find('a', {'class': 'title'})
url_href = title.get('href')
person = title.text
url_word = li.find('p', {'class': 'url word'}).text
emails = re.findall(r'\s+(\S+@\S+)(?:\s+|\Z)', li.findAll('p')[1].text, re.M) # allow for multiple emails
entries_tuples.append((url_href, person, url_word, emails))
entries_dictionary.append({'url_href' : url_href, 'person' : person, 'url_word' : url_word, 'emails' : emails})
for url_href, person, url_word, emails in entries_tuples:
print '{:25} {:10} {:25} {}'.format(url_href, person, url_word, emails)
for entry in entries_dictionary:
print '{:25} {:10} {:25} {}'.format(entry['url_href'], entry['person'], entry['url_word'], entry['emails'])
对于示例HTML,将显示以下内容:
^{pr2}$
注意,从文本中提取电子邮件地址本身就是一个完整的问题。上面的解决方案可以很容易地匹配那些实际上不是格式良好的电子邮件地址的条目,但在这里就足够了。在
python文本筛选html,从html页面的列表元素中筛选数据相关推荐
- Python办公自动化实践1:从多个excel表中提取数据并汇总到一个工作表页中,表格,抽取,sheet
Python办公自动化实践1:从多个excel表中提取数据并汇总到一个工作表页中,表格,抽取,sheet 发表时间:2020-04-26 问题:从当前目录或子目录中查询符合条件的excel表格,并从这 ...
- python操作网页界面_python3 操作页面上各种元素的方法
(1) 控制浏览器 ①控制浏览器窗口大小set_window_size(宽,高) 打开浏览器全屏maximize_window() ②控制浏览器后退back().前进forward() ③ ...
- Python坑:bool是int的子类、列表循环中的变量泄露、lambda在闭包中会保存局部变量、重用全局变量
bool是int的子类 a = True print isinstance(a, int) print True == 1 print False == 0 运行结果: True True True ...
- python数字排序_python按照列表元素中的数字大小排序
[Human Sorting] 常见的python排序只需要一个sort或者sorted函数即可.但是默认采用的是字典序,这会带来一个问题,如果列表中的元素是字符串+数字组合,往往无法得到我们想要的排 ...
- python数字大小排列_python按照列表元素中的数字大小排序
[Human Sorting] 常见的python排序只需要一个sort或者sorted函数即可.但是默认采用的是字典序,这会带来一个问题,如果列表中的元素是字符串+数字组合,往往无法得到我们想要的排 ...
- 把一个数组(列表)中的数据逆向反转,python
一个简单的功能,把一个数组的全部数据反向(逆向)反转,比如,现在数组中的数据顺序为: [1,2,3,4,5],要求把数组中数据全部反转为[5,4,3,2,1] python实现 : def app() ...
- Python实践4:基于xlwings按字段对Excel中的数据做筛选和分类
数据: Python实践代码测试数据-各区销售情况表 代码: import xlwings as xw try:app = xw.App(visible=False, add_book=False)a ...
- python文本框焦点设置_如何在tkinter输入框中设置焦点
已经花了一段时间寻找答案.我对Python不熟悉,但对一般的编码还不熟悉.发现各种版本相当具有挑战性!在 总之,我非常注重Gui,并设法让tkinter使用python3.5.1 只是玩基本的,有下面 ...
- python读取txt文件存储数组_python : 将txt文件中的数据读为numpy数组或列表
很多时候,我们将数据存在txt或者csv格式的文件里,最后再用python读取出来,存到数组或者列表里,再做相应计算.本文首先介绍写入txt的方法,再根据不同的需求(存为数组还是list),介绍从tx ...
- python实现excel搜索_从几百个Excel中查找数据,用Python一分钟搞定
今天给大家分享一个真实的办公自动化需求,日常办公肯定都会遇到的,大家一定要仔细阅读需求说明,在理解需求之后即可体会Python的强大! 一.需求说明 首先我们来看下今天的需求,有一份档案记录总表的Ex ...
最新文章
- 教你如何提高双目立体视觉系统的精度
- 现在无法停止通用卷设备_软化和柔顺有什么区别吗?头发粗硬适合拉直还是烫卷?...
- css3动画之——动态的省略号
- 关于C#中委托的一点理解
- 文本框宽度自动适应文本宽度
- Map接口的实现类HashMap的操作
- 在xcode6.1和ios10.10.1环境下实现app发布
- yii2.0 读取user表新增字段问题
- JAVA打印功能总结文档
- 总结使用SnakeYAML解析与序列化YAML相关
- 大学生个人网页模板 简单网页制作作业成品 极简风格个人介绍HTML网页设计(舞蹈培训网页)
- valgrind安装及使用
- 网络故障的技术一些东东
- Linux vi vim 宏 批量操作 重复操作 宏录制
- jQuery 中的 39 个技巧
- JQuery data方法的使用-遁地龙卷风
- Python高效替代Excel了,你会吗?
- 微信公众号会替代手机APP吗?
- Python3中关于下划线变量和命名的总结
- 苹果手表与服务器连接中断,Apple Watch与iPhone连接不上怎么办【解决方案】
热门文章
- 2018湘南学院计算机分数线,湘南学院录取分数线2021是多少分(附历年录取分数线)...
- 温故知新----css盒模型
- microsoft excel 正在等待其他某个应用程序_(Mac常见问题)都有哪些应用程序可以在M1 Mac上运行?...
- hot编码 字符one_使用字符级RNN进行名字分类
- 栈解决中缀表达式转后缀表达式_第3章栈和队列,中缀表达式转换成后缀表达式...
- 【浙江省第16届省赛J:】Welcome Party(并查集+优先队列bfs遍历)
- java string 匹配次数_Java实现统计某字符串在另一个字符串中出现的次数
- 斯皮尔曼等级相关(Spearman’s correlation coefficient for ranked data)
- keras搭建wgan-gp和wgan-div,可生成图像
- matlab 结构体遍历,matlab 遍历结构体struc的成员