python解析omim网页内容
利用zip()函数把四个列表一对一的组合成一个元组。
zip() 函数用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的列表。
利用map()函数对每一个元素进行函数操作,用匿名函数提取text和去掉\n
map()是 内置的高阶函数,它接收一个函数 f 和一个 list,并通过把函数 f 依次作用在 list 的每个元素上,得到一个新的 list 并返回。
#python2 和python3 有差别,python3里面,map(),zip()的返回值已经不再是list,而是iterators, 所以想要使用,只用将iterator 转换成list 即可, 比如 list(map())
a = [1,2,3]
b = [4,5,6]
c = [4,5,6,7,8]
zipped = zip(a,b) # 打包为元组的列表 也可以zip(a,b,c)
[(1, 4), (2, 5), (3, 6)]
zip(a,c) # 元素个数与最短的列表一致
[(1, 4), (2, 5), (3, 6)]
zip(*zipped) # 与 zip 相反,*zipped 可理解为解压,返回二维矩阵式
[(1, 2, 3), (4, 5, 6)]
OMIM robots.txt 设置了爬虫策略,只允许 微软必应 bingbot 和谷歌 googlebot 爬虫获取指定路径内容。所以要进行爬取,需要进行设置,此处不讲,我们只对获得的网页解析
#!/usr/bin/env python
#-*- encoding:utf-8-*-
import sys
reload(sys)
sys.setdefaultencoding('utf8') from bs4 import BeautifulSoupoutput = open('./code/omim.txt','a')
html = open('C:/Users/xxxx/Desktop/code/omim.txt','r')
soup = BeautifulSoup(html,'lxml')
all = soup.select('.mim-text-font')
id = soup.select('#allelicVariantsFold')for i in id :number = i.select('.mim-font')ty = i.select('.lookup')rs = i.select('.btn-group')dec = i.select('p')print len(dec)zz= zip (number,ty,rs,dec)for z in zz:out= map(lambda x: x.text.strip('\n'),z)result = '\t'.join(out[i] for i in range(len(out)))output.write(result+'\n')output.flush()
output.close()
python解析omim网页内容相关推荐
- python 下载网页文件_『如何用python把网页上的文本内容保存下来』python爬取网页内容教程...
python爬虫:如何爬网页数据并将其放在文本 用requests库 r=r.requests.get(url) r.concent 保存到文件里就行了 如何用python把网页上的文本内容保存下来 ...
- python--爬虫--获取和解析存储网页内容--以薄荷网为例
如需转载请注明出处:python–爬虫–获取和解析存储网页内容–以薄荷网为例 我们在之前的文章中已经学习了如何进行数据抓包和截取 以及分析 访问网页. 例如: 抓取app数据教程–fiddler抓包数 ...
- python解析response_python:解析requests返回的response(json格式)说明
我就废话不多说了,大家还是直接看代码吧! import requests, json r = requests.get("http://192.168.207.160:9000/api/qu ...
- python解析json_python解析json文件
概念 序列化(Serialization):将对象的状态信息转换为可以存储或可以通过网络传输的过程,传输的格式可以是JSON.XML等.反序列化就是从存储区域(JSON,XML)读取反序列化对象的状态 ...
- python 解析xml
在工作中很多时候都要用到xml,使用这个时候难免会设计到解析他,然后就研究了一下python解析xml问题,看了很多东西,python有很多解析xml的包,但是也折腾我好一段时间,最后选择了这个方法. ...
- python 读取文件读出来是什么格式-深入学习python解析并读取PDF文件内容的方法...
这篇文章主要学习了python解析并读取PDF文件内容的方法,包括对学习库的应用,python2.7和python3.6中python解析PDF文件内容库的更新,包括对pdfminer库的详细解释和应 ...
- python中读取文件内容-深入学习python解析并读取PDF文件内容的方法
这篇文章主要学习了python解析并读取PDF文件内容的方法,包括对学习库的应用,python2.7和python3.6中python解析PDF文件内容库的更新,包括对pdfminer库的详细解释和应 ...
- python 命令-python解析命令行参数的三种方法详解
这篇文章主要介绍了python解析命令行参数的三种方法详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 python解析命令行参数主要有三种方法: ...
- 【Android 逆向】使用 Python 解析 ELF 文件 ( Capstone 反汇编 ELF 文件中的机器码数据 | 完整代码示例 ) ★★★
文章目录 一.完整代码示例 二.执行结果 三.博客资源 一.完整代码示例 使用 Python 解析 ELF 文件完整代码示例 : # coding=utf-8 # 解析 elf 文件需要导入的依赖库 ...
最新文章
- Linux(Centos)之安装Java JDK及注意事项
- android时间utc,Android获取UTC时间的方式
- 35. Search Insert Position
- SpringMVC的优点
- 23种设计模式之解释器模式
- 每日一题(C语言基础篇)1
- 手机号判断正则php2019,2019手机号码JS正则表达式验证实例代码
- 测试python安装成功_Python在Windows上安装配置测试
- 程序员的SQL金典-杨中科
- 简单的 OpenGL 纹理贴图不起作用?
- vant 做表格_vue实现简单表格组件
- 两位顶级社会工程学大师:凯文-米特尼克和 弗兰克-阿巴内尔
- leet55.跳跃游戏
- android Easypermission权限管理
- grep(模式匹配器)详解
- C++ 动态链接库快速创立和两种调用方式
- jmeter问题排查:关于察看结果树里缺少请求
- 普适计算技术的特点与发展趋势
- STC8单片机学习2
- 新库上线 | CnOpenData中国工业企业信息变更数据