利用zip()函数把四个列表一对一的组合成一个元组。

zip() 函数用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的列表。

利用map()函数对每一个元素进行函数操作,用匿名函数提取text和去掉\n

map()是 内置的高阶函数,它接收一个函数 f 和一个 list,并通过把函数 f 依次作用在 list 的每个元素上,得到一个新的 list 并返回。

#python2 和python3 有差别,python3里面,map(),zip()的返回值已经不再是list,而是iterators, 所以想要使用,只用将iterator 转换成list 即可, 比如 list(map())

a = [1,2,3]
b = [4,5,6]
c = [4,5,6,7,8]
zipped = zip(a,b)     # 打包为元组的列表  也可以zip(a,b,c)
[(1, 4), (2, 5), (3, 6)]
zip(a,c)              # 元素个数与最短的列表一致
[(1, 4), (2, 5), (3, 6)]
zip(*zipped)          # 与 zip 相反,*zipped 可理解为解压,返回二维矩阵式
[(1, 2, 3), (4, 5, 6)]

OMIM robots.txt 设置了爬虫策略,只允许 微软必应 bingbot 和谷歌 googlebot 爬虫获取指定路径内容。所以要进行爬取,需要进行设置,此处不讲,我们只对获得的网页解析

#!/usr/bin/env python
#-*- encoding:utf-8-*-
import sys
reload(sys)
sys.setdefaultencoding('utf8') from bs4 import BeautifulSoupoutput = open('./code/omim.txt','a')
html = open('C:/Users/xxxx/Desktop/code/omim.txt','r')
soup = BeautifulSoup(html,'lxml')
all = soup.select('.mim-text-font')
id = soup.select('#allelicVariantsFold')for i in id :number = i.select('.mim-font')ty = i.select('.lookup')rs = i.select('.btn-group')dec = i.select('p')print len(dec)zz= zip (number,ty,rs,dec)for z in zz:out= map(lambda x: x.text.strip('\n'),z)result = '\t'.join(out[i] for i in range(len(out)))output.write(result+'\n')output.flush()
output.close()

python解析omim网页内容相关推荐

  1. python 下载网页文件_『如何用python把网页上的文本内容保存下来』python爬取网页内容教程...

    python爬虫:如何爬网页数据并将其放在文本 用requests库 r=r.requests.get(url) r.concent 保存到文件里就行了 如何用python把网页上的文本内容保存下来 ...

  2. python--爬虫--获取和解析存储网页内容--以薄荷网为例

    如需转载请注明出处:python–爬虫–获取和解析存储网页内容–以薄荷网为例 我们在之前的文章中已经学习了如何进行数据抓包和截取 以及分析 访问网页. 例如: 抓取app数据教程–fiddler抓包数 ...

  3. python解析response_python:解析requests返回的response(json格式)说明

    我就废话不多说了,大家还是直接看代码吧! import requests, json r = requests.get("http://192.168.207.160:9000/api/qu ...

  4. python解析json_python解析json文件

    概念 序列化(Serialization):将对象的状态信息转换为可以存储或可以通过网络传输的过程,传输的格式可以是JSON.XML等.反序列化就是从存储区域(JSON,XML)读取反序列化对象的状态 ...

  5. python 解析xml

    在工作中很多时候都要用到xml,使用这个时候难免会设计到解析他,然后就研究了一下python解析xml问题,看了很多东西,python有很多解析xml的包,但是也折腾我好一段时间,最后选择了这个方法. ...

  6. python 读取文件读出来是什么格式-深入学习python解析并读取PDF文件内容的方法...

    这篇文章主要学习了python解析并读取PDF文件内容的方法,包括对学习库的应用,python2.7和python3.6中python解析PDF文件内容库的更新,包括对pdfminer库的详细解释和应 ...

  7. python中读取文件内容-深入学习python解析并读取PDF文件内容的方法

    这篇文章主要学习了python解析并读取PDF文件内容的方法,包括对学习库的应用,python2.7和python3.6中python解析PDF文件内容库的更新,包括对pdfminer库的详细解释和应 ...

  8. python 命令-python解析命令行参数的三种方法详解

    这篇文章主要介绍了python解析命令行参数的三种方法详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 python解析命令行参数主要有三种方法: ...

  9. 【Android 逆向】使用 Python 解析 ELF 文件 ( Capstone 反汇编 ELF 文件中的机器码数据 | 完整代码示例 ) ★★★

    文章目录 一.完整代码示例 二.执行结果 三.博客资源 一.完整代码示例 使用 Python 解析 ELF 文件完整代码示例 : # coding=utf-8 # 解析 elf 文件需要导入的依赖库 ...

最新文章

  1. Linux(Centos)之安装Java JDK及注意事项
  2. android时间utc,Android获取UTC时间的方式
  3. 35. Search Insert Position
  4. SpringMVC的优点
  5. 23种设计模式之解释器模式
  6. 每日一题(C语言基础篇)1
  7. 手机号判断正则php2019,2019手机号码JS正则表达式验证实例代码
  8. 测试python安装成功_Python在Windows上安装配置测试
  9. 程序员的SQL金典-杨中科
  10. 简单的 OpenGL 纹理贴图不起作用?
  11. vant 做表格_vue实现简单表格组件
  12. 两位顶级社会工程学大师:凯文-米特尼克和 弗兰克-阿巴内尔
  13. leet55.跳跃游戏
  14. android Easypermission权限管理
  15. grep(模式匹配器)详解
  16. C++ 动态链接库快速创立和两种调用方式
  17. jmeter问题排查:关于察看结果树里缺少请求
  18. 普适计算技术的特点与发展趋势
  19. STC8单片机学习2
  20. 新库上线 | CnOpenData中国工业企业信息变更数据

热门文章

  1. 【论文阅读】Automatic Updating of Land Cover Maps in Rapidly Urbanizing Region
  2. JD商城经典爬楼梯布局,看到就是赚到
  3. 2021全新Java多线程并发入门到精通,一篇就能学会
  4. 浅谈XMLHttpRequest
  5. Java实现后端生成excel表格模板--下拉框实现
  6. XFTP软件连接虚拟机
  7. 泛函分析的几个空间和平行四边形法则
  8. DDR突然初始化失败 Debug记录
  9. 最强大脑魏郭撕X,理科男与文科生的…
  10. 网络兼职圈套你知道多少?拓商提醒您谨防被骗