python解析omim网页内容

利用zip()函数把四个列表一对一的组合成一个元组。

zip() 函数用于将可迭代的对象作为参数，将对象中对应的元素打包成一个个元组，然后返回由这些元组组成的列表。

利用map()函数对每一个元素进行函数操作，用匿名函数提取text和去掉\n

map()是内置的高阶函数，它接收一个函数 f 和一个 list，并通过把函数 f 依次作用在 list 的每个元素上，得到一个新的 list 并返回。

#python2 和python3 有差别，python3里面，map()，zip（）的返回值已经不再是list,而是iterators, 所以想要使用，只用将iterator 转换成list 即可，比如 list(map())

a = [1,2,3]
b = [4,5,6]
c = [4,5,6,7,8]
zipped = zip(a,b)     # 打包为元组的列表  也可以zip(a,b,c)
[(1, 4), (2, 5), (3, 6)]
zip(a,c)              # 元素个数与最短的列表一致
[(1, 4), (2, 5), (3, 6)]
zip(*zipped)          # 与 zip 相反，*zipped 可理解为解压，返回二维矩阵式
[(1, 2, 3), (4, 5, 6)]

OMIM robots.txt 设置了爬虫策略，只允许微软必应 bingbot 和谷歌 googlebot 爬虫获取指定路径内容。所以要进行爬取，需要进行设置，此处不讲，我们只对获得的网页解析

#!/usr/bin/env python
#-*- encoding:utf-8-*-
import sys
reload(sys)
sys.setdefaultencoding('utf8') from bs4 import BeautifulSoupoutput = open('./code/omim.txt','a')
html = open('C:/Users/xxxx/Desktop/code/omim.txt','r')
soup = BeautifulSoup(html,'lxml')
all = soup.select('.mim-text-font')
id = soup.select('#allelicVariantsFold')for i in id :number = i.select('.mim-font')ty = i.select('.lookup')rs = i.select('.btn-group')dec = i.select('p')print len(dec)zz= zip (number,ty,rs,dec)for z in zz:out= map(lambda x: x.text.strip('\n'),z)result = '\t'.join(out[i] for i in range(len(out)))output.write(result+'\n')output.flush()
output.close()

python解析omim网页内容相关推荐

python 下载网页文件_『如何用python把网页上的文本内容保存下来』python爬取网页内容教程...
python爬虫:如何爬网页数据并将其放在文本用requests库 r=r.requests.get(url) r.concent 保存到文件里就行了如何用python把网页上的文本内容保存下来 ...
python--爬虫--获取和解析存储网页内容--以薄荷网为例
如需转载请注明出处:python–爬虫–获取和解析存储网页内容–以薄荷网为例我们在之前的文章中已经学习了如何进行数据抓包和截取以及分析访问网页. 例如: 抓取app数据教程–fiddler抓包数 ...
python解析response_python:解析requests返回的response(json格式)说明
我就废话不多说了,大家还是直接看代码吧! import requests, json r = requests.get("http://192.168.207.160:9000/api/qu ...
python解析json_python解析json文件
概念序列化(Serialization):将对象的状态信息转换为可以存储或可以通过网络传输的过程,传输的格式可以是JSON.XML等.反序列化就是从存储区域(JSON,XML)读取反序列化对象的状态 ...
python 解析xml
在工作中很多时候都要用到xml,使用这个时候难免会设计到解析他,然后就研究了一下python解析xml问题,看了很多东西,python有很多解析xml的包,但是也折腾我好一段时间,最后选择了这个方法. ...
python 读取文件读出来是什么格式-深入学习python解析并读取PDF文件内容的方法...
这篇文章主要学习了python解析并读取PDF文件内容的方法,包括对学习库的应用,python2.7和python3.6中python解析PDF文件内容库的更新,包括对pdfminer库的详细解释和应 ...
python中读取文件内容-深入学习python解析并读取PDF文件内容的方法
这篇文章主要学习了python解析并读取PDF文件内容的方法,包括对学习库的应用,python2.7和python3.6中python解析PDF文件内容库的更新,包括对pdfminer库的详细解释和应 ...
python 命令-python解析命令行参数的三种方法详解
这篇文章主要介绍了python解析命令行参数的三种方法详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 python解析命令行参数主要有三种方法: ...
【Android 逆向】使用 Python 解析 ELF 文件 ( Capstone 反汇编 ELF 文件中的机器码数据 | 完整代码示例 ) ★★★
文章目录一.完整代码示例二.执行结果三.博客资源一.完整代码示例使用 Python 解析 ELF 文件完整代码示例 : # coding=utf-8 # 解析 elf 文件需要导入的依赖库 ...

python解析omim网页内容

python解析omim网页内容相关推荐

最新文章

热门文章