GO数据库注释文件爬取

爬取整体思路
代码实现

最近在做基因富集分析发现，很多非模式植物通过 clusterprofiler做富集分析都需要自备注释文件，这时我们需要GO的注释文件，需要自己整理，这里通过python来爬取 GO数据库来制作注释所需的文件。

爬取整体思路

通过观察GO的网址，我们不难发现，整个网页的网址格式是固定的，如http://amigo.geneontology.org/amigo/term/GO:0000004，网址前面都是，http://amigo.geneontology.org/amigo/term/，变的是后面的GO:0000004。
所以我们只需要用python循环来构建url即可爬取。
在整个网页，我们只需要前面的信息，通过翻阅网页源代码，我们可以发现，这些信息都在元素dl的内部。

代码实现

构造GO编号生成函数

def Number(num):if num<10:return "000000"+str(num)elif num>=10 and num<100:return "00000"+str(num)elif num>=100 and num<1000:return "0000"+str(num)elif num>=1000 and num<10000:return "000"+str(num)elif num>=10000 and num<100000:return "00"+str(num)elif num>=100000 and num<1000000:return "0"+str(num)elif num>=1000000 and num<10000000:return str(num)

通过循环构造url

for i in range(1,9999999):num = Number(i)url = 'http://amigo.geneontology.org/amigo/term/GO:'+numhtml_page = requests.get(url)print(url)

提取GO的信息，核心代码在这里i

soup = BeautifulSoup(html_page.text,'html.parser')
class_table = soup.findAll('dl')

安心等待跑完

【GO富集分析】GO注释文件爬取相关推荐

python爬虫今日头条_python爬虫—分析Ajax请求对json文件爬取今日头条街拍美图
python爬虫-分析Ajax请求对json文件爬取今日头条街拍美图前言本次抓取目标是今日头条的街拍美图,爬取完成之后,将每组图片下载到本地并保存到不同文件夹下.下面通过抓取今日头条街拍美图讲解一 ...
python爬取b站弹幕分析_B站弹幕爬取原理解析(python)
感谢原理概念 cid : 爬取弹幕需要的id号,可以由BV号通过API接口获得步骤BV转cid 浏览器输入:https://api.bilibili.com/x/player/pagelist? ...
python 12306查询不到车次_Python3.x 抓取12306车次信息,表格详情显示，让你学会思路，分析网站特点，爬取数据。12306车票查看器！...
我的例子都比较适合新手,那种老司机请绕道,谢谢! ps 前言最近学习Python,所以呢?跟大家一样,都是看看官网,看看教程,然后就准备搞一个小东西来试试,那么我使用的例子是实验楼中的12306火车 ...
python商品评论分析_用python3爬取天猫商品评论并分析（1）
在上一篇文章我们已经完成数据的采集,并将数据存储在mysql,现在我们来继续后面的数据分析工作,先放出项目流程: 0.主要流程 0.数据采集 0. 目标网址获取 1. 爬虫框架选用注:了解这一步请登 ...
爬虫小实战（selenium）数据小分析（pywebio、pyecharts）python分析写在网页爬取2021年世界500强企业
爬取数据通过selenium爬取2021年世界500强企业数据 import time import requests import csv from selenium import webdri ...
python分析b站_Python爬取并分析B站最热排行榜，我发现了这些秘密
现在大家的生活中,已经越来越离不开B站了,2020年的第一季度,B站月活跃用户达到了1.72亿,日活跃用户也已经突破了5000万个用户.源源不断的流量让B站的up主们也是粉丝数目不断暴涨,百万粉丝的u ...
python猫眼电影分析_用Python 爬取猫眼电影数据分析《无名之辈》
前言作者: 罗昭成 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 http://note.youdao.com/noteshare?id=3054cce4add8a909e7 ...
python爬虫分析——广州租房信息爬取并分析
一.在某网站上爬取相关数据爬取到的数据情况如下: 二.数据的读取和预处理(爬取下来的数据没有缺失值和异常值) import pandas as pd import numpy as np impor ...
分析Ajax请求并爬取下载今日头条街拍美图
算是跟着来的第二个程序,写的时候也意识到很多问题,可能有一两个地方不了解,就回去翻阅相关资料,慢慢的对最开始的程序也做了一些修正,大体上已经熟悉了一整套爬取流程. 先分析各个部分,最后将总体代码贴上去 ...

【GO富集分析】GO注释文件爬取

GO数据库注释文件爬取

爬取整体思路

代码实现

【GO富集分析】GO注释文件爬取相关推荐

最新文章

热门文章