【GO富集分析】GO注释文件爬取
GO数据库注释文件爬取
- 爬取整体思路
- 代码实现
最近在做基因富集分析发现,很多非模式植物通过 clusterprofiler
做富集分析都需要自备注释文件,这时我们需要GO的注释文件,需要自己整理,这里通过python来爬取 GO数据库 来制作注释所需的文件。
爬取整体思路
通过观察GO的网址,我们不难发现,整个网页的网址格式是固定的,如http://amigo.geneontology.org/amigo/term/GO:0000004,网址前面都是,http://amigo.geneontology.org/amigo/term/,变的是后面的GO:0000004。
所以我们只需要用python循环来构建url即可爬取。
在整个网页,我们只需要前面的信息,通过翻阅网页源代码,我们可以发现,这些信息都在元素
dl
的内部。
代码实现
- 构造GO编号生成函数
def Number(num):if num<10:return "000000"+str(num)elif num>=10 and num<100:return "00000"+str(num)elif num>=100 and num<1000:return "0000"+str(num)elif num>=1000 and num<10000:return "000"+str(num)elif num>=10000 and num<100000:return "00"+str(num)elif num>=100000 and num<1000000:return "0"+str(num)elif num>=1000000 and num<10000000:return str(num)
- 通过循环构造url
for i in range(1,9999999):num = Number(i)url = 'http://amigo.geneontology.org/amigo/term/GO:'+numhtml_page = requests.get(url)print(url)
- 提取GO的信息,核心代码在这里i
soup = BeautifulSoup(html_page.text,'html.parser')
class_table = soup.findAll('dl')
- 安心等待跑完
【GO富集分析】GO注释文件爬取相关推荐
- python爬虫今日头条_python爬虫—分析Ajax请求对json文件爬取今日头条街拍美图
python爬虫-分析Ajax请求对json文件爬取今日头条街拍美图 前言 本次抓取目标是今日头条的街拍美图,爬取完成之后,将每组图片下载到本地并保存到不同文件夹下.下面通过抓取今日头条街拍美图讲解一 ...
- python爬取b站弹幕分析_B站弹幕爬取原理解析(python)
感谢 原理 概念 cid : 爬取弹幕需要的id号,可以由BV号通过API接口获得 步骤BV转cid 浏览器输入:https://api.bilibili.com/x/player/pagelist? ...
- python 12306查询不到车次_Python3.x 抓取12306车次信息,表格详情显示,让你学会思路,分析网站特点,爬取数据。12306车票查看器!...
我的例子都比较适合新手,那种老司机请绕道,谢谢! ps 前言 最近学习Python,所以呢?跟大家一样,都是看看官网,看看教程,然后就准备搞一个小东西来试试,那么我使用的例子是实验楼中的12306火车 ...
- python商品评论分析_用python3爬取天猫商品评论并分析(1)
在上一篇文章我们已经完成数据的采集,并将数据存储在mysql,现在我们来继续后面的数据分析工作,先放出项目流程: 0.主要流程 0.数据采集 0. 目标网址获取 1. 爬虫框架选用 注:了解这一步请登 ...
- 爬虫小实战(selenium) 数据小分析(pywebio、pyecharts)python分析写在网页 爬取2021年世界500强企业
爬取数据 通过selenium爬取2021年世界500强企业数据 import time import requests import csv from selenium import webdri ...
- python分析b站_Python爬取并分析B站最热排行榜,我发现了这些秘密
现在大家的生活中,已经越来越离不开B站了,2020年的第一季度,B站月活跃用户达到了1.72亿,日活跃用户也已经突破了5000万个用户.源源不断的流量让B站的up主们也是粉丝数目不断暴涨,百万粉丝的u ...
- python猫眼电影分析_用Python 爬取猫眼电影数据分析《无名之辈》
前言 作者: 罗昭成 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 http://note.youdao.com/noteshare?id=3054cce4add8a909e7 ...
- python爬虫分析——广州租房信息爬取并分析
一.在某网站上爬取相关数据 爬取到的数据情况如下: 二.数据的读取和预处理(爬取下来的数据没有缺失值和异常值) import pandas as pd import numpy as np impor ...
- 分析Ajax请求并爬取下载今日头条街拍美图
算是跟着来的第二个程序,写的时候也意识到很多问题,可能有一两个地方不了解,就回去翻阅相关资料,慢慢的对最开始的程序也做了一些修正,大体上已经熟悉了一整套爬取流程. 先分析各个部分,最后将总体代码贴上去 ...
最新文章
- 计算机应用基础 a)卷,《计算机应用基础》(A卷)44648
- Python中必备知识点:对字符编码的基本操作
- ubuntu linux安装控制面板,在Ubuntu 20.04上安装Ajenti控制面板的方法
- TP框架中的A方法和R方法
- 第一单元总结(汇编初探)
- 恒生电子笔试题数据库及算法整理记录
- 靶场练习之hackinglab(鹰眼)-基础题
- alt复制选区就会卡 ps_运行PS卡死了,学会这些Photoshop设置让PS摆脱卡顿
- W25Q128芯片的SPI驱动设计
- 考研二阶矩阵合同的计算
- kali linux 账号管理
- 从数字企业转型来看,数据分析能带来什么
- 文字内容超出两行时显示省略号
- 坚持是一种孤独,开发就是这么坑!
- double型数据与float型数据在内存中的存储
- 机械键盘连击问题的软件解决方案
- python后缀名是什么意思_python文件的后缀名是什么
- 凡解释一字即是做一部文化史
- 指针网络(Pointer network)--学习笔记
- 深度学习引发的思考和三巨头时代