GO数据库注释文件爬取

  • 爬取整体思路
  • 代码实现

最近在做基因富集分析发现,很多非模式植物通过 clusterprofiler做富集分析都需要自备注释文件,这时我们需要GO的注释文件,需要自己整理,这里通过python来爬取 GO数据库 来制作注释所需的文件。

爬取整体思路

  • 通过观察GO的网址,我们不难发现,整个网页的网址格式是固定的,如http://amigo.geneontology.org/amigo/term/GO:0000004,网址前面都是,http://amigo.geneontology.org/amigo/term/,变的是后面的GO:0000004。
    所以我们只需要用python循环来构建url即可爬取。

  • 在整个网页,我们只需要前面的信息,通过翻阅网页源代码,我们可以发现,这些信息都在元素dl的内部。

代码实现

  1. 构造GO编号生成函数
def Number(num):if num<10:return "000000"+str(num)elif num>=10 and num<100:return "00000"+str(num)elif num>=100 and num<1000:return "0000"+str(num)elif num>=1000 and num<10000:return "000"+str(num)elif num>=10000 and num<100000:return "00"+str(num)elif num>=100000 and num<1000000:return "0"+str(num)elif num>=1000000 and num<10000000:return str(num)
  1. 通过循环构造url
for i in range(1,9999999):num = Number(i)url = 'http://amigo.geneontology.org/amigo/term/GO:'+numhtml_page = requests.get(url)print(url)
  1. 提取GO的信息,核心代码在这里i
soup = BeautifulSoup(html_page.text,'html.parser')
class_table = soup.findAll('dl')
  1. 安心等待跑完

【GO富集分析】GO注释文件爬取相关推荐

  1. python爬虫今日头条_python爬虫—分析Ajax请求对json文件爬取今日头条街拍美图

    python爬虫-分析Ajax请求对json文件爬取今日头条街拍美图 前言 本次抓取目标是今日头条的街拍美图,爬取完成之后,将每组图片下载到本地并保存到不同文件夹下.下面通过抓取今日头条街拍美图讲解一 ...

  2. python爬取b站弹幕分析_B站弹幕爬取原理解析(python)

    感谢 原理 概念 cid : 爬取弹幕需要的id号,可以由BV号通过API接口获得 步骤BV转cid 浏览器输入:https://api.bilibili.com/x/player/pagelist? ...

  3. python 12306查询不到车次_Python3.x 抓取12306车次信息,表格详情显示,让你学会思路,分析网站特点,爬取数据。12306车票查看器!...

    我的例子都比较适合新手,那种老司机请绕道,谢谢! ps 前言 最近学习Python,所以呢?跟大家一样,都是看看官网,看看教程,然后就准备搞一个小东西来试试,那么我使用的例子是实验楼中的12306火车 ...

  4. python商品评论分析_用python3爬取天猫商品评论并分析(1)

    在上一篇文章我们已经完成数据的采集,并将数据存储在mysql,现在我们来继续后面的数据分析工作,先放出项目流程: 0.主要流程 0.数据采集 0. 目标网址获取 1. 爬虫框架选用 注:了解这一步请登 ...

  5. 爬虫小实战(selenium) 数据小分析(pywebio、pyecharts)python分析写在网页 爬取2021年世界500强企业

     爬取数据 通过selenium爬取2021年世界500强企业数据 import time import requests import csv from selenium import webdri ...

  6. python分析b站_Python爬取并分析B站最热排行榜,我发现了这些秘密

    现在大家的生活中,已经越来越离不开B站了,2020年的第一季度,B站月活跃用户达到了1.72亿,日活跃用户也已经突破了5000万个用户.源源不断的流量让B站的up主们也是粉丝数目不断暴涨,百万粉丝的u ...

  7. python猫眼电影分析_用Python 爬取猫眼电影数据分析《无名之辈》

    前言 作者: 罗昭成 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 http://note.youdao.com/noteshare?id=3054cce4add8a909e7 ...

  8. python爬虫分析——广州租房信息爬取并分析

    一.在某网站上爬取相关数据 爬取到的数据情况如下: 二.数据的读取和预处理(爬取下来的数据没有缺失值和异常值) import pandas as pd import numpy as np impor ...

  9. 分析Ajax请求并爬取下载今日头条街拍美图

    算是跟着来的第二个程序,写的时候也意识到很多问题,可能有一两个地方不了解,就回去翻阅相关资料,慢慢的对最开始的程序也做了一些修正,大体上已经熟悉了一整套爬取流程. 先分析各个部分,最后将总体代码贴上去 ...

最新文章

  1. 计算机应用基础 a)卷,《计算机应用基础》(A卷)44648
  2. Python中必备知识点:对字符编码的基本操作
  3. ubuntu linux安装控制面板,在Ubuntu 20.04上安装Ajenti控制面板的方法
  4. TP框架中的A方法和R方法
  5. 第一单元总结(汇编初探)
  6. 恒生电子笔试题数据库及算法整理记录
  7. 靶场练习之hackinglab(鹰眼)-基础题
  8. alt复制选区就会卡 ps_运行PS卡死了,学会这些Photoshop设置让PS摆脱卡顿
  9. W25Q128芯片的SPI驱动设计
  10. 考研二阶矩阵合同的计算
  11. kali linux 账号管理
  12. 从数字企业转型来看,数据分析能带来什么
  13. 文字内容超出两行时显示省略号
  14. 坚持是一种孤独,开发就是这么坑!
  15. double型数据与float型数据在内存中的存储
  16. 机械键盘连击问题的软件解决方案
  17. python后缀名是什么意思_python文件的后缀名是什么
  18. 凡解释一字即是做一部文化史
  19. 指针网络(Pointer network)--学习笔记
  20. 深度学习引发的思考和三巨头时代

热门文章

  1. 华为交换机常见的ACL操作
  2. 【Bioconductor系列】利用Bioconductor包进行基因组变异位点注释
  3. vue前端实现上传文件,vue 上传文件
  4. JEPF软件快速开发平台学习心得之请假单功能的完成(一)
  5. 2021半年盘点,这些经典更新了!
  6. 测试:bug的生命周期、bug的等级、如何描述一个bug
  7. linux的nslookup命令,Linux nslookup命令
  8. Thinkpad X200 屏幕备案
  9. Day5_HTML+CSS+JS——RGB三原色
  10. 我的思维工具(三)收益半衰期