【python】从Ensembl上,根据Array HumanMethylation450甲基化探针cg编号(比如cg13788592)获取位置
文章目录
- 1. 写在前面
- 2. 手动查找和探索过程
- 从UCSC查找
- 从Ensembl查找
- 3. 代码实现
1. 写在前面
一篇专利 1 中提到多种癌种及对应的特异性CpG位点,想获取对应cg位点具体的位置或序列。专利中的一组CpG markers如下:
需求就是:将这些cg编号作为文件输入,获取对应的序列和位置信息。
2. 手动查找和探索过程
需求实现方式可直接到第3节:代码实现中直接查看实现代码,跳过本节。
从UCSC查找
由于之前未查询过cgxxx位置,直接网搜也找不到任何有效的信息,竟然在NCBI上也没有查到。
还是向ChatGPT2提问【怎么获取cgxxx(比如:cg01423964)对应的位置信息】,给出了有效信息。之所以说有效,是至少为我提供了查询的渠道(UCSC3),甚至还给出了具体的查询方式,比如下面:(步骤真详细差点信了!但是。。。)
但是,请注意:上面的这个回答获取的不是cg编号,感兴趣的朋友也可以尝试上述步骤。获取的信息倒是有位置,但不是对应cgxxx。。。获取的这个文件就是这个地址:
http://hgdownload.soe.ucsc.edu/goldenPath/hg19/database/cpgIslandExt.txt.gz 。如下截图:
另外,上面得到的ChatGPT的回答也是我修改了10次以上提问才得到的答案,中间有些回答一些操作方式或者没有对应的选项问题等重新进行提问。一开始回答中有提供手动获取的方式(可参考):
如果只查询几个cgxxx的位置信息也可以手动获取,大概是这样的:
- 进入网址:http://genome.ucsc.edu/cgi-bin/hgSearch --> 输入cgxxx --> 点击"Search"。(注意选择参考序列版本,这里是GRCh37/hg19)
- 进入网址:http://genome.ucsc.edu/cgi-bin/hgSearch --> 输入cgxxx --> 点击"Search"。(注意选择参考序列版本,这里是GRCh37/hg19)
- 得到搜索结果:
此时页面中可获取位置信息(一个CG点),也可以点击cgxxx(比如: "Illumina 450k Methylation Array"进入UCSC浏览器)查看该位置的具体信息:
- 得到搜索结果:
上述这个查询方式,可以直接在UCSC浏览器上面搜索框输入cgxxx点击"go",也可同样查询(有的会直接跳转到对应位置,有的不会。注意涉及位置时请确认参考基因组版本)
另外,如果UCSC搜索后下面显示的信息与上面截图不一致,比如没有显示cgxxx信息或其他信息,需要修改下面的Regulation
或其他相关的按钮选项(hide
/隐藏 或show
/显示)
从Ensembl查找
在多次向ChatGPT提问后,ChatGPT建议还可以在 Ensembl4查询cgxxx对应位置。(貌似现在有问题时,问GPT比在浏览器搜的次数要多,因为ChatGPT搜寻的答案有条理且高效,虽然并不总是正确的)
Ensembl: https://grch37.ensembl.org/index.html
这个手动查找也算方便,搜索框输入cgxxx搜索即可(同样注意参考基因组版本),然后从搜索结果中查找具体的序列、位置信息。
笔者没有在Ensembl上找到类似UCSC上可下载的甲基化位置信息文件,后续找到合适的方式就不用通过代码从网页获取了,从下载的所有CpG位点库中本地查找更方便。
下面代码实现是基于上面网页的搜索结果,从网页中html解析得到对应信息。
3. 代码实现
脚本命名:get_ensembl_cg_position.py
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
date = '2023/07/14 0001'
author = 'QDZPW'usage: python get_ensembl_cg_position.py ${cglist_file} ${output_file}
"""from bs4 import BeautifulSoup
import requests
import sys# 将获取的信息分割到具体位置
def split_loc(mystr):# 1:111217527-111217576(1)# 5:42994776-42994825(-1)chrom_locs, strand = mystr.strip(')').split('(')chrom, locs = chrom_locs.split(":")start, end = locs.split('-')new_strs = '\t'.join([chrom, start, end, strand])return new_strs# 根据html文件,获取相应信息
# eg html: https://grch37.ensembl.org/Homo_sapiens/Component/Location/Genome/genome?array=HumanMethylation450;fdb=funcgen;ftype=ProbeFeature;id=cg13788592
def extract_cginfo_from_html(html):soup = BeautifulSoup(html, 'html.parser')table = soup.find('table', id='ProbeFeature_table')rows = table.find_all('tr')result = []for row in rows[1:]: # 跳过表头行cells = row.find_all('td')# cginfo_lst: found_cg_id, sequence, length, location. [found_cg_id: 网页获取的cg_id,保证与所查询的一致]# cginfo_lst = [i.text.strip() for i in cells[:4]]cginfo_lst = [i.text.strip() for i in cells[:4]] + [split_loc(cells[3].text.strip())]result.append('\t'.join(cginfo_lst))return result# 批量查询位置信息
def get_cglist_info(cg_listfile, outfile):# 读取包含cg编号的文件, 并写入结果到输出文件with open(cg_listfile, 'r') as f, open(outfile, 'w') as pf:# 输出各列:输入的cgxxx、查到的cg及对应的序列、长度、位置# pf.write("#Input_cg\tProbe_cg\tSeuqence\tLength\tGenomic_location(strand)\n")pf.write("#Input_cg\tProbe_cg\tSeuqence\tLength\tGenomic_location(strand)\tChrom\tStart\tEnd\tStrand\n")for line in f:cg_id = line.strip()# 指定URL, 注意这里对应的是GRCH37版本的参考基因组url = f"https://grch37.ensembl.org/Homo_sapiens/Component/Location/Genome/genome?array=HumanMethylation450;fdb=funcgen;ftype=ProbeFeature;id={cg_id}"# 发送HTTP请求进行查询, 获取HTML内容response = requests.get(url)html = response.text# 提取序列result_info = '\t'.join(extract_cginfo_from_html(html))pf.write(f"{cg_id}\t{result_info}\n")if __name__ == "__main__":cglist_file = sys.argv[1] # 每行一个cgxxxout_file = sys.argv[2] # 输出文件get_cglist_info(cglist_file, out_file)
使用方式:python get_ensembl_cg_position.py ${cglist_file} ${output_file}
上面代码,就是从html网页源代码中获取获取信息:
使用UCSC查找的方式,从网页源代码中也可用Ensenmbl代码类似的方式 获取cg对应的位置信息,只是少了序列信息。
UCSC在线手动查找方式第二步获取的网页后查看其 源代码,根据html格式获取对应信息即可:
DNA METHYLATION MARKERS FOR NONINVASIVE DETECTION OF CANCER AND USES THEREOF: https://www.freepatentsonline.com/y2021/0171617.html ↩︎
ChatGPT: https://chat2.jinshutuan.com ↩︎
UCSC: http://genome.ucsc.edu/index.html ↩︎
Ensembl: https://grch37.ensembl.org/index.html ↩︎
【python】从Ensembl上,根据Array HumanMethylation450甲基化探针cg编号(比如cg13788592)获取位置相关推荐
- python numpy : list VS np.array
直接上代码: """ list 是python的内置函数 array 是在numpy包中定义的在应用中array比list具有更多的属性函数,使用更灵活,但是要求内部元素 ...
- python中的list和array的不同之处
python中的list和array的不同之处 python中的list是python的内置数据类型,list中的数据类不必相同的,而array的中的类型必须全部相同.在list中的数据类型保存的是数 ...
- 【物联网(IoT)开发】使用 Arduino 和 Python在 Bluemix 上开发一个 IoT 应用程序之控制LED灯开关
上篇"[物联网(IoT)开发]Arduino 入门 Hello World(LED闪烁)"只是通过将一段程序烧录到Arduino开发板上控制LEC闪烁,没有任何连网动作,也就是说断 ...
- python中数组(numpy.array)的基本操作【转载】
为什么要用numpy Python中提供了list容器,可以当作数组使用.但列表中的元素可以是任何对象,因此列表中保存的是对象的指针,这样一来,为了保存一个简单的列表[1,2,3].就需要三个指针和三 ...
- python函数def里面嵌套def,python菜鸟求问关于嵌套函数中作用域范围应该怎么理解?,python嵌套,直接上代码def l(l...
python菜鸟求问关于嵌套函数中作用域范围应该怎么理解?,python嵌套,直接上代码def l(l 直接上代码def l(list): def d(): return list return d ...
- python解析xml提交到hdfs_完美解决python针对hdfs上传和下载的问题
当我们使用python的hdfs包进行上传和下载文件的时候,总会出现如下问题 requests.packages.urllib3.exceptions.NewConnectionError:: Fai ...
- python 多维数组(array)排序
原文:https://blog.csdn.net/daoxiaxingcai46/article/details/78391169 python 多维数组(array)排序 关于多维数组如何复合排序 ...
- word2vec python实现_教程 | 在Python和TensorFlow上构建Word2Vec词嵌入模型
原标题:教程 | 在Python和TensorFlow上构建Word2Vec词嵌入模型 选自adventuresinmachinelearning 参与:李诗萌.刘晓坤 本文详细介绍了 word2ve ...
- 脚本编程语言python语言-python算的上脚本语言吗
脚本语言泛指单用作简单編程任务如shell scripts.脚本语言是一种介乎于 HTML 和诸如 JAVA . Visual Basic . C++ 等编程语言之间的一种特殊的语言,尽管它更接近后者 ...
最新文章
- [转帖]Linux中的15个基本‘ls’命令示例
- 大熊君说说JS与设计模式之(门面模式Facade)迪米特法则的救赎篇------(监狱的故事)...
- “双十一”即来 电商如何开启安全大战?
- JAVA常见错误处理方法 和 JVM内存结构
- SignalR Self Host+MVC等多端消息推送服务(4)
- 迭代器协议、斐波那契数列
- 【华为云技术分享】干货分享丨jvm系列:dump文件深度分析
- 软件工程第三次作业(最大子段和)
- Visual Studio GUI应用程序_弹出控制台窗口/命令行窗口/dos窗口问题解决
- 嵌入式工程师有发展前途吗?
- .net reflector反编译破解软件
- html相册滑动手风琴效果实现,JS实现图片手风琴效果
- flask部署阿里云服务器,公网ip访问不了(一些问题及解答)
- 面向数据发布和分析的差分隐私保护 -- 张啸剑
- google glog使用指南
- 阿博茨科技:不仅是工具,基于用户体验的CRM再选择
- 分享一个ESP32中继
- 天梯赛(c++) 古风排版
- How cc Works 中文译文
- [java]飞书机器人签名校验GenSign方法
热门文章
- 软件加入使用时间_嘘......请悄悄收好这个超nice的小工具 Permute 3 | Mac软件天堂...
- java disposable_Android rxjava2的disposable
- 前端开发工作提炼亮点
- esting Facts
- 帕瓦新能源递交注册:拟募资15亿 研发投入占比低于5%
- 东师计算机教育综合,2021年东北师范大学学前教育专硕考研必看成功上岸前辈复习经验谈...
- 华纳云分享服务器带宽计算方法原理和其重要性
- 设计模式中的撩妹神技--上篇
- 深入理解搜索引擎——基于DPSR的个性化召回模型
- 函数可导与连续性的关系