生物信息学：根据PDB名称、爬虫PDB数据库的信息、保存到Excel里

毕设要统计蛋白质的信息，就写了个小脚本。
把PDB里的编号写到pdbselected里、我本来想做成根据蛋白质直接搜索到编号的，发现居然有反爬…只能先写成这个了…
具体爬的是哪个位置、建议自己在开发者模式里的自己搜索一下康康。
分两个文件，第一个文件是得到感兴趣的蛋白质的名字

from selenium import webdriver
import xlwt
import random
import timedriver=webdriver.Chrome(r'E:\Chrome\Application\chromedriver.exe')
url="http://www1.rcsb.org"
driver.get(url)#开始自己整理网页 然后搜索 你感兴趣的蛋白质，点击搜索 出现页面之后time.sleep(random.uniform(1, 3))xpath="//*[@class='results-item']" #这个就是所有的搜索
contains=driver.find_elements_by_xpath(xpath)
#如果是多页的话也可以点击下一页 然后在python终端重复以上两个步骤，用:
#xpath="//*[@class='results-item']"
#contains_temp=driver.find_elements_by_xpath(xpath)
#contains=contains+contains_tempwork_book=xlwt.Workbook()
work_sheet = work_book.add_sheet("data")
j=0for contain in contains:list_contain=contain.text.split("\n")for i in range(len(list_contain)):work_sheet.write(j, i, list_contain[i])j+=1work_book.save('PDB_search.csv')

第二个文件是根据第一步得到的名字组合得到网址然后爬虫得到想要的内容

from selenium import webdriver
import xlwt
import random
import time
import re
driver=webdriver.Chrome(r'E:\Chrome\Application\chromedriver.exe')
#这里自己改
pdbselected=\
["6VCA",
"6VC9",
"6TVG",
"6TVX",
"6TW0",
"6TWA",
"6TWF",
"6XUQ",
"6XUE",
"6XUG",
"7JV8",
"7JV9",
"6YE2",
"6YE1",
"4H1S",
"6Z9B",
"6Z9D",
"3ZU0",
"6TVE",
"6HXW",
"6S7F",
"6S7H",
"4H2I",
"4H2B",
"3ZTV",
"4H2F",
"4H2G",
"4H1Y",
"4CD1",
"4CD3"]work_book=xlwt.Workbook()
work_sheet = work_book.add_sheet("data")for i in range(len(pdbselected)):time.sleep(random.uniform(1,3))url = 'http://www1.rcsb.org/structure/'+str(pdbselected[i])driver.get(url)#这里可以根据需要自己设定爬虫的xpathcontain=driver.find_element_by_xpath("//*[@id='exp_header_0_snapshot']")contain_2=driver.find_element_by_xpath("//*[@class='list-unstyled']")#高分子含量contain_3=driver.find_element_by_xpath("//*[@id='macromoleculeContent']")#分子的其他信息contain_4=driver.find_element_by_xpath("//*[@id='macromolecule-entityId-1-rowDescription']")#把contain里爬到的模块的text分割ListOfContain=re.split("[\n:]", contain  .text)ListOfContain_2=  re.split("[\n:]", contain_2.text)ListOfContain_3 =   re.split("[\n:]", contain_3.text)ListOfContain_4 =   re.split("[\n: ]", contain_4.text)#合并listListOfContain=ListOfContain+ListOfContain_2+ListOfContain_3+ListOfContain_4#先输入名字work_sheet.write(i, 0, pdbselected[i])for j in range(len(ListOfContain)):work_sheet.write(i, j+1, ListOfContain[j])work_book.save('test.csv')

生物信息学：根据PDB名称、爬虫PDB数据库的信息、保存到Excel里相关推荐

python 爬虫抓取网页数据导出excel_Python爬虫|爬取起点中文网小说信息保存到Excel...
前言: 爬取起点中文网全部小说基本信息,小说名.作者.类别.连载\完结情况.简介,并将爬取的数据存储与EXCEL表中环境:Python3.7 PyCharm Chrome浏览器主要模块:xlwt ...
爬虫实战6：爬取英雄联盟官网五个位置的综合排行榜保存到excel
申明:资料来源于网络及书本,通过理解.实践.整理成学习笔记. 文章目录英雄联盟官网获取一个位置的综合排行榜所有数据(上单为例) 获取所有位置的综合排行榜所有数据英雄联盟官网获取一个位置的综合排 ...
monolog mysql_Laravel框架使用monolog_mysql实现将系统日志信息保存到mysql数据库的方法...
本文实例讲述了Laravel框架使用monolog_mysql实现将系统日志信息保存到mysql数据库的方法.分享给大家供大家参考,具体如下: Laravel中使用monolog_mysql将系统日志 ...
monolog 存入mysql_Laravel框架使用monolog_mysql实现将系统日志信息保存到mysql数据库的...
本文实例讲述了Laravel框架使用monolog_mysql实现将系统日志信息保存到mysql数据库的方法.,具体如下: Laravel中使用monolog_mysql将系统日志信息保存到mysql ...
python爬虫爬取豆瓣电影排行榜并通过pandas保存到Excel文件当中
我们的需求是利用python爬虫爬取豆瓣电影排行榜数据,并将数据通过pandas保存到Excel文件当中(步骤详细) 我们用到的第三方库如下所示: import requests import pan ...
Python爬虫鲁迅先生《经典语录》保存到Excel表格（附源码）
Python爬虫鲁迅先生<经典语录>保存到Excel表格(附源码) 前言今天用Python 爬取鲁迅先生<经典语录>,直接开整~ 代码运行效果展示开发工具 Python版本 ...
python数据采集爬虫生意宝_Python爬虫实战：批量采集股票数据，并保存到Excel中...
小编说:通过本文,读者可以掌握分析网页的技巧.Python编写网络程序的方法.Excel的操作,以及正则表达式的使用.这些都是爬虫项目中必备的知识和技能.本文选自<Python带我起飞>. ...
对豆瓣进行爬虫来获取相关数据（分别保存到Excel表格和sqlite中）
1.存入Excel表格的代码: from bs4 import BeautifulSoup #网页解析,获取数据 import re #正则表达式,进行文字匹配 import urllib.reque ...
python爬取淘宝搜索页面+url+图片下载并将信息保存到MySQL数据库中
人狠话不多,直接上代码,都有详细注释,不多解释需要安装的包: pymysql,用于连接mysql数据库 urllib,爬虫必备包,urllib3也可以 # encoding:utf-8 import ...
php获取dropzone上传的文件,php - 如何上传文件，使用php中的dropzone将文件详细信息保存到mysql数据库 - SO中文参考 - www.soinside.com...
您好我正在尝试使用dropzone js框架实现拖放上传功能. 我已经使用下面的代码段成功上传了文件 //Disabling autoDiscover Dropzone.autoDiscover = ...

生物信息学：根据PDB名称、爬虫PDB数据库的信息、保存到Excel里

生物信息学：根据PDB名称、爬虫PDB数据库的信息、保存到Excel里相关推荐

最新文章

热门文章