毕设要统计蛋白质的信息,就写了个小脚本。
把PDB里的编号写到pdbselected里、我本来想做成根据蛋白质直接搜索到编号的,发现居然有反爬…只能先写成这个了…
具体爬的是哪个位置、建议自己在开发者模式里的自己搜索一下康康。
分两个文件,第一个文件是得到感兴趣的蛋白质的名字

from selenium import webdriver
import xlwt
import random
import timedriver=webdriver.Chrome(r'E:\Chrome\Application\chromedriver.exe')
url="http://www1.rcsb.org"
driver.get(url)#开始自己整理网页 然后搜索 你感兴趣的蛋白质,点击搜索 出现页面之后time.sleep(random.uniform(1, 3))xpath="//*[@class='results-item']" #这个就是所有的搜索
contains=driver.find_elements_by_xpath(xpath)
#如果是多页的话也可以点击下一页 然后在python终端重复以上两个步骤,用:
#xpath="//*[@class='results-item']"
#contains_temp=driver.find_elements_by_xpath(xpath)
#contains=contains+contains_tempwork_book=xlwt.Workbook()
work_sheet = work_book.add_sheet("data")
j=0for contain in contains:list_contain=contain.text.split("\n")for i in range(len(list_contain)):work_sheet.write(j, i, list_contain[i])j+=1work_book.save('PDB_search.csv')

第二个文件 是根据第一步得到的名字 组合得到网址 然后爬虫得到 想要的内容

from selenium import webdriver
import xlwt
import random
import time
import re
driver=webdriver.Chrome(r'E:\Chrome\Application\chromedriver.exe')
#这里自己改
pdbselected=\
["6VCA",
"6VC9",
"6TVG",
"6TVX",
"6TW0",
"6TWA",
"6TWF",
"6XUQ",
"6XUE",
"6XUG",
"7JV8",
"7JV9",
"6YE2",
"6YE1",
"4H1S",
"6Z9B",
"6Z9D",
"3ZU0",
"6TVE",
"6HXW",
"6S7F",
"6S7H",
"4H2I",
"4H2B",
"3ZTV",
"4H2F",
"4H2G",
"4H1Y",
"4CD1",
"4CD3"]work_book=xlwt.Workbook()
work_sheet = work_book.add_sheet("data")for i in range(len(pdbselected)):time.sleep(random.uniform(1,3))url = 'http://www1.rcsb.org/structure/'+str(pdbselected[i])driver.get(url)#这里可以根据需要自己设定爬虫的xpathcontain=driver.find_element_by_xpath("//*[@id='exp_header_0_snapshot']")contain_2=driver.find_element_by_xpath("//*[@class='list-unstyled']")#高分子含量contain_3=driver.find_element_by_xpath("//*[@id='macromoleculeContent']")#分子的其他信息contain_4=driver.find_element_by_xpath("//*[@id='macromolecule-entityId-1-rowDescription']")#把contain里爬到的模块的text分割ListOfContain=re.split("[\n:]", contain  .text)ListOfContain_2=  re.split("[\n:]", contain_2.text)ListOfContain_3 =   re.split("[\n:]", contain_3.text)ListOfContain_4 =   re.split("[\n: ]", contain_4.text)#合并listListOfContain=ListOfContain+ListOfContain_2+ListOfContain_3+ListOfContain_4#先输入名字work_sheet.write(i, 0, pdbselected[i])for j in range(len(ListOfContain)):work_sheet.write(i, j+1, ListOfContain[j])work_book.save('test.csv')

生物信息学:根据PDB名称、爬虫PDB数据库的信息、保存到Excel里相关推荐

  1. python 爬虫抓取网页数据导出excel_Python爬虫|爬取起点中文网小说信息保存到Excel...

    前言: 爬取起点中文网全部小说基本信息,小说名.作者.类别.连载\完结情况.简介,并将爬取的数据存储与EXCEL表中 环境:Python3.7 PyCharm Chrome浏览器 主要模块:xlwt ...

  2. 爬虫实战6:爬取英雄联盟官网五个位置的综合排行榜保存到excel

    申明:资料来源于网络及书本,通过理解.实践.整理成学习笔记. 文章目录 英雄联盟官网 获取一个位置的综合排行榜所有数据(上单为例) 获取所有位置的综合排行榜所有数据 英雄联盟官网 获取一个位置的综合排 ...

  3. monolog mysql_Laravel框架使用monolog_mysql实现将系统日志信息保存到mysql数据库的方法...

    本文实例讲述了Laravel框架使用monolog_mysql实现将系统日志信息保存到mysql数据库的方法.分享给大家供大家参考,具体如下: Laravel中使用monolog_mysql将系统日志 ...

  4. monolog 存入mysql_Laravel框架使用monolog_mysql实现将系统日志信息保存到mysql数据库的...

    本文实例讲述了Laravel框架使用monolog_mysql实现将系统日志信息保存到mysql数据库的方法.,具体如下: Laravel中使用monolog_mysql将系统日志信息保存到mysql ...

  5. python爬虫爬取豆瓣电影排行榜并通过pandas保存到Excel文件当中

    我们的需求是利用python爬虫爬取豆瓣电影排行榜数据,并将数据通过pandas保存到Excel文件当中(步骤详细) 我们用到的第三方库如下所示: import requests import pan ...

  6. Python爬虫鲁迅先生《经典语录》保存到Excel表格(附源码)

    Python爬虫鲁迅先生<经典语录>保存到Excel表格(附源码) 前言 今天用Python 爬取鲁迅先生<经典语录>,直接开整~ 代码运行效果展示 开发工具 Python版本 ...

  7. python数据采集 爬虫 生意宝_Python爬虫实战 :批量采集股票数据,并保存到Excel中...

    小编说:通过本文,读者可以掌握分析网页的技巧.Python编写网络程序的方法.Excel的操作,以及正则表达式的使用.这些都是爬虫项目中必备的知识和技能.本文选自<Python带我起飞>. ...

  8. 对豆瓣进行爬虫来获取相关数据(分别保存到Excel表格和sqlite中)

    1.存入Excel表格的代码: from bs4 import BeautifulSoup #网页解析,获取数据 import re #正则表达式,进行文字匹配 import urllib.reque ...

  9. python爬取淘宝搜索页面+url+图片下载并将信息保存到MySQL数据库中

    人狠话不多,直接上代码,都有详细注释,不多解释 需要安装的包: pymysql,用于连接mysql数据库 urllib,爬虫必备包,urllib3也可以 # encoding:utf-8 import ...

  10. php获取dropzone上传的文件,php - 如何上传文件,使用php中的dropzone将文件详细信息保存到mysql数据库 - SO中文参考 - www.soinside.com...

    您好我正在尝试使用dropzone js框架实现拖放上传功能. 我已经使用下面的代码段成功上传了文件 //Disabling autoDiscover Dropzone.autoDiscover = ...

最新文章

  1. flash特效原理:螺旋效果 (3)
  2. python if语句多个条件-Python中if有多个条件怎么办
  3. Java学习资料-SimpleFactory
  4. 运维 服务器安装,IT服务器运维安装CentOS后,你要做的10件事
  5. 安卓进阶系列-03上弹选择框(PopupDialog)的使用
  6. Python 线程队列 LifoQueue – LIFO - Python零基础入门教程
  7. python安装目录结构_python软件目录结构规范
  8. mysql登陆时报错PID_Mysql 启动错误:the server quit without updating pid
  9. C++_虚函数的实现的基本原理
  10. Windows XP sp3上可以安装SQL Server 2008企业版?
  11. 【听说有人想转码】入门----凯撒密码(密文解密,偏移)
  12. 【Unity3D】常用快捷键
  13. 毕业论文/分页符/段前2行没用
  14. 图解:卷帘快门(Rolling shutter)与全局快门(global shutter)的区别
  15. 注册表怎么禁用计算机,如何禁用注册表,注册表禁用和启动的方法
  16. 关于2440嵌入式MPlayer播放器的移植方法
  17. MySQL阶段二_模块6
  18. 酷狗音乐PC端怎么使用听歌识曲功能?
  19. 计算机相关商标,计算机的商标是属于哪一类?
  20. JAVA方法SQL语句执行顺序

热门文章

  1. java PDF添加水印效果
  2. 2020-10-27
  3. dinic算法 c 语言,网络流Dinic算法详解及模板
  4. 移动安全-IOS越狱
  5. Sodinokibi勒索病毒利用Flash漏洞强势来袭
  6. Vivado ROM IP核
  7. Bandicam一款值得被吹爆的录屏软件
  8. 基于微信小程序的毕业设计题目(33)PHP校园失物招领小程序(含开题报告、任务书、中期报告、答辩PPT、论文模板)
  9. 东南大学本 硕 博论文中期答辩 毕业答辩ppt模板2021版
  10. icem合并面网格_ICEM CFD中合并多个网格