问题描述:

需要爬取BVDV相关文献做研究,主要使用参数有title,pmid,abstract。
由于有些文章没有abstract,导致爬取失败。

错误代码:

Traceback (most recent call last):
File “E:////master/pythontest.py", line 106, in
main()
File "E:/
///master/pythontest.py", line 88, in main
parserPmidHtmlText(html, pmid)
File "E:/
//****/****master/pythontest.py”, line 49, in parserPmidHtmlText
abstractTag = abstractTag[0].find_all(‘p’)
IndexError: list index out of range

问题分析:

虽然提示数组下标越界,但是实际上你看倒数第二行错误,在find_all方法调用的时候仅搜索

标签,是不对的,我们返回原网页去对比,发现没有abstract的页面使用的是标签,所以我们可以在这里用xpath方法做一个判断,或者在首页选定规则。解决办法如下:

解决办法1:

采用xpath做判断。
(时间有限,暂时搁置)

解决办法2:

在对应选项上勾选,在爬取页面上写增加一个拼接字段。
原字段:

https://pubmed.ncbi.nlm.nih.gov/?term=BCV&filter=simsearch3.fft&page=2
初始网站+搜索字段+(锁定字段)+页码

Python入门——爬取pubmed文献做分析相关推荐

  1. python爬取文献代码_爬取Pubmed文献及影响因子并尝试下载的脚本

    Abstract 本脚本实现了通过Biopython爬取pubmed文献资料,并通过scholarscope爬取影响因子数据,最后尝试通过sci-hub下载文献,三位一体的方法. Introducti ...

  2. Python爬虫应用实战-爬取股票数据做分析

    01 本文涉及到的知识点 1.python字符串:分割.拼接.中文字符判断: 2.python正则表达式: 3.爬虫requests请求库.xpath获取数据.代理服务器: 4.selenium用法: ...

  3. python爬虫: 爬取拉勾网职位并分析

    文章目录 0. 前言 1. 用到的软件包 2. 解析网页 3. 数据清洗 4. 词云 5. 描述统计 6. 实证统计 7. 完整代码 7.1 爬虫部分的代码 7.2 数据分析部分的代码 0. 前言 本 ...

  4. 学习 Python 爬虫,手把手通过 Python 入门爬取网页信息

    Python 爬虫是什么? 我们在网络上收集资料的过程其实就称之为爬虫(web scraping).复制粘贴歌词.摘抄文本或数据都可以算作爬虫的一部分,但网络编程背景下的爬虫,更强调自动化,通过 Py ...

  5. python数据爬取及数据可视化分析

    电影网站数据分析及可视化研究 本博客是一篇集数据爬取,存储为excel表格,将数据可视化为一体的博文,数据爬取采用request等方法,数据可视化会使用图表进行展示,有改进的地方还请大家多多指教. 目 ...

  6. Python入门--爬取淘宝评论并生成词云

    Python爬取淘宝评论并生成词云 最新修改于2021/04/01 所需相关Python第三方库(目前最新版本即可) 推荐使用Anaconda,其使用十分方便.快捷. requests库 json库 ...

  7. python入门爬取360网站的‘历史上的今天’

    导入的库---requests,bs4 import requests,bs4,tkinter 让别人输入日期 a=input("您要查询的月份(必须两位数,1月请输入01):") ...

  8. python入门爬取表情包

    九年义务教育加三年高考,从来没有过过这么紧张充实的暑假,生怕自己来学校了啥都没学到心慌慌,马上大二了,我慌啊,害怕小学弟学妹们进来了我却当不起这个学姐,到时候别人问我啥我 啥都不会啊:虽然我现在也感觉 ...

  9. python+execjs爬取网易云评论

    python+execjs爬取网易云评论 分析网站 JS分析 execjs解密js 运行结果 代码 分析网站 首先打开网易云首页,随便点一首歌曲进入到评论区. 接着按F12进入开发者工具,重新刷新页面 ...

  10. python爬取pubmed的文献_利用selenium爬取pubmed,获得搜索的关键字最近五年发表文章数量...

    PubMed 是一个提供生物医学方面的论文搜寻以及摘要,并且免费搜寻的数据库.是一个做生物方面经常要用到的一个查找文献的网站.最近刚学了爬虫相关的知识包括urllib库,requests库,xpath ...

最新文章

  1. elasticsearch 客户端工具_1分钟系列-Elasticsearch 简介与单机版安装
  2. retinaface 训练笔记
  3. 004-SLF4J的简单使用
  4. JZOJ 5177. 【NOIP2017提高组模拟6.28】TRAVEL
  5. jQuery10种不同动画效果的响应式全屏遮罩层
  6. bool函数_PHP变量类型测试函数的使用:一、is_bool的用法
  7. ftpphp_PHP实现ftp上传文件示例
  8. ## 鲁棒控制 第一节 概论
  9. Python数据分析-绘图-2-Seaborn进阶绘图-4-分类图
  10. 软件开发入门【3分钟课程】
  11. Windows 系统优化 - 查看并清理临时文件,释放磁盘空间,提高系统运行效率
  12. 最新公布!“中国开发者大调查”第二批中奖名单出炉啦
  13. 微信小程序消息订阅超详细流程步骤
  14. 一个3D车道线检测方法PersFormer及其开源OpenLane数据集
  15. 北大青鸟所有学习资料下载地址
  16. 硬汉内贾德:让美国人战栗(推荐)
  17. 英语语法笔记——状语从句(五)
  18. new Date().getMonth() 的取值问题
  19. Post和Get,Post和Put请求的区别
  20. MDM Apple Configurator使用

热门文章

  1. Axure Rp汉化安装
  2. 哪种不是python元组的定义方式_最新python 笔试题
  3. 2021-01-29 大数据课程笔记 day9
  4. Win10在使用setuna2时,启动截屏后屏幕会放大的问题
  5. TTL转USB 六合一
  6. 计算机编程—必备基础知识点
  7. 利用python爬取电影资源
  8. 工具配置-如何在NextCloud私有云盘安装的olnyOffice插件中添加中文字体支持实践操作...
  9. iOS 常用到的宏#define
  10. Java读写excel文件代码