Python入门——爬取pubmed文献做分析

问题描述：

需要爬取BVDV相关文献做研究，主要使用参数有title，pmid，abstract。
由于有些文章没有abstract，导致爬取失败。

错误代码：

Traceback (most recent call last):
File “E:////master/pythontest.py", line 106, in
main()
File "E:////master/pythontest.py", line 88, in main
parserPmidHtmlText(html, pmid)
File "E:///****/****master/pythontest.py”, line 49, in parserPmidHtmlText
abstractTag = abstractTag[0].find_all(‘p’)
IndexError: list index out of range

问题分析：

虽然提示数组下标越界，但是实际上你看倒数第二行错误，在find_all方法调用的时候仅搜索

标签，是不对的，我们返回原网页去对比，发现没有abstract的页面使用的是标签，所以我们可以在这里用xpath方法做一个判断，或者在首页选定规则。解决办法如下：

解决办法1：

采用xpath做判断。
（时间有限，暂时搁置）

解决办法2：

在对应选项上勾选，在爬取页面上写增加一个拼接字段。
原字段：

https://pubmed.ncbi.nlm.nih.gov/?term=BCV&filter=simsearch3.fft&page=2
初始网站+搜索字段+（锁定字段）+页码

Python入门——爬取pubmed文献做分析相关推荐

python爬取文献代码_爬取Pubmed文献及影响因子并尝试下载的脚本
Abstract 本脚本实现了通过Biopython爬取pubmed文献资料,并通过scholarscope爬取影响因子数据,最后尝试通过sci-hub下载文献,三位一体的方法. Introducti ...
Python爬虫应用实战-爬取股票数据做分析
01 本文涉及到的知识点 1.python字符串:分割.拼接.中文字符判断: 2.python正则表达式: 3.爬虫requests请求库.xpath获取数据.代理服务器: 4.selenium用法: ...
python爬虫: 爬取拉勾网职位并分析
文章目录 0. 前言 1. 用到的软件包 2. 解析网页 3. 数据清洗 4. 词云 5. 描述统计 6. 实证统计 7. 完整代码 7.1 爬虫部分的代码 7.2 数据分析部分的代码 0. 前言本 ...
学习 Python 爬虫，手把手通过 Python 入门爬取网页信息
Python 爬虫是什么? 我们在网络上收集资料的过程其实就称之为爬虫(web scraping).复制粘贴歌词.摘抄文本或数据都可以算作爬虫的一部分,但网络编程背景下的爬虫,更强调自动化,通过 Py ...
python数据爬取及数据可视化分析
电影网站数据分析及可视化研究本博客是一篇集数据爬取,存储为excel表格,将数据可视化为一体的博文,数据爬取采用request等方法,数据可视化会使用图表进行展示,有改进的地方还请大家多多指教. 目 ...
Python入门--爬取淘宝评论并生成词云
Python爬取淘宝评论并生成词云最新修改于2021/04/01 所需相关Python第三方库(目前最新版本即可) 推荐使用Anaconda,其使用十分方便.快捷. requests库 json库 ...
python入门爬取360网站的‘历史上的今天’
导入的库---requests,bs4 import requests,bs4,tkinter 让别人输入日期 a=input("您要查询的月份(必须两位数,1月请输入01):") ...
python入门爬取表情包
九年义务教育加三年高考,从来没有过过这么紧张充实的暑假,生怕自己来学校了啥都没学到心慌慌,马上大二了,我慌啊,害怕小学弟学妹们进来了我却当不起这个学姐,到时候别人问我啥我啥都不会啊:虽然我现在也感觉 ...
python+execjs爬取网易云评论
python+execjs爬取网易云评论分析网站 JS分析 execjs解密js 运行结果代码分析网站首先打开网易云首页,随便点一首歌曲进入到评论区. 接着按F12进入开发者工具,重新刷新页面 ...
python爬取pubmed的文献_利用selenium爬取pubmed，获得搜索的关键字最近五年发表文章数量...
PubMed 是一个提供生物医学方面的论文搜寻以及摘要,并且免费搜寻的数据库.是一个做生物方面经常要用到的一个查找文献的网站.最近刚学了爬虫相关的知识包括urllib库,requests库,xpath ...