Abstract

本脚本实现了通过Biopython爬取pubmed文献资料,并通过scholarscope爬取影响因子数据,最后尝试通过sci-hub下载文献,三位一体的方法。

Introduction

众所周知,在pubmed不断滑动鼠标找IF和标题比较合适的文献是很费时的事情,经常消磨学习的精力,尤其是scholarscope虽然显示了IF,但没办法在网页上过滤低IF的文章。鉴于前人脚本都没有假如IF这个因素,故本文在前人代码及自学补充的基础上,添加爬取IF的功能,为后人继续完善批量化操作提供宝贵经验。

Results and Discussion

1、通过给出关键词,返回包含PMID、Title、Journal、IF、publish_date、Abstract、DOI信息的excel表。之后就是正常excel筛选排序过滤的操作了,IF抓取失败率大概在1/10。值得一提的是,像PNAS、Angew Chem等常见杂志也会抓取失败,不过可以简单通过在IF栏筛选抓取失败的,同时在Journal栏将刊物归类排序后,保留熟悉刊物即可。Fig.1 爬取进度

Fig.2 爬取结果

2、通过DOI批量下载文献。结果不尽如人意,但作者也从pypi使用了部分包,但发现其实大家下载的成功率其实都挺低的,此部分目前有待后人的进一步研究。Fig.3 尝试下载文献pdf

Methods

依赖项

Fig.4 依赖项

Code available

https://github.com/Knight-oOf-Night/grab-pubmed-info.git

References

参考biopython文档,部分scihub相关pypi包源码,及一些requests教程

Acknowledgements

kono dio da!

python爬取文献代码_爬取Pubmed文献及影响因子并尝试下载的脚本相关推荐

  1. python爬取文献代码_使用python爬取MedSci上的影响因子排名靠前的文献

    使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn ...

  2. python爬取豆瓣代码_小白的python爬虫,40代码教你爬取豆瓣小说

    这篇文章写了很久了,一直没有发布: 爬虫学的差不多了,觉得这篇文章对新手实践还是有些作用的.毕竟这也是我刚学爬虫的时候练习的,爬取了比较好爬的网站,也比较经典:多余的解释不说了,代码里每一行都有注释, ...

  3. python爬取ppt代码_Python爬取PPT模板小工具

    由于很多PPT抓取工具都会因为版本问题无法使用,所以论坛大神就自己写了这款Python爬取PPT模板小工具,可以帮助用户轻松获取各种PPT模板,使用的时候注意一次只能下载一种类型.软件仅供交流学习,下 ...

  4. java爬取彩票数据_爬取彩票信息(有空试下)

    暂且不说,彩票预测是否靠谱?彩票预测也分人而异,江湖上骗术很多,有些甚至会误以为彩票预测的准确度可以很高,这些操盘手法,让不知原理的彩民心甘情愿地掏钱买料. 在彩票预测上,也有正儿八经去研究" ...

  5. vscode中如何拉取git代码_工具 | 手把手教你在VSCode中使用Git

    在一个目录下clone项目: git clone XXXXXX.git 使用VScode 打开项目 右击通过Code打开. 使用vscode提交代码 1.打开下面视图,添加一行文字: ## 测试提交 ...

  6. git gui怎么拉取项目代码_这些Git命令都不会,还是不要去面试了

    前言 以下,项目中经常使用的Git命令,汇总到这里以便与你能快速的学习和掌握Git命令,在文章最后有惊喜哟,一定要看到最后啊! 使用的 Git版本:git version 2.24.0 命令 git ...

  7. git 怎么拉去分支代码_拉取github指定分支上的代码

    拉取github指定分支上的代码 方法[推荐] #[0]git拉取远程代码 git clone https://xxx.git #[1]git拉取远程指定分支下代码(-b 分支名称) git clon ...

  8. python交通流预测代码_使用ARIMA模型进行的短时交通流预测和结果分析

    首先要讲的是,在短时交通流预测领域,ARIMA模型是一种相当粗糙的基于时间序列的预测方法,相应地,这种预测方法的准确性也不高.同时,ARIMA方法也不在我的研究范围内,所以本次实验就直接使用网络上现成 ...

  9. python皮卡丘编程代码_再接再厉,用python编程13行代码解方程组(纯字符)

    因为是示例为主,我们将方程组限制在二元一次方程组:x,y两个变量,两个方程.类似这样: 每个方程有两个变量,x和y,形式为:ax+by+c=d 由于这次有了两个方程,我们提取参数的代码就适合提炼为一个 ...

最新文章

  1. “男医生,女护士?”消除偏见,Google有大招
  2. 计算机网络_第7版_谢希仁_目录
  3. java的CountDownLatch使用
  4. EntityFramework 学习: Console中初见
  5. Java生鲜电商平台-缓存架构实战
  6. P4780-Phi的反函数【dfs】
  7. C++里数组名+1和数组名的地址+1的区别
  8. FastDFS安装脚本
  9. word 远程过程调用失败。 (异常来自 HRESULT:0x800706BE) 解决方法
  10. Atitit 编程语言知识点tech tree v2 attilax大总结
  11. python运维脚本简书_Python运维篇:会Python的运维工程师价值多少?
  12. AssetBundle资源冗余检测
  13. 利用DeskPins软件将windows窗口置顶
  14. cups支持的打印机列表_使用CUPS打印管理器管理打印机
  15. 黑马旅游网 —— 登录/注册案例
  16. 深度强化学习算法研究中的常用对比试验及作图技巧
  17. el-input 密码输入框 显示隐藏优化
  18. uniapp开发微信小程序保存图片带权限判断
  19. T410s玩游戏很卡及其散热问题的解决
  20. log4j.properties 详解与配置步骤

热门文章

  1. 1366*768 显示屏模式造成远程桌面不能全屏显示
  2. 一篇读懂,关于30多岁程序员转行的困惑与方向
  3. 初玩SM2259XT2+B27A自制固态开卡成功,SM2259XT2量产工具和SM2258XT类似
  4. IE11升级(不联网模式)之P处理
  5. linux虚拟网口不同vlan,管理交换机虚拟局域网VLAN的4种划分
  6. elment ui table 点击上下移动表格
  7. VHDL中的signal(信号)variable(变量)的定义与赋值
  8. ffmpeg实战教程(十)ffmpeg/camera实现最近很火的视频壁纸,相机壁纸
  9. 【模拟电子技术】常用半导体器件——本征半导体
  10. 错误收集:备忘MPI Application rank 0 exited before MPI_Finalize()nbsp