利用简单的爬虫获取CV顶会论文
学术小伙伴每年都有很多顶会论文要追,为了能够获得第一手的顶会论文资源,就用小爬虫爬取CV顶会论文并打包下载,可以说是爬虫在手,天下我有~
爬虫就是request,正则分解网页信息,获取自己感兴趣的元素标签,需要的话就把资源下载下来就ok了,整个程序写得也很简单,直接上代码。
import re# 正则
import requests
import urllib
import os
import pathlib
import filecmp
import shutil
def loadPDF():
# URL 信息
eccvR = requests.get('https://openaccess.thecvf.com/ECCV2018')
eccvData = eccvR.text
print('url is https://openaccess.thecvf.com/ECCV2018')
# 解析页面的pdf元素
link_list = re.findall(r"(?<=href=\").+?pdf(?=\">pdf)|(?<=href=\').+?pdf(?=\">pdf)", eccvData)
name_list = re.findall(r"(?<=href=\").+?2018_paper.html\">.+?</a>", eccvData)
number = 0
cnt = 0
num = len(link_list)
print('paper links num=',num)
print('paper name num=',len(name_list))
# 存储pdf的本地文档
localDir = 'C:\Papers\ECCV2018\\'
print('local Dir is'+localDir)
if not os.path.exists(localDir):
# 创建文档
print('create new local path.')
os.makedirs(localDir)
# 选择前三份pdf文件进行下载
downloadNum = 3
print('Download number is 3')
if downloadNum<1:
print('no Download pdf')
while cnt < downloadNum:
url = link_list[cnt]
# 从url元素解析pdf文件名
file_name = name_list[cnt].split('<')[0].split('>')[1]
# 将文件名中的符号去掉
file_name = file_name.replace(':','_')
file_name = file_name.replace('\"','_')
file_name = file_name.replace('?','_')
file_name = file_name.replace('/','_')
file_name = file_name.replace('&','_')
file_name = file_name.replace('%','_')
file_name = file_name.replace('_',' ')
# 下载PDF文件
print('['+str(cnt)+'/'+str(num)+"] Downloading -> " + localDir + file_name+'.pdf')
try:
urllib.request.urlretrieve('http://openaccess.thecvf.com/'+url, localDir+file_name+'.pdf')
except Exception:
continue
cnt = cnt + 1
print("all download finished")
def main():
print('Please check your system is networking~')
url = 'https://openaccess.thecvf.com/ECCV2018'
loadPDF()
if __name__ =='__main__':
main()
利用简单的爬虫获取CV顶会论文相关推荐
- 小猿圈分享利用python网络爬虫获取网易云歌词
今天小猿圈给大家分享网易云音乐歌词爬取方法. 本文的总体思路如下: 找到正确的URL,获取源码: 利用bs4解析源码,获取歌曲名和歌曲ID: 调用网易云歌曲API,获取歌词: 将歌词写入文件,并存入本 ...
- Python实现简单的爬虫获取某刀网的更新数据
昨天晚上无聊时,想着练习一下Python所以写了一个小爬虫获取小刀娱乐网里的更新数据 #!/usr/bin/python # coding: utf-8import urllib.request im ...
- 利用Python网络爬虫获取分类图片,简单处理反爬教学
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 本文章来自腾讯云 作者:Python进阶者 想要学习Python?有问题得不到第一 ...
- python爬虫可以爬取个人信息吗_手把手教你利用Python网络爬虫获取旅游景点信息...
爬虫系列: 当我们出去旅游时,会看这个地方有哪些旅游景点,景点价格.开放时间.用户的评论等. 本文基于Python网络爬虫技术,以hao123旅游网为例,获取旅游景点信息. 1.项目目标 获取网站的景 ...
- 想学爬虫的同学看过来,手把手教你利用Python网络爬虫获取APP推广信息
一.前言 CPA之家app推广平台是国内很大的推广平台.该网址的数据信息高达数万条,爬取该网址的信息进行数据的分析. 二.项目目的 实现将获取到的QQ,导入excel模板,并生成独立的excel文档. ...
- 手把手教你利用Python网络爬虫获取链家网的房产信息
点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 夜阑卧听风吹雨,铁马冰河入梦来. ...
- python链家网爬虫_手把手教你利用Python网络爬虫获取链家网的房产信息
点击上方" Python爬虫与数据挖掘 ",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 夜阑卧听风吹雨,铁马冰河入梦来 ...
- python网络爬虫_一篇文章教会你利用Python网络爬虫获取穷游攻略
点击上方"IT共享之家",进行关注 回复"资料"可获赠Python学习福利 [一.项目背景] 穷游网提供原创实用的出境游旅行指南.攻略,旅行社区和问答交流平台, ...
- python3爬虫有道翻译_一篇文章教会你利用Python网络爬虫获取有道翻译手机版的翻译接口...
[一.项目背景] 有道翻译作为国内最大的翻译软件之一,用户量巨大.在学习时遇到不会的英语词汇,会第一时间找翻译,有道翻译就是首选.今天教大家如何去获取有道翻译手机版的翻译接口. ![image](ht ...
最新文章
- 【LeetCode从零单排】No189	.Rotate Array
- android router不起作用,给 Arouter 优化的一些小建议
- 使用Certbot 生成 https 证书
- 200多个js技巧代码
- 多核编程与单核多线程编程
- React路由组件传递参数
- LeetCode 2. 两数相加(单链表反转)
- python如何删除对象属性_如何优雅的删除对象中的指定属性?
- mysql主主复制和mha_MySQL第二章主从复制MHA高可用
- 如何避免大数据分析的失误
- 制作pdf文档书签,自动生成or根据目录生成
- mysql 生成假数据_一个好玩的假数据生成器mimesis
- linux抓包工具分析工具下载,Linux下抓包工具tcpdump以及分析包的工具wireshark
- Spring Cloud
- unity材质球发光_为Unity3D创建素材(1):图片、着色器、材质球
- oracle18c静默安装教程,Oracle 18c 通过 RPM 包安装数据库示例
- 浏览器服务器协议,浏览器工作原理之HTTP协议
- 全网爆火五款高性能旗舰蓝牙耳机推荐,平价高音质蓝牙耳机
- 浅谈IT行业加班有没有价值
- 本题要求对任意给定的一位正整数N,输出从1*1到N*N的部分口诀表。