利用简单的爬虫获取CV顶会论文

学术小伙伴每年都有很多顶会论文要追，为了能够获得第一手的顶会论文资源，就用小爬虫爬取CV顶会论文并打包下载，可以说是爬虫在手，天下我有~

爬虫就是request，正则分解网页信息，获取自己感兴趣的元素标签，需要的话就把资源下载下来就ok了，整个程序写得也很简单，直接上代码。

import re# 正则

import requests

import urllib

import os

import pathlib

import filecmp

import shutil

def loadPDF():

# URL 信息

eccvR = requests.get('https://openaccess.thecvf.com/ECCV2018')

eccvData = eccvR.text

print('url is https://openaccess.thecvf.com/ECCV2018')

# 解析页面的pdf元素

link_list = re.findall(r"(?<=href=\").+?pdf(?=\">pdf)|(?<=href=\').+?pdf(?=\">pdf)", eccvData)

name_list = re.findall(r"(?<=href=\").+?2018_paper.html\">.+?</a>", eccvData)

number = 0

cnt = 0

num = len(link_list)

print('paper links num=',num)

print('paper name num=',len(name_list))

# 存储pdf的本地文档

localDir = 'C:\Papers\ECCV2018\\'

print('local Dir is'+localDir)

if not os.path.exists(localDir):

# 创建文档

print('create new local path.')

os.makedirs(localDir)

# 选择前三份pdf文件进行下载

downloadNum = 3

print('Download number is 3')

if downloadNum<1:

print('no Download pdf')

while cnt < downloadNum:

url = link_list[cnt]

# 从url元素解析pdf文件名

file_name = name_list[cnt].split('<')[0].split('>')[1]

# 将文件名中的符号去掉

file_name = file_name.replace(':','_')

file_name = file_name.replace('\"','_')

file_name = file_name.replace('?','_')

file_name = file_name.replace('/','_')

file_name = file_name.replace('&','_')

file_name = file_name.replace('%','_')

file_name = file_name.replace('_',' ')

# 下载PDF文件

print('['+str(cnt)+'/'+str(num)+"] Downloading -> " + localDir + file_name+'.pdf')

try:

urllib.request.urlretrieve('http://openaccess.thecvf.com/'+url, localDir+file_name+'.pdf')

except Exception:

continue

cnt = cnt + 1

print("all download finished")

def main():

print('Please check your system is networking~')

url = 'https://openaccess.thecvf.com/ECCV2018'

loadPDF()

if __name__ =='__main__':

main()

利用简单的爬虫获取CV顶会论文相关推荐

小猿圈分享利用python网络爬虫获取网易云歌词
今天小猿圈给大家分享网易云音乐歌词爬取方法. 本文的总体思路如下: 找到正确的URL,获取源码: 利用bs4解析源码,获取歌曲名和歌曲ID: 调用网易云歌曲API,获取歌词: 将歌词写入文件,并存入本 ...
Python实现简单的爬虫获取某刀网的更新数据
昨天晚上无聊时,想着练习一下Python所以写了一个小爬虫获取小刀娱乐网里的更新数据 #!/usr/bin/python # coding: utf-8import urllib.request im ...
利用Python网络爬虫获取分类图片，简单处理反爬教学
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理本文章来自腾讯云作者:Python进阶者想要学习Python?有问题得不到第一 ...
python爬虫可以爬取个人信息吗_手把手教你利用Python网络爬虫获取旅游景点信息...
爬虫系列: 当我们出去旅游时,会看这个地方有哪些旅游景点,景点价格.开放时间.用户的评论等. 本文基于Python网络爬虫技术,以hao123旅游网为例,获取旅游景点信息. 1.项目目标获取网站的景 ...
想学爬虫的同学看过来，手把手教你利用Python网络爬虫获取APP推广信息
一.前言 CPA之家app推广平台是国内很大的推广平台.该网址的数据信息高达数万条,爬取该网址的信息进行数据的分析. 二.项目目的实现将获取到的QQ,导入excel模板,并生成独立的excel文档. ...
手把手教你利用Python网络爬虫获取链家网的房产信息
点击上方"Python爬虫与数据挖掘",进行关注回复"书籍"即可获赠Python从入门到进阶共10本电子书今日鸡汤夜阑卧听风吹雨,铁马冰河入梦来. ...
python链家网爬虫_手把手教你利用Python网络爬虫获取链家网的房产信息
点击上方" Python爬虫与数据挖掘 ",进行关注回复"书籍"即可获赠Python从入门到进阶共10本电子书今日鸡汤夜阑卧听风吹雨,铁马冰河入梦来 ...
python网络爬虫_一篇文章教会你利用Python网络爬虫获取穷游攻略
点击上方"IT共享之家",进行关注回复"资料"可获赠Python学习福利 [一.项目背景] 穷游网提供原创实用的出境游旅行指南.攻略,旅行社区和问答交流平台, ...
python3爬虫有道翻译_一篇文章教会你利用Python网络爬虫获取有道翻译手机版的翻译接口...
[一.项目背景] 有道翻译作为国内最大的翻译软件之一,用户量巨大.在学习时遇到不会的英语词汇,会第一时间找翻译,有道翻译就是首选.今天教大家如何去获取有道翻译手机版的翻译接口. ![image](ht ...

利用简单的爬虫获取CV顶会论文

利用简单的爬虫获取CV顶会论文相关推荐

最新文章

热门文章