学术小伙伴每年都有很多顶会论文要追,为了能够获得第一手的顶会论文资源,就用小爬虫爬取CV顶会论文并打包下载,可以说是爬虫在手,天下我有~

爬虫就是request,正则分解网页信息,获取自己感兴趣的元素标签,需要的话就把资源下载下来就ok了,整个程序写得也很简单,直接上代码。

import re# 正则

import requests

import urllib

import os

import pathlib

import filecmp

import shutil

def loadPDF():

# URL 信息

eccvR = requests.get('https://openaccess.thecvf.com/ECCV2018')

eccvData = eccvR.text

print('url is https://openaccess.thecvf.com/ECCV2018')

# 解析页面的pdf元素

link_list = re.findall(r"(?<=href=\").+?pdf(?=\">pdf)|(?<=href=\').+?pdf(?=\">pdf)", eccvData)

name_list = re.findall(r"(?<=href=\").+?2018_paper.html\">.+?</a>", eccvData)

number = 0

cnt = 0

num = len(link_list)

print('paper links num=',num)

print('paper name num=',len(name_list))

# 存储pdf的本地文档

localDir = 'C:\Papers\ECCV2018\\'

print('local Dir is'+localDir)

if not os.path.exists(localDir):

# 创建文档

print('create new local path.')

os.makedirs(localDir)

# 选择前三份pdf文件进行下载

downloadNum = 3

print('Download number is 3')

if downloadNum<1:

print('no Download pdf')

while cnt < downloadNum:

url = link_list[cnt]

# 从url元素解析pdf文件名

file_name = name_list[cnt].split('<')[0].split('>')[1]

# 将文件名中的符号去掉

file_name = file_name.replace(':','_')

file_name = file_name.replace('\"','_')

file_name = file_name.replace('?','_')

file_name = file_name.replace('/','_')

file_name = file_name.replace('&','_')

file_name = file_name.replace('%','_')

file_name = file_name.replace('_',' ')

# 下载PDF文件

print('['+str(cnt)+'/'+str(num)+"]  Downloading -> " + localDir + file_name+'.pdf')

try:

urllib.request.urlretrieve('http://openaccess.thecvf.com/'+url, localDir+file_name+'.pdf')

except Exception:

continue

cnt = cnt + 1

print("all download finished")

def main():

print('Please check your system is networking~')

url = 'https://openaccess.thecvf.com/ECCV2018'

loadPDF()

if __name__ =='__main__':

main()

利用简单的爬虫获取CV顶会论文相关推荐

  1. 小猿圈分享利用python网络爬虫获取网易云歌词

    今天小猿圈给大家分享网易云音乐歌词爬取方法. 本文的总体思路如下: 找到正确的URL,获取源码: 利用bs4解析源码,获取歌曲名和歌曲ID: 调用网易云歌曲API,获取歌词: 将歌词写入文件,并存入本 ...

  2. Python实现简单的爬虫获取某刀网的更新数据

    昨天晚上无聊时,想着练习一下Python所以写了一个小爬虫获取小刀娱乐网里的更新数据 #!/usr/bin/python # coding: utf-8import urllib.request im ...

  3. 利用Python网络爬虫获取分类图片,简单处理反爬教学

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 本文章来自腾讯云 作者:Python进阶者 想要学习Python?有问题得不到第一 ...

  4. python爬虫可以爬取个人信息吗_手把手教你利用Python网络爬虫获取旅游景点信息...

    爬虫系列: 当我们出去旅游时,会看这个地方有哪些旅游景点,景点价格.开放时间.用户的评论等. 本文基于Python网络爬虫技术,以hao123旅游网为例,获取旅游景点信息. 1.项目目标 获取网站的景 ...

  5. 想学爬虫的同学看过来,手把手教你利用Python网络爬虫获取APP推广信息

    一.前言 CPA之家app推广平台是国内很大的推广平台.该网址的数据信息高达数万条,爬取该网址的信息进行数据的分析. 二.项目目的 实现将获取到的QQ,导入excel模板,并生成独立的excel文档. ...

  6. 手把手教你利用Python网络爬虫获取链家网的房产信息

    点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 夜阑卧听风吹雨,铁马冰河入梦来. ...

  7. python链家网爬虫_手把手教你利用Python网络爬虫获取链家网的房产信息

    点击上方" Python爬虫与数据挖掘 ",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 夜阑卧听风吹雨,铁马冰河入梦来 ...

  8. python网络爬虫_一篇文章教会你利用Python网络爬虫获取穷游攻略

    点击上方"IT共享之家",进行关注 回复"资料"可获赠Python学习福利 [一.项目背景] 穷游网提供原创实用的出境游旅行指南.攻略,旅行社区和问答交流平台, ...

  9. python3爬虫有道翻译_一篇文章教会你利用Python网络爬虫获取有道翻译手机版的翻译接口...

    [一.项目背景] 有道翻译作为国内最大的翻译软件之一,用户量巨大.在学习时遇到不会的英语词汇,会第一时间找翻译,有道翻译就是首选.今天教大家如何去获取有道翻译手机版的翻译接口. ![image](ht ...

最新文章

  1. 【LeetCode从零单排】No189 .Rotate Array
  2. android router不起作用,给 Arouter 优化的一些小建议
  3. 使用Certbot 生成 https 证书
  4. 200多个js技巧代码
  5. 多核编程与单核多线程编程
  6. React路由组件传递参数
  7. LeetCode 2. 两数相加(单链表反转)
  8. python如何删除对象属性_如何优雅的删除对象中的指定属性?
  9. mysql主主复制和mha_MySQL第二章主从复制MHA高可用
  10. 如何避免大数据分析的失误
  11. 制作pdf文档书签,自动生成or根据目录生成
  12. mysql 生成假数据_一个好玩的假数据生成器mimesis
  13. linux抓包工具分析工具下载,Linux下抓包工具tcpdump以及分析包的工具wireshark
  14. Spring Cloud
  15. unity材质球发光_为Unity3D创建素材(1):图片、着色器、材质球
  16. oracle18c静默安装教程,Oracle 18c 通过 RPM 包安装数据库示例
  17. 浏览器服务器协议,浏览器工作原理之HTTP协议
  18. 全网爆火五款高性能旗舰蓝牙耳机推荐,平价高音质蓝牙耳机
  19. 浅谈IT行业加班有没有价值
  20. 本题要求对任意给定的一位正整数N,输出从1*1到N*N的部分口诀表。

热门文章

  1. 使用Matlab对矩阵元素进行大小排序(开源)
  2. js中offset、client、scroll【总结】
  3. Swing MVC设计模式
  4. 【JY】YJK前处理参数详解及常见问题分析(一)
  5. DSP、SSP、RTB的理解--计算广告
  6. 51单片机之看门狗定时器ing STC12C5A60S2
  7. 微信小程序实现大转盘抽奖----踩坑之路
  8. 网易163vip邮箱、163.net邮箱、新浪vip邮箱、QQ邮箱,哪款更符合商务邮件的需求
  9. 手工卡纸做机器人_折纸大全手把手教你安卓机器人的手工制作教程
  10. [PTA]实验3-4 统计字符