#!/usr/bin/python #这里是解释器位置和python版本#-*- coding: utf-8 -*- #编码格式

"""@author: CuiXingYu

@contact: a15931829662@163.com

@software: PyCharm

@file: CVPR.py

@time: 2020/4/17 19:36"""

importreimportrequestsimportpymysqldefget_context(url):"""params:

url: link

return:

web_context"""web_context=requests.get(url)returnweb_context.textdefget_conn():"""建立数据库连接

:return:"""conn=pymysql.connect(#本机IP地址

host='127.0.0.1',#数据库用户名

user='root',#密码

password='101032',#需要操作的数据库名称

db='db_database07',

)#cursor对象 可以进行sql语句执行 和 获得返回值

cursor=conn.cursor()returnconn,cursordefclose_conn(conn,cursor):"""关闭连接

:param conn: 连接对象

:param cursor: cursor对象

:return:"""

ifcursor:

cursor.close()ifconn:

conn.close()defget_name():"""获取论文的名字 url 地址

:return:"""conn,cursor=get_conn()

url= 'http://openaccess.thecvf.com//CVPR2019.py'web_context=get_context(url)#find paper files

'''(?<=href=\"): 寻找开头,匹配此句之后的内容

.+: 匹配多个字符(除了换行符)

?pdf: 匹配零次或一次pdf

(?=\">pdf): 以">pdf" 结尾

|: 或'''info=[]#link pattern: href="***_CVPR_2019_paper.pdf">pdf

link_list = re.findall(r"(?<=href=\").+?pdf(?=\">pdf)|(?<=href=\').+?pdf(?=\">pdf)", web_context)#name pattern: ***

name_list = re.findall(r"(?<=2019_paper.html\">).+(?=)", web_context)for one,two inzip(name_list,link_list):

info.append([one,two])#sql语句 对数据库进行操作

sql = "insert into paperinfo(name,url) values(%s,%s)"

try:#执行sql语句

cursor.executemany(sql,info)

conn.commit()except:

conn.rollback()

close_conn(conn, cursor)defsaveContent_list(hotword ,number):"""插入数据库

:param hotword: 单词

:param number: 数量

:return:"""

#打开数据库连接(ip/数据库用户名/登录密码/数据库名)

conn,cursor=get_conn()

sql="insert into hotword (hotword,number) values (%s,%s)"val=(hotword,number)

cursor.execute(sql,val)#使用 fetchone() 方法获取数据.

conn.commit()#关闭数据库连接(别忘了)

conn.close()defget_hotword():"""爬取热词并统计数目

:return:"""url= 'http://openaccess.thecvf.com//CVPR2019.py'web_context=get_context(url)

name_list= re.findall(r"(?<=2019_paper.html\">).+(?=)", web_context)

text= " "

for word inname_list:

text= text +word

word=text.split()

word_dict={}for w inword:if w not inword_dict:

word_dict[w]= 1

else:

word_dict[w]= word_dict[w] + 1a= sorted(word_dict.items(), key=lambda item: item[1], reverse=True)#sql语句 对数据库进行操作

for x ina:try:

word=x[0]

num=x[1]

saveContent_list(word,num)except:print("失败")

get_hotword()

get_name()

关键词词云怎么做_制作CVPR 热词云(并爬取pdf地址 名称)相关推荐

  1. 关键词词云怎么做_《excle词云怎么制作》 除了tableau ,还有什么数据工具可以制作词云啊?...

    词云可以用哪些编程语言制作? Python有专门的库,十分方便,简单,wordcloud.教程链接Python词库入门教程 别的语言我就不知道了 怎么把词频排名前50 的绘制词云 试一下 优词www. ...

  2. python爬虫公众号_python爬虫_微信公众号推送信息爬取的实例

    问题描述 利用搜狗的微信搜索抓取指定公众号的最新一条推送,并保存相应的网页至本地. 注意点 搜狗微信获取的地址为临时链接,具有时效性. 公众号为动态网页(JavaScript渲染),使用request ...

  3. python微信爬取教程_python爬虫_微信公众号推送信息爬取的实例

    问题描述 利用搜狗的微信搜索抓取指定公众号的最新一条推送,并保存相应的网页至本地. 注意点 搜狗微信获取的地址为临时链接,具有时效性. 公众号为动态网页(JavaScript渲染),使用request ...

  4. python微信公众号推送_python爬虫_微信公众号推送信息爬取的实例

    问题描述 利用搜狗的微信搜索抓取指定公众号的最新一条推送,并保存相应的网页至本地. 注意点 搜狗微信获取的地址为临时链接,具有时效性. 公众号为动态网页(JavaScript渲染),使用request ...

  5. python爬取公交车站数据_Python爬虫实例_城市公交网络站点数据的爬取方法

    爬取的站点:http://beijing.8684.cn/ (1)环境配置,直接上代码: # -*- coding: utf-8 -*- import requests ##导入requests fr ...

  6. 关键词词云怎么做_用Tagxedo在线制作个性化词云

    词云,或者叫文字云,就是对网络文本中出现频率较高的"关键词"予以视觉上的突出,形成"关键词云层"或"关键词渲染",从而过滤掉大量的文本信息, ...

  7. python爬取微博数据词云_爬虫篇:使用Python动态爬取某大V微博,再用词云分析...

    这是我用大V冯大辉老师最近5000多条微博内容做的词云,大家可以围观一下. 之前也写了一篇用python 来爬取朋友的QQ说说,大家也可以围观一下 好了,开始进入正题:#coding:utf-8 &q ...

  8. 云合影程序_活动回顾丨阿里云ACE同城会开发者云workshop圆满落幕

    7月25日下午,阿里云ACE同城会开发者云workshop在浦东国际人才港举办.本次活动由阿里云开发者社区ACE同城会.浦东国际人才发展中心共同主办,阿里云创新中心(张江)基地协办,有八十余位企业工程 ...

  9. 云服务器饥荒_运用双腾讯云搭建《饥荒》多人联机服务器

    对于一个喜欢玩游戏的人来说,<饥荒>我想大家很多人都玩过,在玩的时候,我们都会搭建一个服务器来和朋友一起玩,今天在腾云阁看到一篇文章,如何运用双腾讯云搭建<饥荒>实现多人联机服 ...

最新文章

  1. 静态类和非静态类中静态变量
  2. 第20月第4天 pycharm utf-8
  3. Java中的数组数据结构需要了解的要点
  4. Gradle 引入本地定制 jar 包,而不使用坐标下载 jar 包的方法
  5. [delphi]极域学生端解除键盘鼠标锁定退出全屏广播-强制窗口化-源代码
  6. 2019年应届生平均起薪5610元 一线城市吸引力首次跌破30%
  7. 使用python将数据存入SQLite3数据库
  8. I2C与SPI通信总线协议
  9. LM NTLM ophcrack RainBow table (转)
  10. 《学习OpenCV3》第2章 OpenCV初探
  11. Ms Excel 2010合并单元格方法
  12. Swing的Look And Feel机制研究
  13. 图像处理(四) Sobel边缘检测与canny边缘检测对比
  14. java使用aspose-words组件word转换图片
  15. 用tnl实现高可信赖的对象同步机制
  16. 手机麻将java开发_2019手机麻将游戏是怎么开发出来的
  17. @synthesize@dynamic@private,@protected,@publicassign、weak、strong、retain、copy、nonatomic、atomic
  18. 使用windows命令行 启动WeGame
  19. 缓冲技术之二:缓冲池BufferPool的简单实现
  20. 苹果手机有护眼模式吗_睡觉前忍不住刷手机?除了夜间模式,这些护眼小技巧赶快收好!...

热门文章

  1. php ajax工作原理,AJAX实现页面无刷新操作原理解析
  2. Android Service介绍
  3. C++的decltype()的介绍
  4. rimraf --A deep deletion module for node (like `rm -rf`)
  5. rc.local自启动学习
  6. linux系统下如何禁止ping命令或允许ping命令的方法
  7. 向不支持输入法的软件输入中文
  8. WIN2003下×××服务器架设攻略
  9. C# Bitmap类型与Byte[]类型相互转化
  10. 关于C# Winform DataGridView 设置DefaultCellStyle无效的原因与解决方案