关键词词云怎么做_制作CVPR 热词云(并爬取pdf地址 名称)
#!/usr/bin/python #这里是解释器位置和python版本#-*- coding: utf-8 -*- #编码格式
"""@author: CuiXingYu
@contact: a15931829662@163.com
@software: PyCharm
@file: CVPR.py
@time: 2020/4/17 19:36"""
importreimportrequestsimportpymysqldefget_context(url):"""params:
url: link
return:
web_context"""web_context=requests.get(url)returnweb_context.textdefget_conn():"""建立数据库连接
:return:"""conn=pymysql.connect(#本机IP地址
host='127.0.0.1',#数据库用户名
user='root',#密码
password='101032',#需要操作的数据库名称
db='db_database07',
)#cursor对象 可以进行sql语句执行 和 获得返回值
cursor=conn.cursor()returnconn,cursordefclose_conn(conn,cursor):"""关闭连接
:param conn: 连接对象
:param cursor: cursor对象
:return:"""
ifcursor:
cursor.close()ifconn:
conn.close()defget_name():"""获取论文的名字 url 地址
:return:"""conn,cursor=get_conn()
url= 'http://openaccess.thecvf.com//CVPR2019.py'web_context=get_context(url)#find paper files
'''(?<=href=\"): 寻找开头,匹配此句之后的内容
.+: 匹配多个字符(除了换行符)
?pdf: 匹配零次或一次pdf
(?=\">pdf): 以">pdf" 结尾
|: 或'''info=[]#link pattern: href="***_CVPR_2019_paper.pdf">pdf
link_list = re.findall(r"(?<=href=\").+?pdf(?=\">pdf)|(?<=href=\').+?pdf(?=\">pdf)", web_context)#name pattern: ***
name_list = re.findall(r"(?<=2019_paper.html\">).+(?=)", web_context)for one,two inzip(name_list,link_list):
info.append([one,two])#sql语句 对数据库进行操作
sql = "insert into paperinfo(name,url) values(%s,%s)"
try:#执行sql语句
cursor.executemany(sql,info)
conn.commit()except:
conn.rollback()
close_conn(conn, cursor)defsaveContent_list(hotword ,number):"""插入数据库
:param hotword: 单词
:param number: 数量
:return:"""
#打开数据库连接(ip/数据库用户名/登录密码/数据库名)
conn,cursor=get_conn()
sql="insert into hotword (hotword,number) values (%s,%s)"val=(hotword,number)
cursor.execute(sql,val)#使用 fetchone() 方法获取数据.
conn.commit()#关闭数据库连接(别忘了)
conn.close()defget_hotword():"""爬取热词并统计数目
:return:"""url= 'http://openaccess.thecvf.com//CVPR2019.py'web_context=get_context(url)
name_list= re.findall(r"(?<=2019_paper.html\">).+(?=)", web_context)
text= " "
for word inname_list:
text= text +word
word=text.split()
word_dict={}for w inword:if w not inword_dict:
word_dict[w]= 1
else:
word_dict[w]= word_dict[w] + 1a= sorted(word_dict.items(), key=lambda item: item[1], reverse=True)#sql语句 对数据库进行操作
for x ina:try:
word=x[0]
num=x[1]
saveContent_list(word,num)except:print("失败")
get_hotword()
get_name()
关键词词云怎么做_制作CVPR 热词云(并爬取pdf地址 名称)相关推荐
- 关键词词云怎么做_《excle词云怎么制作》 除了tableau ,还有什么数据工具可以制作词云啊?...
词云可以用哪些编程语言制作? Python有专门的库,十分方便,简单,wordcloud.教程链接Python词库入门教程 别的语言我就不知道了 怎么把词频排名前50 的绘制词云 试一下 优词www. ...
- python爬虫公众号_python爬虫_微信公众号推送信息爬取的实例
问题描述 利用搜狗的微信搜索抓取指定公众号的最新一条推送,并保存相应的网页至本地. 注意点 搜狗微信获取的地址为临时链接,具有时效性. 公众号为动态网页(JavaScript渲染),使用request ...
- python微信爬取教程_python爬虫_微信公众号推送信息爬取的实例
问题描述 利用搜狗的微信搜索抓取指定公众号的最新一条推送,并保存相应的网页至本地. 注意点 搜狗微信获取的地址为临时链接,具有时效性. 公众号为动态网页(JavaScript渲染),使用request ...
- python微信公众号推送_python爬虫_微信公众号推送信息爬取的实例
问题描述 利用搜狗的微信搜索抓取指定公众号的最新一条推送,并保存相应的网页至本地. 注意点 搜狗微信获取的地址为临时链接,具有时效性. 公众号为动态网页(JavaScript渲染),使用request ...
- python爬取公交车站数据_Python爬虫实例_城市公交网络站点数据的爬取方法
爬取的站点:http://beijing.8684.cn/ (1)环境配置,直接上代码: # -*- coding: utf-8 -*- import requests ##导入requests fr ...
- 关键词词云怎么做_用Tagxedo在线制作个性化词云
词云,或者叫文字云,就是对网络文本中出现频率较高的"关键词"予以视觉上的突出,形成"关键词云层"或"关键词渲染",从而过滤掉大量的文本信息, ...
- python爬取微博数据词云_爬虫篇:使用Python动态爬取某大V微博,再用词云分析...
这是我用大V冯大辉老师最近5000多条微博内容做的词云,大家可以围观一下. 之前也写了一篇用python 来爬取朋友的QQ说说,大家也可以围观一下 好了,开始进入正题:#coding:utf-8 &q ...
- 云合影程序_活动回顾丨阿里云ACE同城会开发者云workshop圆满落幕
7月25日下午,阿里云ACE同城会开发者云workshop在浦东国际人才港举办.本次活动由阿里云开发者社区ACE同城会.浦东国际人才发展中心共同主办,阿里云创新中心(张江)基地协办,有八十余位企业工程 ...
- 云服务器饥荒_运用双腾讯云搭建《饥荒》多人联机服务器
对于一个喜欢玩游戏的人来说,<饥荒>我想大家很多人都玩过,在玩的时候,我们都会搭建一个服务器来和朋友一起玩,今天在腾云阁看到一篇文章,如何运用双腾讯云搭建<饥荒>实现多人联机服 ...
最新文章
- 静态类和非静态类中静态变量
- 第20月第4天 pycharm utf-8
- Java中的数组数据结构需要了解的要点
- Gradle 引入本地定制 jar 包,而不使用坐标下载 jar 包的方法
- [delphi]极域学生端解除键盘鼠标锁定退出全屏广播-强制窗口化-源代码
- 2019年应届生平均起薪5610元 一线城市吸引力首次跌破30%
- 使用python将数据存入SQLite3数据库
- I2C与SPI通信总线协议
- LM NTLM ophcrack RainBow table (转)
- 《学习OpenCV3》第2章 OpenCV初探
- Ms Excel 2010合并单元格方法
- Swing的Look And Feel机制研究
- 图像处理(四) Sobel边缘检测与canny边缘检测对比
- java使用aspose-words组件word转换图片
- 用tnl实现高可信赖的对象同步机制
- 手机麻将java开发_2019手机麻将游戏是怎么开发出来的
- @synthesize@dynamic@private,@protected,@publicassign、weak、strong、retain、copy、nonatomic、atomic
- 使用windows命令行 启动WeGame
- 缓冲技术之二:缓冲池BufferPool的简单实现
- 苹果手机有护眼模式吗_睡觉前忍不住刷手机?除了夜间模式,这些护眼小技巧赶快收好!...
热门文章
- php ajax工作原理,AJAX实现页面无刷新操作原理解析
- Android Service介绍
- C++的decltype()的介绍
- rimraf --A deep deletion module for node (like `rm -rf`)
- rc.local自启动学习
- linux系统下如何禁止ping命令或允许ping命令的方法
- 向不支持输入法的软件输入中文
- WIN2003下×××服务器架设攻略
- C# Bitmap类型与Byte[]类型相互转化
- 关于C# Winform DataGridView 设置DefaultCellStyle无效的原因与解决方案