“互联网+”大学生创新创业大赛产业命题赛道命题方向分析
图1 大赛产业命题赛道部分命题
如图1所示,产业命题赛道就好比命题作文,选题都是一些真实企业(如华为)提前定好的,参赛选手必须在命题要求的范围内按照要求进行准备。
这些命题直观上令人感觉到十分前沿,大部分都要求应用新技术,如区块链等,颇具难度。
作者对命题方向的分布十分感兴趣,于是爬取了所有命题题目,并对其进行分词,然后计算词频,并进行可视化呈现,直观准确地获得了命题方向的大概分布情况。
1 整体思路
图2 整体思路流程图
2 项目实施
2.1 爬取题目
import requests
from lxml import etree
import pandas as pd
import jieba
import matplotlib.pyplot as pltword_list = [] # 用来储存分好的词
stopword_list = [] # 停用词列表,用来排除分好的词中虚词等无意义的词for i in range(8):url = 'https://cy.ncss.cn/mtcontest/mingtilist?pageIndex='+str(i)+'&pageSize=30&companyName=&name='headers={'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.100 Safari/537.36','Host':'cy.ncss.cn'}text = requests.get(url = url, headers = headers).texthtml = etree.HTML(text)title = html.xpath('//div[@class="cyyq-title"]//text()')
需要注意的是,目标网页通过ajax加载数据,需要通过chrome浏览器分析出发送ajax请求后的新url进行请求,不然无法获得目标数据。
2.2 分词操作
for item in title: # 接上面的代码段for word in jieba.lcut(item,cut_all = False, HMM=True):word_list.append(word)
with open('stopword.txt', encoding='utf-8') as f:for line in f.readlines():stopword_list.append(line.strip('\n'))
word_list = [w for w in word_list if w not in stopword_list]
利用jieba库进行中文分词,分词后导入停用词表删除无效的虚词、标点符号等无意义词。
2.3 词频统计
df = pd.DataFrame(word_list)
table = pd.DataFrame(df.iloc[:,0].value_counts())
转化为DataFrame格式,利用其自带的方法进行词频统计。
2.4 画条形图
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
plt.bar(range(50),table.iloc[0:50,0].values.tolist(), align='center', color='b')
plt.xticks(range(50),table.iloc[0:50,0].index, rotation=45,fontsize=13)
plt.xlabel('关键词',labelpad=10)
plt.ylabel('频次',labelpad=20)
plt.title('产业赛道命题关键词频次',pad=30)
plt.show()
最后进行可视化操作,以条形图展现词频最高的前五十个词。
3 结果展示
3.1 词频最高的前五十个词条形图
图3 词频最高的前五十个词条形图
如图所示,词频超过20频次的词分别是智能、智慧、技术、AI。由此可见产业命题赛道非常重视技术,尤其是人工智能方向的新技术,现阶段具体而言包括但不限于自然语言处理,知识表现,智能搜索,推理,规划,机器学习,知识获取,组合调度问题,感知问题,模式识别,逻辑程序设计软计算,不精确和不确定的管理,人工生命,神经网络,复杂系统,遗传算法等。
词频在10到20之间的词分别是系统、平台、创新、新、设计、解决方案、方案、工业、开发、识别、材料。首先,系统、平台、解决方案、方案是结果形式,这说明产业命题赛道大多要求参赛选手最终结果以这些方式呈现。创新、新是原则要求,说明参赛选手最终结果应该要有创新点。设计、开发是方法,指设计程序,开发系统、平台等,对应结果形式。工业、识别、材料是方向,其中识别属于人工智能技术中的深度学习领域,工业主要指工业4.0,主要内容一是“智能工厂”,重点研究智能化生产系统及过程,以及网络化分布式生产设施的实现;二是“智能生产”,主要涉及整个企业的生产物流管理、人机互动以及3D技术在工业生产过程中的应用等。该计划将特别注重吸引中小企业参与,力图使中小企业成为新一代智能化生产技术的使用者和受益者,同时也成为先进工业生产技术的创造者和供应者;三是“智能物流”,主要通过互联网、物联网、物流网,整合物流资源,充分发挥现有物流资源供应方的效率,而需求方,则能够快速获得服务匹配,得到物流支持。也指向新技术,重点在于技术的迁移和应用。材料是材料科学与工程方向,主要研究一是粉末冶金新理论、新技术;二是相图研究与材料设计;三是粉末冶金特种新材料;四是有色、稀有金属材料的合金化理论及新材料开发;五是现代高性能符合材料;六是有色金属功能材料。 六个研究方向的共同特色是:研究内容隶属学科前沿课题和国际热点研究课题,具有创新性;紧密结合国民经济建设主战场,实用性强;每个研究方向都有国家级或省部委级重点项目的支撑,实施过程可靠性高;有一支结构合理的高水平学术队伍和良好的研究条件,可实现预期研究目标,并具有可持续发展的良好前景
10以下词频较高的词中,数据、云、互联网等均体现大赛对信息技术的要求。区块链作为近年来比较火的领域也榜上有名,此外乡村振兴作为关键词也占据一席之地,可以体现国家政策的作用。而振兴乡村的最有利武器仍然是新技术,因为新技术具有高效率,往往成本低。
3.2 词频最高的前三十个词表格
表1
词频 | |
智能 | 26 |
智慧 | 24 |
技术 | 23 |
AI | 20 |
系统 | 19 |
平台 | 19 |
创新 | 18 |
新 | 16 |
设计 | 16 |
解决方案 | 16 |
方案 | 14 |
工业 | 11 |
开发 | 11 |
识别 | 10 |
材料 | 10 |
检测 | 9 |
数据 | 9 |
场景 | 8 |
云 | 7 |
研发 | 7 |
互联网 | 7 |
管理 | 7 |
乡村 | 6 |
区块 | 6 |
产业化 | 6 |
链 | 6 |
能力 | 6 |
方向 | 6 |
自动 | 6 |
“互联网+”大学生创新创业大赛产业命题赛道命题方向分析相关推荐
- 31道飞桨命题入围|第八届中国国际“互联网+”大学生创新创业大赛产业赛道命题公布
本文已在飞桨公众号发布,查看请戳链接: 31道飞桨命题入围|第八届中国国际"互联网+"大学生创新创业大赛产业赛道命题公布 2022年5月30日,中国国际"互联网+&quo ...
- 2022第八届中国国际“互联网+”大学生创新创业大赛产业命题赛道开启报名!
葫芦儿·派盘 产业赛道命题说明 4月12日,教育部发布<关于举办第八届中国国际"互联网+"大学生创新创业大赛的通知>,大赛由教育部.中央统战部.中央网络安全和信息化委员 ...
- 第八届中国国际“互联网+”大学生创新创业大赛介绍
简介:阿里云与你一起数字创新.永无止境! 历经十余年艰苦创业历程,阿里云完成了中国云计算从 0 到 1 的关键核心技术突破,自主研发了服务全球.超大规模的通用云操作系统--飞天,成为我国基础软件领域的 ...
- 中国国际“互联网+”大学生创新创业大赛 武汉理工大学总决赛斩获双金
10月13日,第七届中国国际"互联网+"大学生创新创业大赛总决赛在南昌大学拉开帷幕. 中国国际"互联网+"大学生创新创业大赛是由李克强总理提议举办,教育部等十二 ...
- “互联网+”大学生创新创业大赛概述
CSDN话题挑战赛第1期 活动详情地址:https://marketing.csdn.net/p/bb5081d88a77db8d6ef45bb7b6ef3d7f 参赛话题:大学生竞赛指南 话题描述: ...
- 中国“互联网+”大学生创新创业大赛“的实施方案及评审规则
目录 前言 一.总体要求 (一)指导思想 (二)基本要求 (三)总体目标 二.主要任务和措施 (一)提升师资水平 1.增强教师创新创业教育的意识和能力 2.鼓励教师开设创新创业课程和指导创新创业实践 ...
- “互联网+”大学生创新创业大赛总决赛清华大学夺冠
清华大学夺冠 10月14日,在第五届中国"互联网+"大学生创新创业大赛总决赛冠军争夺赛上,经过激烈角逐,来自清华大学的"交叉双旋翼复合推力尾桨无人直升机"创业团 ...
- “互联网+”大学生创新创业大赛经历
一.目标任务 中国"互联网+"大学生创新创业大赛是含金量比较高的比赛 二.参赛项目类型 参赛项目能够将移动互联网.云计算.大数据.人工智能.物联网.下一代通讯技术等新─代信息技术与 ...
- 计算机科学学院参加些什么比赛,计算机科学学院成功举办 “互联网+”大学生创新创业大赛宣讲会...
2019年4月2日晚七点,由西安工程大学计算机科学学院主办,院科技协会承办的"互联网+"大学生创新创业大赛宣讲活动于临潼校区B133教室举办.科技协会主席宁大力.科创部部长冯琪.王 ...
最新文章
- 前后端分离的探索(四)
- 猜数字游戏:随机键盘录入一个数字,看是否能猜正确
- CSS设置七彩的下拉菜单
- What?Java这么神奇的lambda表达式
- wxWidgets:wxIconizeEvent类用法
- Mozilla裁员波及Daala Codec团队
- 浅谈前端路由原理hash和history
- Sysmon勘验、分析现场(主机监控)
- microsoft visual c++ 编译c语言,Microsoft Visual C++ 程序的部署方法
- bagging算法_Bagging/Boosting傻傻分不清?来一探究竟吧~
- 算法导论 练习12.1
- 如何列出mongo shell中的所有集合?
- 鸿蒙系统主题如何自定义,华为鸿蒙系统细节曝光 支持自定义选项
- ENVI遥感图像处理方法(第二版) 邓书斌 及实验数据
- 简体字和繁体字转换四种方法
- 网站服务器 80端口吗,你的服务器打开IIS80端口了吗?
- 开篇: 高扩展网页制作平台 码良的正确打开方式
- 什么是SaaS?SaaS系统有什么特征?
- 计算机应用基础单选题10an,计算机应用基础10考(附答案).doc
- html适配手机 响应式,移动端适配(响应式)
热门文章
- python中英文混合字符串对齐
- journalctl 日志查看方法
- 动态链接一:ELF文件格式
- 【产业互联网周报】国内云计算厂商加紧布局:华为新成立云计算公司运营国内业务、阿里云入驻上海新研发中心...
- PictureSelector(强大的图片选择器)
- 英文英语写信给老外要原始数据 通讯作者原始数据 问通讯作者要数据
- 汇编习题之某机指令字长16位,共有单地址指令和双地址指令两类,若每个地址字段均为5位,且双地址指令已用了X条,问单地址指令最多可以有多少条?
- FAT16文件系统之DBR(二)
- Mac安装淘宝镜像权限问题的解决方式
- 通过环路分析仪得到系统的闭环传递函数方法(Matlab System Identification)