图1 大赛产业命题赛道部分命题

如图1所示,产业命题赛道就好比命题作文,选题都是一些真实企业(如华为)提前定好的,参赛选手必须在命题要求的范围内按照要求进行准备。

这些命题直观上令人感觉到十分前沿,大部分都要求应用新技术,如区块链等,颇具难度。

作者对命题方向的分布十分感兴趣,于是爬取了所有命题题目,并对其进行分词,然后计算词频,并进行可视化呈现,直观准确地获得了命题方向的大概分布情况。

1 整体思路

图2 整体思路流程图

2 项目实施

2.1 爬取题目

import requests
from lxml import etree
import pandas as pd
import jieba
import matplotlib.pyplot as pltword_list = [] # 用来储存分好的词
stopword_list = [] # 停用词列表,用来排除分好的词中虚词等无意义的词for i in range(8):url = 'https://cy.ncss.cn/mtcontest/mingtilist?pageIndex='+str(i)+'&pageSize=30&companyName=&name='headers={'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.100 Safari/537.36','Host':'cy.ncss.cn'}text = requests.get(url = url, headers = headers).texthtml = etree.HTML(text)title = html.xpath('//div[@class="cyyq-title"]//text()')

需要注意的是,目标网页通过ajax加载数据,需要通过chrome浏览器分析出发送ajax请求后的新url进行请求,不然无法获得目标数据。

2.2 分词操作

    for item in title: # 接上面的代码段for word in jieba.lcut(item,cut_all = False, HMM=True):word_list.append(word)
with open('stopword.txt', encoding='utf-8') as f:for line in f.readlines():stopword_list.append(line.strip('\n'))
word_list = [w for w in word_list if w not in stopword_list]

利用jieba库进行中文分词,分词后导入停用词表删除无效的虚词、标点符号等无意义词。

2.3 词频统计

df = pd.DataFrame(word_list)
table = pd.DataFrame(df.iloc[:,0].value_counts())

转化为DataFrame格式,利用其自带的方法进行词频统计。

2.4 画条形图

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
plt.bar(range(50),table.iloc[0:50,0].values.tolist(), align='center', color='b')
plt.xticks(range(50),table.iloc[0:50,0].index, rotation=45,fontsize=13)
plt.xlabel('关键词',labelpad=10)
plt.ylabel('频次',labelpad=20)
plt.title('产业赛道命题关键词频次',pad=30)
plt.show()

最后进行可视化操作,以条形图展现词频最高的前五十个词。

3 结果展示

3.1 词频最高的前五十个词条形图

图3  词频最高的前五十个词条形图

如图所示,词频超过20频次的词分别是智能、智慧、技术、AI。由此可见产业命题赛道非常重视技术,尤其是人工智能方向的新技术,现阶段具体而言包括但不限于自然语言处理,知识表现,智能搜索,推理,规划,机器学习,知识获取,组合调度问题,感知问题,模式识别,逻辑程序设计软计算,不精确和不确定的管理,人工生命,神经网络,复杂系统,遗传算法等。

词频在10到20之间的词分别是系统、平台、创新、新、设计、解决方案、方案、工业、开发、识别、材料。首先,系统、平台、解决方案、方案是结果形式,这说明产业命题赛道大多要求参赛选手最终结果以这些方式呈现。创新、新是原则要求,说明参赛选手最终结果应该要有创新点。设计、开发是方法,指设计程序,开发系统、平台等,对应结果形式。工业、识别、材料是方向,其中识别属于人工智能技术中的深度学习领域,工业主要指工业4.0,主要内容一是“智能工厂”,重点研究智能化生产系统及过程,以及网络化分布式生产设施的实现;二是“智能生产”,主要涉及整个企业的生产物流管理、人机互动以及3D技术在工业生产过程中的应用等。该计划将特别注重吸引中小企业参与,力图使中小企业成为新一代智能化生产技术的使用者和受益者,同时也成为先进工业生产技术的创造者和供应者;三是“智能物流”,主要通过互联网、物联网、物流网,整合物流资源,充分发挥现有物流资源供应方的效率,而需求方,则能够快速获得服务匹配,得到物流支持。也指向新技术,重点在于技术的迁移和应用。材料是材料科学与工程方向,主要研究一是粉末冶金新理论、新技术;二是相图研究与材料设计;三是粉末冶金特种新材料;四是有色、稀有金属材料的合金化理论及新材料开发;五是现代高性能符合材料;六是有色金属功能材料。 六个研究方向的共同特色是:研究内容隶属学科前沿课题和国际热点研究课题,具有创新性;紧密结合国民经济建设主战场,实用性强;每个研究方向都有国家级或省部委级重点项目的支撑,实施过程可靠性高;有一支结构合理的高水平学术队伍和良好的研究条件,可实现预期研究目标,并具有可持续发展的良好前景

10以下词频较高的词中,数据、云、互联网等均体现大赛对信息技术的要求。区块链作为近年来比较火的领域也榜上有名,此外乡村振兴作为关键词也占据一席之地,可以体现国家政策的作用。而振兴乡村的最有利武器仍然是新技术,因为新技术具有高效率,往往成本低。

3.2 词频最高的前三十个词表格

表1

词频
智能 26
智慧 24
技术 23
AI 20
系统 19
平台 19
创新 18
16
设计 16
解决方案 16
方案 14
工业 11
开发 11
识别 10
材料 10
检测 9
数据 9
场景 8
7
研发 7
互联网 7
管理 7
乡村 6
区块 6
产业化 6
6
能力 6
方向 6
自动 6

“互联网+”大学生创新创业大赛产业命题赛道命题方向分析相关推荐

  1. 31道飞桨命题入围|第八届中国国际“互联网+”大学生创新创业大赛产业赛道命题公布

    本文已在飞桨公众号发布,查看请戳链接: 31道飞桨命题入围|第八届中国国际"互联网+"大学生创新创业大赛产业赛道命题公布 2022年5月30日,中国国际"互联网+&quo ...

  2. 2022第八届中国国际“互联网+”大学生创新创业大赛产业命题赛道开启报名!

    葫芦儿·派盘 产业赛道命题说明 4月12日,教育部发布<关于举办第八届中国国际"互联网+"大学生创新创业大赛的通知>,大赛由教育部.中央统战部.中央网络安全和信息化委员 ...

  3. 第八届中国国际“互联网+”大学生创新创业大赛介绍

    简介:阿里云与你一起数字创新.永无止境! 历经十余年艰苦创业历程,阿里云完成了中国云计算从 0 到 1 的关键核心技术突破,自主研发了服务全球.超大规模的通用云操作系统--飞天,成为我国基础软件领域的 ...

  4. 中国国际“互联网+”大学生创新创业大赛 武汉理工大学总决赛斩获双金

    10月13日,第七届中国国际"互联网+"大学生创新创业大赛总决赛在南昌大学拉开帷幕. 中国国际"互联网+"大学生创新创业大赛是由李克强总理提议举办,教育部等十二 ...

  5. “互联网+”大学生创新创业大赛概述

    CSDN话题挑战赛第1期 活动详情地址:https://marketing.csdn.net/p/bb5081d88a77db8d6ef45bb7b6ef3d7f 参赛话题:大学生竞赛指南 话题描述: ...

  6. 中国“互联网+”大学生创新创业大赛“的实施方案及评审规则

    目录 前言 一.总体要求 (一)指导思想 (二)基本要求 (三)总体目标 二.主要任务和措施 (一)提升师资水平 1.增强教师创新创业教育的意识和能力 2.鼓励教师开设创新创业课程和指导创新创业实践 ...

  7. “互联网+”大学生创新创业大赛总决赛清华大学夺冠

    清华大学夺冠 10月14日,在第五届中国"互联网+"大学生创新创业大赛总决赛冠军争夺赛上,经过激烈角逐,来自清华大学的"交叉双旋翼复合推力尾桨无人直升机"创业团 ...

  8. “互联网+”大学生创新创业大赛经历

    一.目标任务 中国"互联网+"大学生创新创业大赛是含金量比较高的比赛 二.参赛项目类型 参赛项目能够将移动互联网.云计算.大数据.人工智能.物联网.下一代通讯技术等新─代信息技术与 ...

  9. 计算机科学学院参加些什么比赛,计算机科学学院成功举办 “互联网+”大学生创新创业大赛宣讲会...

    2019年4月2日晚七点,由西安工程大学计算机科学学院主办,院科技协会承办的"互联网+"大学生创新创业大赛宣讲活动于临潼校区B133教室举办.科技协会主席宁大力.科创部部长冯琪.王 ...

最新文章

  1. 前后端分离的探索(四)
  2. 猜数字游戏:随机键盘录入一个数字,看是否能猜正确
  3. CSS设置七彩的下拉菜单
  4. What?Java这么神奇的lambda表达式
  5. wxWidgets:wxIconizeEvent类用法
  6. Mozilla裁员波及Daala Codec团队
  7. 浅谈前端路由原理hash和history
  8. Sysmon勘验、分析现场(主机监控)
  9. microsoft visual c++ 编译c语言,Microsoft Visual C++ 程序的部署方法
  10. bagging算法_Bagging/Boosting傻傻分不清?来一探究竟吧~
  11. 算法导论 练习12.1
  12. 如何列出mongo shell中的所有集合?
  13. 鸿蒙系统主题如何自定义,华为鸿蒙系统细节曝光 支持自定义选项
  14. ENVI遥感图像处理方法(第二版) 邓书斌 及实验数据
  15. 简体字和繁体字转换四种方法
  16. 网站服务器 80端口吗,你的服务器打开IIS80端口了吗?
  17. 开篇: 高扩展网页制作平台 码良的正确打开方式
  18. 什么是SaaS?SaaS系统有什么特征?
  19. 计算机应用基础单选题10an,计算机应用基础10考(附答案).doc
  20. html适配手机 响应式,移动端适配(响应式)

热门文章

  1. python中英文混合字符串对齐
  2. journalctl 日志查看方法
  3. 动态链接一:ELF文件格式
  4. 【产业互联网周报】国内云计算厂商加紧布局:华为新成立云计算公司运营国内业务、阿里云入驻上海新研发中心...
  5. PictureSelector(强大的图片选择器)
  6. 英文英语写信给老外要原始数据 通讯作者原始数据 问通讯作者要数据
  7. 汇编习题之某机指令字长16位,共有单地址指令和双地址指令两类,若每个地址字段均为5位,且双地址指令已用了X条,问单地址指令最多可以有多少条?
  8. FAT16文件系统之DBR(二)
  9. Mac安装淘宝镜像权限问题的解决方式
  10. 通过环路分析仪得到系统的闭环传递函数方法(Matlab System Identification)