SDU创新实训 9.创建各类文件数据汇总整理
1.图数据库插入数据
小组成员马龙飞根据爬虫爬取10w条数据,我对其进行数据分析,分解成三个文件,用于图数据库数据的插入。
- keyword_node.csv
关键词节点的属性文件
- author_node.csv
作者节点的属性文件
- paper_node.csv
,title,author,keyword,srcDatabase,source,download,quote,year,url
文章节点的属性文件
- authorNet.csv
作者共现网络
,name,name2
0,闫志明,唐夏夏
1,闫志明,秦旋
keywordNet.csv
关键词共现网络
,name,name2
0,人工智能,产业结构转型
1,人工智能,劳动收入份额
- paper_author_relation.csv
文章与作者的关系
- paper_keyword_relation.csv
文章与关键词关系
,name,relation,name2
0,人工智能发展、产业结构转型升级与劳动收入份额变动,keyword,人工智能
1,人工智能发展、产业结构转型升级与劳动收入份额变动,keyword,产业结构转型
2,人工智能发展、产业结构转型升级与劳动收入份额变动,keyword,劳动收入份额
2.知识问答文件
- question_classification.txt
问答分类模板
1:nnt 作者作品
2:nnt 关键词找文章
- label.txt
问答问题库训练集
3.项目自定义字典
用于词性标注,命名实体识别
- userdict.txt
工程训练中心 15 ngg
pan-sharpening 15 ngg
四面体坐标系 15 ngg
视频营销 15 ngg
4.训练模型
- id_doc.json
- idf.json
- inverted.json
三个全都是用来构建搜索引擎,分别是
inverted = {} # 记录词所在文档及词频idf = {} # 词的逆文档频率id_doc = {} # 文档与词的对应关系py
- clf.pickle
朴素贝叶斯分类器模型
- tv.pickle
TF-IDF模型
SDU创新实训 9.创建各类文件数据汇总整理相关推荐
- 创新实训(2)-Scrapy 学习
创新实训(2)-Scrapy 学习 参考资料:Scrapy 0.25 文档 1.Scrapy简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理 ...
- 创新实训-python爬虫多线程|解决中文乱码问题|卡片向上浮动效果|图文切换
创新实训-python爬虫多线程|乱码问题|前端样式重新修改 考完毛概,把上周的工作总结一下.爬虫在第一周的时候只爬了一个就业指导这一个模块,这一次又加了招聘服务模块,所以就用了两个线程.前端首页一开 ...
- 山东大学软件学院项目实训-创新实训-SDUMeeting(三)
山东大学软件学院项目实训-创新实训-SDUMeeting(三) 山大会议项目web安全之文件注入防护 一.前言 山大会议的客户端加入了对用户自定义头像的支持,需要用户自行上传头像图片,这个过程存在文件 ...
- 实训项目2Linux基本命令,实训项目2 Linux文件系统管理
实训项目2 Linux文件系统管理 发布时间:2011-06-24 15:51:10来源:红联作者:397778823 一. 实训目的: 1. 掌握磁盘分区的方法: 2. 掌握文件系统的建立.挂装.解 ...
- 山东大学软件学院项目实训-创新实训-SDUMeeting(一)
山东大学软件学院项目实训-创新实训-SDUMeeting(一) 一.前言: 这个项目是山东大学视频会议项目,这个项目基于webrtc构建多人视频会议系统,我负责视频会议客户端及服务端安全防护,这个专栏 ...
- 创新实训项目分析——第十三篇
2021SC@SDUSC 目录 前言 一.项目环境 二.代码分析 1.透视变换,矫正图像 2.为按钮添加监听,完善功能 三.总结 前言 对于图片抗扭曲功能算法的实现,可以划分为以下任务: 1.采⽤寻找 ...
- 创新实训个人记录 : 个人工作总结
创新实训个人记录 : 个人工作总结 分条目.分进度总结个人工作 阅读书籍(6.8-6.18) 近似算法设计(6.19-6.27) 程序验证(6.28-7.1) 工作难点 接触近似算法领域,学习新知识 ...
- 创新实训个人记录:approximation factor, maximum matchingvertex cover
创新实训个人记录:approximation factor, maximum matching&&vertex cover approximation factor(近似比) maxi ...
- 创新实训个人记录:P versus NP
创新实训个人记录:P versus NP computation&&computable&& computational efficiency 一些符号 decision ...
最新文章
- Gradle's dependency cache may be corrupt解决方法
- C++中使用new和delete运算符实现二维数组的操作
- Android学习建议
- 父组件向子组件传递数据
- C#委托四(匿名方法)
- 全网最全Linux常用命令
- C++实现获取汉字拼音首字母
- Android重拾设计模式系列——简单工厂模式
- python菜鸟编程-Python 基础教程 | 菜鸟教程
- linux设备驱动模型架构分析 一
- 开源设计和原型制作平台Penpot
- HTML5期末大作业:红酒销售网页网站设计——品牌红酒销售网页模板(4页) html网页设计期末大作业_网页设计平时作业
- jdk,jre,jvm的包含关系
- mac安装破解idea
- 这是病,得治,懂吗?
- 大数据心法来了!一站式玩转MaxCompute
- c语言初级小游戏 · 闯关小鸟 | 激发你的编程兴趣(115行左右代码)
- Python 实验题目:字符串格式化输出内容为:姓名:张三,学号:1101,张三的平均分为90.65分。(平均分的原始值为:90.6497)
- 正在运行的dll文件怎么删除?
- java小技能:集成开发工具(IDE)
热门文章
- 魔兽世界无法连接语音聊天服务器,玩家感悟:你不知道的那个“上不了语音的人” - 178魔兽世界专区...
- 简单单据打印和列表打印开发
- python轻松入门——爬取豆瓣Top250时出现403报错(418报错,爬虫)
- 纳斯达克和CryptoCompare合作开发面向机构的加密定价产品
- ios与android设备即时语音互通的录音格式
- 美团大数据平台架构实践
- 我从建筑工程施工员转行成了数据分析师| 求职分享
- html5随机圆不重叠,利用canvas在一个盒子里画不重叠的圆,
- Design the Web: Control Colors in Photoshop with SmartObjects Photoshop网页设计教程之如何用智能对象控制色彩 Lynda课程中文
- nextcloud如何安装app