1.图数据库插入数据

小组成员马龙飞根据爬虫爬取10w条数据,我对其进行数据分析,分解成三个文件,用于图数据库数据的插入。

  • keyword_node.csv

关键词节点的属性文件

  • author_node.csv

作者节点的属性文件

  • paper_node.csv
,title,author,keyword,srcDatabase,source,download,quote,year,url

文章节点的属性文件

  • authorNet.csv

作者共现网络

,name,name2
0,闫志明,唐夏夏
1,闫志明,秦旋
  • keywordNet.csv

    关键词共现网络

,name,name2
0,人工智能,产业结构转型
1,人工智能,劳动收入份额
  • paper_author_relation.csv

文章与作者的关系

  • paper_keyword_relation.csv

文章与关键词关系

,name,relation,name2
0,人工智能发展、产业结构转型升级与劳动收入份额变动,keyword,人工智能
1,人工智能发展、产业结构转型升级与劳动收入份额变动,keyword,产业结构转型
2,人工智能发展、产业结构转型升级与劳动收入份额变动,keyword,劳动收入份额

2.知识问答文件

  • question_classification.txt

问答分类模板

1:nnt 作者作品
2:nnt 关键词找文章
  • label.txt

问答问题库训练集

3.项目自定义字典

用于词性标注,命名实体识别

  • userdict.txt
工程训练中心 15 ngg
pan-sharpening 15 ngg
四面体坐标系 15 ngg
视频营销 15 ngg

4.训练模型

  • id_doc.json
  • idf.json
  • inverted.json

三个全都是用来构建搜索引擎,分别是

  inverted = {}  # 记录词所在文档及词频idf = {}  # 词的逆文档频率id_doc = {}  # 文档与词的对应关系py
  • clf.pickle

朴素贝叶斯分类器模型

  • tv.pickle

TF-IDF模型

SDU创新实训 9.创建各类文件数据汇总整理相关推荐

  1. 创新实训(2)-Scrapy 学习

    创新实训(2)-Scrapy 学习 参考资料:Scrapy 0.25 文档 1.Scrapy简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理 ...

  2. 创新实训-python爬虫多线程|解决中文乱码问题|卡片向上浮动效果|图文切换

    创新实训-python爬虫多线程|乱码问题|前端样式重新修改 考完毛概,把上周的工作总结一下.爬虫在第一周的时候只爬了一个就业指导这一个模块,这一次又加了招聘服务模块,所以就用了两个线程.前端首页一开 ...

  3. 山东大学软件学院项目实训-创新实训-SDUMeeting(三)

    山东大学软件学院项目实训-创新实训-SDUMeeting(三) 山大会议项目web安全之文件注入防护 一.前言 山大会议的客户端加入了对用户自定义头像的支持,需要用户自行上传头像图片,这个过程存在文件 ...

  4. 实训项目2Linux基本命令,实训项目2 Linux文件系统管理

    实训项目2 Linux文件系统管理 发布时间:2011-06-24 15:51:10来源:红联作者:397778823 一. 实训目的: 1. 掌握磁盘分区的方法: 2. 掌握文件系统的建立.挂装.解 ...

  5. 山东大学软件学院项目实训-创新实训-SDUMeeting(一)

    山东大学软件学院项目实训-创新实训-SDUMeeting(一) 一.前言: 这个项目是山东大学视频会议项目,这个项目基于webrtc构建多人视频会议系统,我负责视频会议客户端及服务端安全防护,这个专栏 ...

  6. 创新实训项目分析——第十三篇

    2021SC@SDUSC 目录 前言 一.项目环境 二.代码分析 1.透视变换,矫正图像 2.为按钮添加监听,完善功能 三.总结 前言 对于图片抗扭曲功能算法的实现,可以划分为以下任务: 1.采⽤寻找 ...

  7. 创新实训个人记录 : 个人工作总结

    创新实训个人记录 : 个人工作总结 分条目.分进度总结个人工作 阅读书籍(6.8-6.18) 近似算法设计(6.19-6.27) 程序验证(6.28-7.1) 工作难点 接触近似算法领域,学习新知识 ...

  8. 创新实训个人记录:approximation factor, maximum matchingvertex cover

    创新实训个人记录:approximation factor, maximum matching&&vertex cover approximation factor(近似比) maxi ...

  9. 创新实训个人记录:P versus NP

    创新实训个人记录:P versus NP computation&&computable&& computational efficiency 一些符号 decision ...

最新文章

  1. Gradle's dependency cache may be corrupt解决方法
  2. C++中使用new和delete运算符实现二维数组的操作
  3. Android学习建议
  4. 父组件向子组件传递数据
  5. C#委托四(匿名方法)
  6. 全网最全Linux常用命令
  7. C++实现获取汉字拼音首字母
  8. Android重拾设计模式系列——简单工厂模式
  9. python菜鸟编程-Python 基础教程 | 菜鸟教程
  10. linux设备驱动模型架构分析 一
  11. 开源设计和原型制作平台Penpot
  12. HTML5期末大作业:红酒销售网页网站设计——品牌红酒销售网页模板(4页) html网页设计期末大作业_网页设计平时作业
  13. jdk,jre,jvm的包含关系
  14. mac安装破解idea
  15. 这是病,得治,懂吗?
  16. 大数据心法来了!一站式玩转MaxCompute
  17. c语言初级小游戏 · 闯关小鸟 | 激发你的编程兴趣(115行左右代码)
  18. Python 实验题目:字符串格式化输出内容为:姓名:张三,学号:1101,张三的平均分为90.65分。(平均分的原始值为:90.6497)
  19. 正在运行的dll文件怎么删除?
  20. java小技能:集成开发工具(IDE)

热门文章

  1. 魔兽世界无法连接语音聊天服务器,玩家感悟:你不知道的那个“上不了语音的人” - 178魔兽世界专区...
  2. 简单单据打印和列表打印开发
  3. python轻松入门——爬取豆瓣Top250时出现403报错(418报错,爬虫)
  4. 纳斯达克和CryptoCompare合作开发面向机构的加密定价产品
  5. ios与android设备即时语音互通的录音格式
  6. 美团大数据平台架构实践
  7. 我从建筑工程施工员转行成了数据分析师| 求职分享
  8. html5随机圆不重叠,利用canvas在一个盒子里画不重叠的圆,
  9. Design the Web: Control Colors in Photoshop with SmartObjects Photoshop网页设计教程之如何用智能对象控制色彩 Lynda课程中文
  10. nextcloud如何安装app