书蕴——基于书评的智能推荐系统

前言

计算机设计大赛在即,和冬瑜、承意组队参加人工智能组,报的题目的:书蕴——基于书评的智能书籍推荐系统。
主体上是去做一个web系统,系统的核心功能是书籍收藏与书籍推荐。根据用户收藏书籍的书评(划重点了),来为用户推荐书籍

创新点

  • 基于书籍标签协同过滤算法
  • 基于word2vec方法的自然语言处理
  • 标签抽取(这个名词还没想好)

思路

  1. 数据获取
  2. 数据文本预处理
  3. 训练word2vec模型
  4. 使用word2vec模型迭代获取标签
  5. 协同过滤算法对标签处理,实现推荐
  6. web系统

数据获取篇

主要是冬瑜写的python爬虫,来源是豆瓣读书,目前效率较为低下,正在尽力找到有效的方案

数据文本预处理

  • 去除html标签与换行
  • 去除停用词
  • 分词
  • 保存为文本

具体内容记录在另一篇博客:[书蕴笔记-0]文本预处理

训练word2vec模型

主要使用python的gensim包下的word2vec训练模型,模型以每本书的所有书评为主体。
之后可能考虑用一类书的书评整体训练模型。

基于 Gensim 的 Word2Vec 实践
Deep learning with word2vec

以下参数解释来自博客:word2vec词向量训练及gensim的使用
参数解释:

  • sg=1是skip-gram算法,对低频词敏感;默认sg=0为CBOW算法。
  • size是输出词向量的维数,值太小会导致词映射因为冲突而影响结果,值太大则会耗内存并使算法计算变慢,一般值取为100到200之间。
  • window是句子中当前词与目标词之间的最大距离,3表示在目标词前看3-b个词,后面看b个词(b在0-3之间随机)。
  • min_count是对词进行过滤,频率小于min-count的单词则会被忽视,默认值为5。
  • negative和sample可根据训练结果进行微调,sample表示更高频率的词被随机下采样到所设置的阈值,默认值为1e-3。
  • hs=1表示层级softmax将会被使用,默认hs=0且negative不为0,则负采样将会被选择使用。
  • workers控制训练的并行,此参数只有在安装了Cpython后才有效,否则只能使用单核。

具体内容记录在另一篇博客:(占坑,等下写) [书蕴笔记-1]word2vec模型训练

使用word2vec模型迭代获取标签

通过模型vocabulary词频最高的5个词查询其距离最近的5个词,迭代100词,得到标签集(数字仅实验参考,具体会重新调整)

具体内容记录在另一篇博客:(占坑,等下写) [书蕴笔记-2]使用word2vec模型迭代获取标签

协同过滤 矩阵线性运算对标签处理,实现推荐

[书蕴笔记-3]使用中文维基百科语料库的word2vec模型计算书籍距离

web系统

写个从前端到后台的web

书蕴——基于书评的人工智能推荐系统相关推荐

  1. (转载)书蕴——基于书评的人工智能推荐系统

    书蕴--基于书评的智能推荐系统 前言 计算机设计大赛在即,和冬瑜.承意组队参加人工智能组,报的题目的:书蕴--基于书评的智能书籍推荐系统.  主体上是去做一个web系统,系统的核心功能是书籍收藏与书籍 ...

  2. 电影推荐系统 python简书_基于Spark的电影推荐系统(实战简介)

    ## 写在前面 一直不知道这个专栏该如何开始写,思来想去,还是暂时把自己对这个项目的一些想法 和大家分享 的形式来展现.有什么问题,欢迎大家一起留言讨论. 这个项目的源代码是在https://gith ...

  3. [书蕴笔记-2]使用word2vec模型迭代获取标签

    使用word2vec模型迭代获取标签 前言 整体索引在此 :书蕴--基于书评的人工智能推荐系统 之前把书评预处理并将每本书训练出了word2vec模型,本篇博客针对如何提取书籍的标签具体展开描述. 思 ...

  4. [书蕴笔记-1]word2vec模型训练

    word2vec模型训练 前言 整体索引在此 书蕴--基于书评的人工智能推荐系统 上次把文本进行了预处理,主要是使用正则去除标签以及对文本去除停用词以及结巴分词. 后续还会加入tf-idf来动态选取停 ...

  5. [书蕴笔记-0]文本预处理

    文本预处理 前言 整体索引在此 书蕴--基于书评的人工智能推荐系统 思路 因为数据是爬虫爬下来的,具体内容被写入到了excel表里,所以文本预处理分为2块.一个是从excel中获取数据,然后去掉文本中 ...

  6. 当推荐系统遇上图学习:基于图学习的推荐系统最新综述

    ©作者|Shoujin Wang 单位|麦考瑞大学博士后 研究方向|数据挖掘,机器学习,推荐系统 论文简介 本文给大家介绍一篇被今年国际人工智能联合会议 IJCAI 2021 接收的从图机器学习的视角 ...

  7. 【Mo 人工智能技术博客】基于耦合网络的推荐系统

    基于耦合网络的推荐系统 作者:陈东瑞 1.复杂网络基础知识 当我们拿起手机给家人.朋友或者同事拨打电话时,就不知不觉中参与到了社交网络形成的过程中:当我们登上高铁或者飞机时,就可以享受交通网络给我们带 ...

  8. 综述:基于图学习的推荐系统;论文笔记

    文章目录 摘要 1. 介绍 1.1 图如何表达推荐任务? 1.2 图学习对推荐系统有效吗? 1.3 基于图学习的推荐系统符号化(Formalization) 2. 数据特征和挑战 2.1 一般交互数据 ...

  9. 观察者模式之四:基于知识库的信息推荐系统(本科毕业论文,学术道德问题,严禁抄袭)...

    基于知识库的信息推荐系统 Knowledge lib based information recommendation system 姓    名:谢    松 学    院:数学科学学院 专     ...

最新文章

  1. Ascend Pytorch算子适配层开发
  2. OpenCV的实用图像处理操作案例分享
  3. C++打印STAIRS 图案算法(附完整源码)
  4. URLCache探索
  5. python 打卡程序_如何用python实现腾讯文档自动打卡并定时执行
  6. 一道c++小编程题,
  7. 微信的商业价值有哪些?
  8. NVIDIA GeForce 800系列详细配置参数
  9. 《如何阅读一本书》笔记
  10. RSA组件之掩码生成函数(MGF)的实现(C源码)
  11. Ubuntu IDEA返回上一次位置快捷键失效问题解决
  12. 英伟达 Tesla K80显卡驱动安装
  13. TensorFlow深度学习!构建神经网络预测股票!
  14. append和appendTo的区别以及js中的appendChild用法
  15. linux虚机从物理单板挂载_linux物理服务器到虚拟机的整机迁移教程
  16. 爱彼迎招募“周末玩家”,住遍“匠心”民宿系列
  17. 【通信原理】六、数字基带传输系统
  18. MAC M1 QT-kits配置 QT安装 qt-version配置 No suitable kits found. The qmake executable could not be added
  19. 如何恢复iPhone/iPad里丢失数据?
  20. python编程设计高级_Python高级应用程序设计

热门文章

  1. visitor模式本质
  2. nvcc -V和nvidia-smi中的cuda版本不同
  3. 布法罗大学计算机硕士学费,美国水牛城大学学费贵不贵(美国水牛城大学往年排名情况怎么样)...
  4. web项目打war包方法 两步解决(极其简单方便)
  5. IOCP之accept、AcceptEx、WSAAccept的区别 .
  6. 功能安全标准-ISO26262-3---概念阶段---ASIL(汽车安全完整性等级)等级确定方法
  7. 基于域集中式架构的汽车车载通信安全方案
  8. 最小生成树—Prim算法
  9. git如何新建分支进行开发
  10. 【PCIe 5.0 - 1】PCIe Link属性