【自然语言处理】对评论进行处理的推荐系统的论文总结

NLP语料库介绍的以及连接
- 腾讯语料库
- github上40个nlp中文语料库
推荐系统中常见的文本处理方法
- 词袋模型 BOW
- - 推荐系统中的应用
  - 存在的问题
  - 解决思路
  - 词袋模型升级版 N-gram词袋模型
- TF-IDF权重计算方法
- 隐语义模型LSA （Latent Semantic Analysis）
阿里自然语言处理部总监分享：NLP技术的应用及思考
- 标题分析
- 舆情文本分析

NLP语料库介绍的以及连接

腾讯语料库

数据链接：
https://ai.tencent.com/ailab/nlp/embedding.html
数据简介：
腾讯AI实验室宣布，正式开源一个大规模、高质量的中文词向量数据集。

该数据包含800多万中文词汇，相比现有的公开数据集，在覆盖率、新鲜度及准确性上大幅提高。

在对话回复质量预测、医疗实体识别等自然语言处理方向的业务应用方面，腾讯内部效果提升显著。
数据特点：
总体来讲，腾讯AI实验室此次公开的中文词向量数据集包含800多万中文词汇，其中每个词对应一个200维的向量。

具体方面，腾讯自称，该数据集着重在3方面进行了提升：

覆盖率（Coverage）：

该词向量数据集包含很多现有公开的词向量数据集所欠缺的短语，比如“不念僧面念佛面”、“冰火两重天”、“煮酒论英雄”、“皇帝菜”、“喀拉喀什河”等。

以“喀拉喀什河”为例，利用腾讯AI Lab词向量计算出的语义相似词如下：

墨玉河、和田河、玉龙喀什河、白玉河、喀什河、叶尔羌河、克里雅河、玛纳斯河

新鲜度（Freshness）：

该数据集包含一些最近一两年出现的新词，如“恋与制作人”、“三生三世十里桃花”、“打call”、“十动然拒”、“供给侧改革”、“因吹斯汀”等。

以“因吹斯汀”为例，利用腾讯AI Lab词向量计算出的语义相似词如下：

一颗赛艇、因吹斯听、城会玩、厉害了word哥、emmmmm、扎心了老铁、神吐槽、可以说是非常爆笑了

准确性（Accuracy）：

由于采用了更大规模的训练数据和更好的训练算法，所生成的词向量能够更好地表达词之间的语义关系，如下列相似词检索结果所示：

在开源前，腾讯内部经历了多次测评，认为该数据集相比于现有的公开数据集，在相似度和相关度指标上均达到了更高的分值。

github上40个nlp中文语料库

数据链接：
https://github.com/fighting41love/funNLP
数据简介：
包括中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典。

词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库。

否定词库、汽车品牌词库、汽车零件词库、连续英文切割、各种中文词向量、公司名字大全、古诗词库、IT词库、财经词库、成语词库。

地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库、中文聊天语料、中文谣言数据。

标题分析

标题分析主要分四步：

第一步先做分词。把第一行变成第二行，打空格用了很多算法、词表、人工、优化的思路；

第二步是实体打标。需要知道每个词语是什么含义，粉红大布娃娃是个品牌，泡泡袖是个袖型等等，这样你的搜索引擎就更加智能一点；

第三步是热度计算。把热度分数识别出来，因为串里面每个词不是等价的，有些重要性非常高，有些重要性非常低；

第四步是中心识别。我们用依存句法分析方法来做，表达这个句子的最核心关系就是春装连衣裙，这里面可以做进一步的简化，选取合适的某一个维度的信息。这样，你的数据库就非常好了，可以做很多深入的工作。

舆情文本分析

关于舆情文本分析，我们有文本的分类、标签和文档聚类技术。假如你在手机淘宝app评价写了一堆东西，就进入了我们的流程。我们的系统叫摩天轮，会自动的把你写的每一条评论做各种各样的分析和处理，包括聚类的和标签的很细粒度的解析。

【自然语言处理】对评论进行处理的推荐系统的论文总结相关推荐

自然语言处理技术（NLP）在推荐系统中的应用原2017.06.29人工智能头条作者：张相於，58集团算法架构师，转转搜索推荐部负责人，负责搜索、推荐以及算法相关工作。多年来主要从事推荐系统以及机
自然语言处理技术(NLP)在推荐系统中的应用原2017.06.29人工智能头条作者: 张相於,58集团算法架构师,转转搜索推荐部负责人,负责搜索.推荐以及算法相关工作.多年来主要从事推荐系统以及机 ...
SIGIR 2021 | 推荐系统相关论文分类整理
© 作者|范欣妍机构|中国人民大学高瓴人工智能学院导师|赵鑫教授研究方向 | 推荐系统导读 ACM SIGIR 2021是CCF A类会议,人工智能领域智能信息检索( Information ...
(ACL+ICML)2020推荐系统相关论文聚焦（附下载链接）
前言第58届国际计算语言学协会年会(ACL,The Association for Computational Linguistics)将于2020年7月6号-8号线上举行.官网公布了ACL2020 ...
对话推荐系统CRS论文精读RevCore: Review-augmented Conversational Recommendation
文章目录前言一.原文摘要二.提出动机三.网络结构 3.1 评论检索模块 3.2 评论增强的推荐模块(Review-augmented Recommendation) 3.3 评论增强的对话生成 ...
CIKM 2021 | 推荐系统相关论文分类整理
© 作者|孙文奇机构|中国人民大学高瓴人工智能学院研究方向|推荐系统本文选取了CIKM2021中85篇长文.15篇应用文和29篇短文,重点对推荐系统相关论文(76篇)按不同的任务场景和研究话题进 ...
论文清单：SIGIR 2021推荐系统相关论文分类整理
© 作者|范欣妍机构|中国人民大学高瓴人工智能学院研究方向 | 推荐系统文章来源 | RUC AI Box 导读 ACM SIGIR 2021是CCF A类会议,人工智能领域智能信息检索( In ...
SIGIR 2022 | 推荐系统相关论文分类整理
大家好,我是对白. ACM SIGIR 2022是CCF A类会议,人工智能领域智能信息检索( Information Retrieval,IR)方向最权威的国际会议.会议专注于信息的存储.检索和传播 ...
【CIKM 2021】推荐系统相关论文分类
第30届国际信息与知识管理大会(The 30th ACM International Conference on Information and Knowledge Management, CIKM ...
ICLR2023推荐系统投稿论文集锦
今年ICLR会议已经把审稿意见放出来了,特此整理了一下关于推荐系统相关的论文,总共筛选出24篇.值得说明的是,之前整理的顶会论文都是正式被接收的,比如NeurlPS2022推荐系统论文集锦与CIKM2 ...

【自然语言处理】对评论进行处理的推荐系统的论文总结

【自然语言处理】对评论进行处理的推荐系统的论文总结

NLP语料库介绍的以及连接

腾讯语料库

github上40个nlp中文语料库

推荐系统中常见的文本处理方法

词袋模型 BOW

推荐系统中的应用

存在的问题

解决思路

词袋模型升级版 N-gram词袋模型

TF-IDF权重计算方法

隐语义模型LSA （Latent Semantic Analysis）

阿里自然语言处理部总监分享：NLP技术的应用及思考

标题分析

舆情文本分析

【自然语言处理】对评论进行处理的推荐系统的论文总结相关推荐

最新文章

热门文章