最近笔者在做文本挖掘项目时候,写了一些小算法,不过写的比较重,没有进行效率优化,针对大数据集不是特别好用,不过在小数据集、不在意性能的情况下还是可以用用的。

本次练习题中可以实现的功能大致有三个:

  • 短语发现
  • 新词发现
  • 词共现

短语发现、新词发现跟词共现有些许区别:
[‘举’,‘个’,‘例子’,‘来说’]

  • 短语发现、新词发现,是词-词连续共现的频率,窗口范围为1,也就是:‘举’,‘例子’;‘个’,‘例子’;‘例子’,‘来说’,探究挨得很近的词之间的关系
  • 词共现是词-词离散出现,词共现包括了上面的内容,探究:‘举’,‘来说’,不用挨着的词出现的次数

code可见我的github:mattzheng/LangueOne


一、数据集介绍

练习数据来源:今日头条中文新闻(文本)分类数据集
今日头条是最近开源的数据集,38w,其中的数据格式为:

6552391948794069256_!_106_!_news_house_!_新手买房࿰

练习题︱基于今日头条开源数据的词共现、新热词发现、短语发现相关推荐

  1. 练习题︱基于今日头条开源数据(二)——两款Apriori算法实践

    Apriori算法是通过限制候选产生发现频繁项集.总的来说,Apriori算法其实效率并不高,大规模数据计算的时候,需要考虑性能问题. code + data可见:mattzheng/AprioriD ...

  2. 基于今日头条开源数据的词共现、新热词发现、短语发现

    向AI转型的程序员都关注了这个号

  3. 接口分析--今日头条天气数据接口

    文章目录 一.准备 我的环境 二.接口分析步骤 1.打开主页 2.查看天气 3.查找数据加载接口 4.确定接口 5.接口字段名 6.测试接口 三.总结 距离上一次发接口分析已经过去一年多了,本次使用谷 ...

  4. 基于 python获取教育新闻进行分词关键词词共现分析 知识图谱 (附代码+报告)

    本文着眼于对疫情期间教育领域新闻的分析,基于 python 语言,利用爬虫获取教育领域的最新新闻,并将其内容进行分词,抓取关键词.在此基础上,根据关键词进行共现分析,并利用 Gephi 软件绘制主题知 ...

  5. 用大数据为潮流赋能  淘宝热词如何打造“有温度的时尚”?

    在刚刚结束的淘宝新势力周上,很多人都没有想到,"大哥廓西"会跃居女装品类增速第一的位置.高达近300%的成交增幅数据背后,"大哥廓西"一定蕴藏着巨大的秘密. 在 ...

  6. 斯坦福cs224n-2021 assignment1-探索词向量—词共现矩阵—SVD(奇异值分解)

    词共现矩阵: 通过统计一个事先指定大小(window_size)的窗口内的word共现次数,以word周边的共现词的次数做为当前word的vector. SVD(奇异值分解) 基于共现矩阵得到的离散词 ...

  7. Android仿今日头条开源项目

    起因 看到众多大神纷纷有了自己的开源项目,于是自己琢磨着也想做一个开源项目来学习下,因为每次无聊必刷的app就是今日头条,评论简直比内容都精彩,所以我打算仿今日头条来练练手,期间也曾放弃过,也遇到很多 ...

  8. 详解如何用python批量采集今日头条信息流数据

    本文介绍如何使用后羿采集器的智能模式,免费采集今日头条的文章标题.文章内容.文章评论等信息数据. 采集工具简介: 后羿采集器(www.houyicaiji.com)是一款基于人工智能技术的网页采集器, ...

  9. python爬取今日头条后台数据_爬虫爬取今日头条数据代码实现

    课程链接 讲师的公众号文章:今日头条数据抓取及持久化(完整代码版,含IP和用户代理)​mp.weixin.qq.com 课程代码 抓取并持久化user-agent工具utils.py 对于爬虫工具,需 ...

最新文章

  1. 【技术分享总结】—设计模式
  2. linux 设置git ip,centos7安装gitlab并更改端口IP地址
  3. windows下Meteor+AngularJS开发的坑
  4. Oracle拆分字符串函数与执行调用
  5. 仿无名云易支付首页模板
  6. 构建自己的地理信息空间数据库及与客户端简单交互(内含彩蛋)
  7. 图书管理系统(Java实现,十个数据表,含源码、ER图,超详细报告解释,2020.7.11更新)...
  8. 【qstock量化】数据篇之宏观指标和财经新闻文本
  9. 高级架构师_Elasticsearch_第二章kibana+IK分词器安装+索引操作+ 映射操作
  10. python多线程之 终止子线程
  11. 联泰科技与赢创联合研发实验室正式成立;丰田携手Fleetsu提供互联车队管理解决方案 | 全球TMT...
  12. 2022完整版青龙面板对接傻妞机器人
  13. pyinstaller打包exe速记
  14. 数字化转型:为何数字化?如何数字化转型?
  15. 动态规划-拔萝卜问题
  16. Java的递归问题的解决和面向对象的基本理论认识
  17. js css3挂历撕掉动画特效
  18. 经典网页收藏夹的实现
  19. 关于一名Java程序员如何备考教师资格证----高级中学信息技术学科
  20. 如何申请working holiday visa

热门文章

  1. $(document).ready
  2. 计算重叠最长子串问题
  3. 姑苏行(一) 虎丘山
  4. songEagle开发系列:如何让文章实时保存的问题
  5. 命令查询每个文件文件数
  6. 2. Spring Boot项目启动原理初探
  7. 《云计算:原理与范式》一3.6 新集成方案
  8. Java Server Faces (JSF)页面转换与验证(二)
  9. 多线程的处理 handler   handlerTread Intentservice
  10. Unity3D GUI笔记