社交媒体中的表情,经常是中括号+文字的形式,比如,[泪]。

但是按默认的jieba分词,会把[泪]拆成[’[’,‘泪’,’]’]。如果我们想分词的时候保留"[泪]”怎么做呢?

首先修改jieba
直接在jieba包init.py文件中


re_han_default = re.compile(“([\u4E00-\u9FD5a-zA-Z0-9+#&._]+)”,re.U)

改成

re_han_default = re.compile("([\u4E00-\u9FD5a-zA-Z0-9+#&\._%\-\]\[]+)", re.U)

然后

import jieba
# 添加不拆新词
jieba.add_word('[泪]')
text = '明天就要高考了,我压力好大……[泪]'
jieba.lcut(text)

输出:

参考资料:
jieba分词支持关键词带空格和特殊字符

jieba结巴分词加入自定义词典

jieba分词保留社交媒体中的表情符号相关推荐

  1. 《中国人工智能学会通讯》——3.15 社交媒体中的谣言识别研究及其发展趋势...

    3.15 社交媒体中的谣言识别研究及其发展趋势 随着计算机和互联网技术的不断发展,社会已经进入了信息互联和人的互联高度融合的时代,人们可以在网络上自由地发布.传播和获取信息:人与人之间的联系也更加紧密 ...

  2. educoder-Spark GraphX—寻找社交媒体中的“影响力用户”

    第1关:认识Pregel API 简介 Spark GraphX中提供了方便开发者的基于谷歌Pregel API的迭代算法,因此可以用Pregel的计算框架来处理Spark上的图数据.GraphX的P ...

  3. 论文阅读:A Survey of Textual Event Extraction from Social Networks 综述:从社交媒体中抽取文本事件

    A Survey of Textual Event Extraction from Social Networks 综述:从社交媒体中抽取文本事件 目录 A Survey of Textual Eve ...

  4. 一窥社交媒体中的档案学

    近日,在<档案学通讯>上阅读了一篇名为<国外档案界利用社交媒体话题活动传播档案文化的实践与启示--以Twitter中的#ArchivesAtoZ话题活动为例>的论文,对于档案届 ...

  5. 需求分析与建模最佳实践_社交媒体和主题建模:如何在实践中分析帖子

    需求分析与建模最佳实践 主题建模的实际使用 (Practical use of topic modeling) There is a substantial amount of data genera ...

  6. 为什么公共关系应该在您的社交媒体营销中发挥作用

    关键词:公共关系.社交媒体营销 近年来,社交媒体营销的使用和影响急剧增加.每个人,从婴儿潮一代到千禧一代,都至少是一个社交媒体网络的成员,可以肯定地说,口碑营销的新方式就是社交媒体营销.但是公司为什么 ...

  7. 我的朋友受到社交媒体的算法推荐“蛊惑”,加入了激进组织

    来源:大数据文摘本文约2800字,建议阅读10分钟当我们在谈论推荐算法的时候,我们在谈论什么? 说到社交媒体的算法推荐,还真是让人欢喜让人忧. 事情是这样的. 当时,我的一个朋友John正在申请麦吉尔 ...

  8. powerdesigner 概念模型_“使用满足”分析框架下社交媒体用户持续使用行为的概念模型研究...

    推文信息 张敏,孟蝶,张艳."使用-满足"分析框架下社交媒体用户持续使用行为的概念模型研究[J].信息资源管理学报,2020,10(01):92-101. "使用-满足& ...

  9. 全球主流社交媒体算法解析:Facebook、YouTube、Twitter如何利用算法推荐内容?

    今日头条.抖音推荐算法原理全文详解 作者 Ste Davies (转载自"腾讯媒体研究院") 在如今的世界中,算法已经成为了我们日常生活的核心.当你进行网络搜索,滚动浏览社交媒体上 ...

最新文章

  1. 深入理解javascript原型和闭包(5)——instanceof
  2. 微信5.0登录提示服务器繁忙,iOS集成友盟社会化分享微信无法登录?
  3. 云计算监控—Prometheus监控系统(文末赠书)
  4. 紫色大气Bootstrap网站模板
  5. Kafka 批量消费消息
  6. Android 工程师如何快速学会web前段
  7. eclipse jstl包_我的Java Web之路41 - JSTL初步使用
  8. VC++网络安全编程范例(2)-创建自签名证书
  9. java mvc接收 时间_Springmvc 如何接收java8的时间localDateTime。
  10. latex 常用学习/模板/公式输入网站合集
  11. linux 一键网克,MaxDOS 8.0
  12. 实数系的基本定理_为什么极限理论的建立需要实数理论?
  13. 百宝云数组语法新手教程
  14. 机械硬盘结构与固态硬盘
  15. 餐桌 (Standard IO)
  16. 遍历一个文件夹下的所有文件和子文件夹
  17. Linux命令-samba服务器和防火墙
  18. 达芬奇机器人变身‘模仿达人’,通过看视频模仿手术缝合、穿针、打结等动作...
  19. CodeForces 135C C. Zero-One
  20. [益智]:3个女儿的年龄

热门文章

  1. 养老院室内定位不再成为困扰——新导智能
  2. 世界排名第一的永久免费开源ERP:Odoo生产制造管理功能概述
  3. 抓取微信小程序源码教程,扒微信小程序文件等
  4. windows8系统如何换win7之thinkpad E430 WIN8改WIN7必做事项
  5. 移动端-动态改变字体大小
  6. windows和linux常用软件的对应
  7. java.lang.IllegalArgumentException: Last unit does not have enough valid bits解决方案
  8. 个人主页FLASH网站源码(FLASH+HTML+PSD+字体)[ym1z090903]
  9. FineReport-数据过滤权限设置
  10. Ureport2数据过滤的方式