jieba分词保留社交媒体中的表情符号
社交媒体中的表情,经常是中括号+文字的形式,比如,[泪]。
但是按默认的jieba分词,会把[泪]拆成[’[’,‘泪’,’]’]。如果我们想分词的时候保留"[泪]”怎么做呢?
首先修改jieba
直接在jieba包init.py文件中
把
re_han_default = re.compile(“([\u4E00-\u9FD5a-zA-Z0-9+#&._]+)”,re.U)
改成
re_han_default = re.compile("([\u4E00-\u9FD5a-zA-Z0-9+#&\._%\-\]\[]+)", re.U)
然后
import jieba
# 添加不拆新词
jieba.add_word('[泪]')
text = '明天就要高考了,我压力好大……[泪]'
jieba.lcut(text)
输出:
参考资料:
jieba分词支持关键词带空格和特殊字符
jieba结巴分词加入自定义词典
jieba分词保留社交媒体中的表情符号相关推荐
- 《中国人工智能学会通讯》——3.15 社交媒体中的谣言识别研究及其发展趋势...
3.15 社交媒体中的谣言识别研究及其发展趋势 随着计算机和互联网技术的不断发展,社会已经进入了信息互联和人的互联高度融合的时代,人们可以在网络上自由地发布.传播和获取信息:人与人之间的联系也更加紧密 ...
- educoder-Spark GraphX—寻找社交媒体中的“影响力用户”
第1关:认识Pregel API 简介 Spark GraphX中提供了方便开发者的基于谷歌Pregel API的迭代算法,因此可以用Pregel的计算框架来处理Spark上的图数据.GraphX的P ...
- 论文阅读:A Survey of Textual Event Extraction from Social Networks 综述:从社交媒体中抽取文本事件
A Survey of Textual Event Extraction from Social Networks 综述:从社交媒体中抽取文本事件 目录 A Survey of Textual Eve ...
- 一窥社交媒体中的档案学
近日,在<档案学通讯>上阅读了一篇名为<国外档案界利用社交媒体话题活动传播档案文化的实践与启示--以Twitter中的#ArchivesAtoZ话题活动为例>的论文,对于档案届 ...
- 需求分析与建模最佳实践_社交媒体和主题建模:如何在实践中分析帖子
需求分析与建模最佳实践 主题建模的实际使用 (Practical use of topic modeling) There is a substantial amount of data genera ...
- 为什么公共关系应该在您的社交媒体营销中发挥作用
关键词:公共关系.社交媒体营销 近年来,社交媒体营销的使用和影响急剧增加.每个人,从婴儿潮一代到千禧一代,都至少是一个社交媒体网络的成员,可以肯定地说,口碑营销的新方式就是社交媒体营销.但是公司为什么 ...
- 我的朋友受到社交媒体的算法推荐“蛊惑”,加入了激进组织
来源:大数据文摘本文约2800字,建议阅读10分钟当我们在谈论推荐算法的时候,我们在谈论什么? 说到社交媒体的算法推荐,还真是让人欢喜让人忧. 事情是这样的. 当时,我的一个朋友John正在申请麦吉尔 ...
- powerdesigner 概念模型_“使用满足”分析框架下社交媒体用户持续使用行为的概念模型研究...
推文信息 张敏,孟蝶,张艳."使用-满足"分析框架下社交媒体用户持续使用行为的概念模型研究[J].信息资源管理学报,2020,10(01):92-101. "使用-满足& ...
- 全球主流社交媒体算法解析:Facebook、YouTube、Twitter如何利用算法推荐内容?
今日头条.抖音推荐算法原理全文详解 作者 Ste Davies (转载自"腾讯媒体研究院") 在如今的世界中,算法已经成为了我们日常生活的核心.当你进行网络搜索,滚动浏览社交媒体上 ...
最新文章
- 深入理解javascript原型和闭包(5)——instanceof
- 微信5.0登录提示服务器繁忙,iOS集成友盟社会化分享微信无法登录?
- 云计算监控—Prometheus监控系统(文末赠书)
- 紫色大气Bootstrap网站模板
- Kafka 批量消费消息
- Android 工程师如何快速学会web前段
- eclipse jstl包_我的Java Web之路41 - JSTL初步使用
- VC++网络安全编程范例(2)-创建自签名证书
- java mvc接收 时间_Springmvc 如何接收java8的时间localDateTime。
- latex 常用学习/模板/公式输入网站合集
- linux 一键网克,MaxDOS 8.0
- 实数系的基本定理_为什么极限理论的建立需要实数理论?
- 百宝云数组语法新手教程
- 机械硬盘结构与固态硬盘
- 餐桌 (Standard IO)
- 遍历一个文件夹下的所有文件和子文件夹
- Linux命令-samba服务器和防火墙
- 达芬奇机器人变身‘模仿达人’,通过看视频模仿手术缝合、穿针、打结等动作...
- CodeForces 135C C. Zero-One
- [益智]:3个女儿的年龄
热门文章
- 养老院室内定位不再成为困扰——新导智能
- 世界排名第一的永久免费开源ERP:Odoo生产制造管理功能概述
- 抓取微信小程序源码教程,扒微信小程序文件等
- windows8系统如何换win7之thinkpad E430 WIN8改WIN7必做事项
- 移动端-动态改变字体大小
- windows和linux常用软件的对应
- java.lang.IllegalArgumentException: Last unit does not have enough valid bits解决方案
- 个人主页FLASH网站源码(FLASH+HTML+PSD+字体)[ym1z090903]
- FineReport-数据过滤权限设置
- Ureport2数据过滤的方式