一.pypinyin

在处理语音输入指令时, 比如 请给圆圆发消息,那么转化为文字识别时, 无法确定转换的是圆圆还是园园或是源源, 为了解决这个问题, 就把指令转换为拼音来处理,这样就可以处理同音字了.用到的库为pypinyin

简单使用, TONE,TONE2,TONE3为不同转换模式

from pypinyin import lazy_pinyin,TONE,TONE2,TONE3

a = '圆圆'

b = '源源'

c = '园园'

print(''.join(lazy_pinyin(a, style=TONE)))

print(''.join(lazy_pinyin(b, style=TONE2)))

print(''.join(lazy_pinyin(c, style=TONE3)))

#结果

yuányuán

yua2nyua2n

yuan2yuan2

二 jieba

import jieba

a = '我们来试试这个分词'

print(jieba.cut(a)) #

print(list(jieba.cut(a)))

import jieba

jieba.add_word('这个分词') # 添加分词

a = '我们来试试这个分词'

print(jieba.cut(a)) #

print(list(jieba.cut(a)))

这个模块仅对中文支持友好,英文什么的就不好用了.如果想用英文分词的话,在google的tensorflow里面有一个功能很好用

转]python 结巴分词(jieba)学习

原文  http://www.gowhich.com/blog/147 主题 中文分词Python 源码下载的地址:https://github.com/fxsjy/jieba 演示地址:http:/ ...

中文分词-jieba

支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析: 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义: 搜索引擎模式,在精确模式的基础上,对长词再次切分 ...

python 结巴分词(jieba)详解

文章转载:http://blog.csdn.net/xiaoxiangzi222/article/details/53483931 jieba “结巴”中文分词:做最好的 Python 中文分词组件 ...

Python中文分词 jieba

三种分词模式与一个参数 以下代码主要来自于jieba的github,你可以在github下载该源码 import jieba seg_list = jieba.cut("我来到北京清华大学& ...

.net中文分词 jieba.NET

简介 平时经常用Python写些小程序.在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词.jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以 ...

python 全栈开发,Day133(玩具与玩具之间的对话,基于jieba gensim pypinyin实现的自然语言处理,打包apk)

先下载github代码,下面的操作,都是基于这个版本来的! https://github.com/987334176/Intelligent_toy/archive/v1.6.zip 注意:由于涉及到 ...

中文分词工具探析(二):Jieba

1. 前言 Jieba是由fxsjy大神开源的一款中文分词工具,一款属于工业界的分词工具--模型易用简单.代码清晰可读,推荐有志学习NLP或Python的读一下源码.与采用分词模型Bigram + H ...

python环境jieba分词的安装

我的python环境是Anaconda3安装的,由于项目需要用到分词,使用jieba分词库,在此总结一下安装方法. 安装说明======= 代码对 Python 2/3 均兼容 * 全自动安装:`ea ...

python第三方库------jieba库(中文分词)

jieba“结巴”中文分词:做最好的 Python 中文分词组件 github:https://github.com/fxsjy/jieba 特点支持三种分词模式: 精确模式,试图将句子最精确地切开, ...

随机推荐

codevs 3289 花匠

题目:codevs 3289 花匠 链接:http://codevs.cn/problem/3289/ 这道题有点像最长上升序列,但这里不是上升,是最长"波浪"子序列.用动态规划可 ...

python学习笔记(字符串操作、字典操作、三级菜单实例)

字符串操作 name = "alex" print(name.capitalize()) #首字母大写 name = "my name is alex" pri ...

mysql 连接空闲超8小时自动断开连接问题(linux)

在mysql配置文件里添加wait_timeout和interactive_timeout两个值 [mysqld] wait_timeout= interactive_timeout= 超时时间,10 ...

android中随着ScrollView的滑动,titleBar状态的改变

今天项目有一个需求,,类是于QQ空间里面的一个功能,于是就研究了一下,嗯,说这么多,可能还有人不知道指的是那个,直接上效果图.见谅,不会弄动态图:   对,就是这种效果,我研究了一下,思路如下: 1. ...

JSP的那些事儿(2)---- DWR2.0 的配置和使用

JSP的那些事儿(2)----DWR2.0 的配置和使用 分类: Web开发 JAVA 2009-04-23 15:43 999人阅读 评论(0) 收藏 举报 jspdwrjavascriptserv ...

paip.最新的c++ qt5.1.1环境搭建跟hello world

paip.最新的c++ qt5.1.1环境搭建跟hello world 作者Attilax ,  EMAIL:1466519819@qq.com  来源:attilax的专栏 地址:http://bl ...

篇一:eclipse创建maven工程

一.概览 maven创建的项目主要分为三类:war(网页工程).jar(Java工程).pom(父工程); war:网页工程,包含webapp,用于view层 jar:Java工程,用于提供方法.se ...

WebApi接口访问异常问题。尝试创建“testController”类型的控制器时出错。请确保控制器具有无参数公共构造函数

本来运行的好好的webAPI 接口突然报了个 :“尝试创建“testController”类型的控制器时出错.请确保控制器具有无参数公共构造函数” 错误.耗了半宿最终解决了, 原因: api控制器中引 ...

Java-idea-Checkstyle自动化代码规范检查

一.概述 CheckStyle是SourceForge下的一个项目,提供了一个帮助JAVA开发人员遵守某些编码规范的工具.它能够自动化代码规范检查过程,从而使得开发人员从这项重要,但是枯燥的任务中解脱 ...

winscp 使用root身份登录

参考: https://www.haiyun.me/archives/winscp-sftp-sudo-root.html 一般root账户在服务器上会被禁止ssh,此时普通用户通过sudo执行管理员 ...

python 拼音 英文识别_识别同音字词pypinyin, 分词 jieba相关推荐

  1. 识别同音字词pypinyin, 分词 jieba

    一.pypinyin 在处理语音输入指令时, 比如 请给圆圆发消息,那么转化为文字识别时, 无法确定转换的是圆圆还是园园或是源源, 为了解决这个问题, 就把指令转换为拼音来处理,这样就可以处理同音字了 ...

  2. python统计词频瓦尔登湖_自然语言处理之中文分词器-jieba分词器详解及python实战...

    (转https://blog.csdn.net/gzmfxy/article/details/78994396) 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自 ...

  3. python 拼音 英文识别_python识别一段由字母组成的字符串是否是拼音

    环境:win10 python3.6 先说一下算法思想: 首先建立本地拼音库(不带声调).使用逆向最大匹配将字符串与本地拼音库(这里提供给大家一个)进行匹配.话不多说,见code: def pinyi ...

  4. python识图打怪_识别×图片、打飞机游戏,Python这些事你都知道吗?

    Python是挺神奇的. 可以做很多好玩的事情,今天就带大家看看,Python做的那些神奇好玩的事. 1.Python - Django 搭建简易博客 使用 Django 开发一个简单的博客 Web应 ...

  5. python识别_识别串口/ usb设备python

    无论您如何配置设备,在某些时候您可能不得不询问用户端口在哪里,或者轮询所有串行设备以获得已知响应. (虽然轮询有它的缺陷,所以请继续阅读!).与USB设备不同,当您连接普通的串行设备时,操作系统不会知 ...

  6. java代码识别_识别Java中的代码气味

    java代码识别 作为软件开发人员,我们不仅要编写有效的代码,而且还要编写可维护的代码,这是我们的责任. Martin Fowler在他的<重构:改进现有代码的设计>中将代码气味定义为: ...

  7. gradle文件不识别_识别Gradle约定

    gradle文件不识别 通过约定进行配置具有许多优点,尤其是在简洁方面,因为开发人员不需要显式配置通过约定隐式配置的内容. 但是,在利用约定进行配置时,需要注意这些约定. 这些约定可能已记录在案,但是 ...

  8. python 拼音姓名排序_实用小技巧,Python一秒将全部中文姓名转为拼音!

    有时在处理文件时候,我们需要将中文姓名转换为拼音,或者是转换为拼音首字母,本文将介绍三种Python实现的方法,最后给一个批量操作的代码案例! 一.xpinyin 开门见山,Python中文字转拼音可 ...

  9. 对k210的初探—MixNo—颜色识别_识别采集图片中间框区域的颜色值

    AIOnenet_按键按一下调用动物检测API并框出位置 今天的测评是MixNo调用Onenet平台智能识别哈士奇并框出来,串口输出图像位置. 程序如下: 以下为视频展示(测试图片来自百度) 颜色识别 ...

  10. python 拼音相似度_多种相似度计算的python实现

    前言 在机器学习中有很多地方要计算相似度,比如聚类分析和协同过滤.计算相似度的有许多方法,其中有欧几里德距离(欧式距离).曼哈顿距离.Jaccard系数和皮尔逊相关度等等.我们这里把一些常用的相似度计 ...

最新文章

  1. C语言再学习 -- 字符串和字符串函数
  2. 提权学习之旅——基础篇
  3. [JavaScript编程练习]js获取文字中的100,使其变为红色,若文字100改为其他任意数字,该数字依然会是红色
  4. java自定义方法参数注解_Java方法中的参数太多,第1部分:自定义类型
  5. php获取h1,jQuery获取h1-h6标题元素值方法实例
  6. wagtail cms_为Wagtail做准备,这是迄今为止最好的Django CMS
  7. 超干货议程发布 | 2021全球分布式云大会 · 上海站 重磅来袭
  8. linux--exec函数族浅析
  9. php 中文获取拼音,php获取中文的拼音代码_php
  10. Canal部署linux mysql同步数据
  11. unity天空盒渐变,Unity 3D从一个天空盒淡入另一个天空盒
  12. vue axios轮询更新echarts 页面崩溃问题
  13. python中的nmap模块(编写扫描器)
  14. Introduction to Modern cryptograhy阅读笔记(二)
  15. java-net-php-python-2020SSM面向大学生的课程演示录像计算机毕业设计程序
  16. 出现ERROR:怎么解决
  17. Excel计算个人所得税的计算公式:
  18. 苹果ipa安装包分发下载教程
  19. Matlab 中输入希腊字母
  20. 二级域名做网站有哪些优势?

热门文章

  1. 文件编码格式转换工具
  2. 微软商店打不开,闪退,或者根本没反应
  3. 【蚂蚁链学习2】蚂蚁链智能合约初级语法(数组、结构体、散列函数、事件)
  4. 皮皮虾小视频怎么去水印
  5. 用简单英语谈生意-介绍篇
  6. tas5424_TAS5424
  7. ClickHouse的核心特性及架构
  8. Android 微信高性能日志存储库Xlog的使用
  9. ELK基于ElastAlert实现日志的微信报警
  10. android连接wifi不能上网,手机已经连接wifi但无法上网的详细解决方法