给定一篇文本,提取出文本中涉及到的所有的货币和金额。例如:

'张三赔偿李四人民币车费601,293.11元,工厂费一万二千三百四十五元,利息9佰日元,打印费十块钱。' 

从中提取出 '601,293.11元', '一万二千三百四十五元', '9佰日元', '十块钱' 这样的字符串,并把他们都规范化,形成  '601293.11元', '12345.00元', '900.00日元', '10.00元' 这样的结果。方便存储和计算。

⭐ 源码戳 => JioNLPhttps://github.com/dongrixinyu/JioNLPhttps://github.com/dongrixinyu/JioNLP

⭐ 在线使用戳 => 提取货币金额

安装 Installation

  • python>=3.6 github 版本略领先于 pip
$ git clone https://github.com/dongrixinyu/JioNLP
$ cd ./JioNLP
$ pip install .
  • pip 安装
$ pip install jionlp
  • 可能存在的问题
# 如安装失败,遇到安装时提示的 pkuseg、Microsoft Visual C++、gcc、g++ 等信息,
# 则说明是 pkuseg 安装失败,需要在相应系统中安装 C 和 C++ 编译器,重新安装。
# pip install pkuseg

使用 Usage

抽取文本中的金额字符串,并提供将其转换为标准数字格式的函数。


>>> import jionlp as jio
>>> text = '张三赔偿李四人民币车费601,293.11元,工厂费一万二千三百四十五元,利息9佰日元,打印费十块钱。'
>>> moneys = jio.extract_money(text)
>>> standard_moneys = [jio.money_standardization(i) for i in moneys]#  moneys: ['601,293.11元', '一万二千三百四十五元', '9佰日元', '十块钱']
#  standard_moneys: ['601293.11元', '12345.00元', '900.00日元', '10.00元']
  • 支持标准数字格式,如:1,034,192.07元
  • 支持纯数字格式,如:987273.3美元
  • 支持大写中文金额,如:柒仟六佰零弎萬肆仟叁佰贰拾壹元伍分
  • 支持混合格式,如:1.26万港元
  • 支持口语化中文格式,如:三十五块三毛;但对于“三十五块八”这样的字符串,在文本中存在歧义,如“三十五块八颗糖”等,因此,extract_money 对于此字符串不予抽取,但money_standardization可以将“三十五块八”看作完整的口语化金额,标准化为“35.80元”
  • 支持多种常见货币类型:人民币,港元,澳门元,美元,日元,澳元,韩元,卢布,英镑,马克,法郎,欧元,加元等。

如果觉得好用,就点一下 Star 赞啊!可以直接在 提取货币金额 使用。

JioNLP时间语义解析

提取文本中的金额,提取货币,Python实现与在线使用相关推荐

  1. hive UDF 提取文本中的国家名

    要提取文本中的国家名,我的思路是: 1. 先分词,提取出地区名 2. 将国家名通过外部文件的形式读入HASHSET 3. 对第1步中提取的地区名到2中的HASESET进行查询,如果有,则返回 当UDF ...

  2. Excel VBA: 提取文本中的数字

    在处理Excel表格时,经常会碰到文字中掺杂数字而且需要对这些数字进行处理的情况.写一个简单的VBA函数,即可轻松提取文本中的数字. 先看效果: 再上代码: Function GetNum&( ...

  3. 提取文本中的汉字字符串

    java 编程点滴 提取文本中的汉字字符串 提取文本中的汉字字符串 代码中含有中文字符,希望将代码中的中文字符提取出来,输出到数据库表格,然后补充对应的英文翻译. 继续处理代码,将文中的中文字符,通过 ...

  4. shell 批量提取文本中字符

    shell 批量提取文本中字符 利用awk提取文本中的字符串,亲测有效 1.创建txt文件的方法 (1)利用vim编辑 vi系列编辑器有两种分别是vi 和vim ,建议使用vim ,vim编辑器更方便 ...

  5. python提取文本中的字符串到新的txt_Python实现jieba对文本分词并写入新的文本文件,然后提取出文本中的关键词...

    版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. Python实现jieba对文本分词并写入新的文本文件,然后提取出文本中的关键词思想 先对文本进行 ...

  6. Python使用正则表达式提取文本中ABAC和AABB形式的成语

    问题描述:编写程序,使用正则表达式从一段文本中提取所有ABAC和AABB形式的四字成语,例如我行我素.无忧无虑.一生一世.高高兴兴. 技术要点:正则表达式中子模式编号.在正则表达式中,使用圆括号表示子 ...

  7. python对excel筛选提取文本中数字_python实现将字符串中的数字提取出来然后求和...

    因工作原因,很久没有学习python知识了,感觉都快忘记了,前天看到一个练习题,如何将字符串中的数字提取出来,然后求和呢?下面我来解释一下如何通过python代码来实现. 题目:字符串43-3y2.f ...

  8. python提取文本中的数字_EXCEL中提取汉字、字母、数字如此简单

    不啰嗦,直奔主题-- 看看如何提取,一般使用函数提取,难度较大 先看一下数据源: 分别提取数字.字母和汉字 方案1:传统函数公式法 传统的函数方式难度较大,这里只演示一下提取数字,其他不再演示 通用数 ...

  9. 中文文本中的关键字提取算法总结

    0.关键词提取 定义:从文本中把与这篇文章意义最相关的一些词语抽取出来. 应用:在文献检索.自动文摘.文本聚类/分类等方面有着重要的应用,它不仅是进行这些工作不可或缺的基础和前提,也是互联网上信息建库 ...

最新文章

  1. 开始逆向objc基础准备(一)简单认识一下arm32,以及与x86汇编指令类比
  2. 面经——Java基础
  3. CSS3中的动画示例
  4. 2021京东Z世代汽车消费趋势报告:存量与增量的数智化合奏
  5. 谷歌浏览器中打开IE
  6. 图书管理系统html_你的毕业设计是 XX 管理系统吗?
  7. tcp套接字编程模型
  8. 如何解决分布式系统数据事务一致性问题(HBase加Solr)
  9. 使用SQL编程创建100万条数据测试索引
  10. 开发框架:AdminLTE
  11. win10运行在哪里_90s安装新一代win10X!全新操作界面,完美兼容win7或win10程序
  12. BottomBar之Android底部菜单
  13. 用inno 打包程序 学习之路(转载)
  14. VMD如何确定分解层数(一):最优变分模态分解(OVMD)---VMD分解的基础上确定分解层数和更新步长
  15. 步态分析——信度以及效度
  16. 如何成为一个牛逼的程序员?
  17. php 图片处理羽化,PS羽化图片边缘方法
  18. 如歌芳华,编剧柯伊玟获奖后畅谈从影历程
  19. 数学运算符和运算符的优先级
  20. Pycharm和Pytorch安装教程配置环境以及遇到的问题:

热门文章

  1. 国内那几家语音唤醒技术做的比较好? 语音唤醒技术哪家强?
  2. poj 1608 dp(Banal Ticket)
  3. av_buffersrc_add_frame分析
  4. 能ping通ip但无法ping通域名和localhost //ping: bad address 'www.baidu.com'
  5. visdom远程连接服务器
  6. 微信小程序picker地区选择器显示省市二级联动
  7. Malcolm的新书:Outliers
  8. vue中防止按钮重复点击提交的方法
  9. Vue3中使用Ant Design Vue图标
  10. 1937 年阿尔法罗密欧 8C 2900B Berlinetta获选成为全球最负盛名的车辆