最近在工作中遇到了从一段有一定规则文本中提取姓名、身份证、电话、地址得需求,本来想使用Hanlp分完词后,使用动态规划分离出语义词,在通过机器学习得方式提取,但考虑到实际工作量较大,故采用了一种比较简单得方式,废话不多说贴代码

1、提取操作工具类

package com.hyt.ima.alarmschedule.utils;import com.hyt.ima.alarmschedule.bean.po.PersonInfo;
import org.apache.commons.lang.StringUtils;import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;public class ExtractionTools {/*** 提取text中的身份证* @param text* @return*/public static String pickUpCardNo(String text) {List<String> list = new ArrayList<String> ();//身份证号正则String reg = "\\d{17}[\\d|x|X]|\\d{15}";Pattern pattern=Pattern.compile(reg);Matcher matcher = pattern.matcher(text);while (matcher.find()) {String cardNo = matcher.group();if(CheckIdCardUtils.check(cardNo)){return matcher.group();}}return null;}/*** 提取text中的手机号码* @param text* @return*/public static String pickUpPhoneNo(String text) {//手机号正则String regExp = "(1[3-9]\\d{9})";Pattern phonePattern = Pattern.compile(regExp);Matcher matcher = phonePattern.matcher(text);while (matcher.find()) {return matcher.group();}return null;}/**** @author mxf* @Date  2019/10/28* @param str* @return 提取人名*/public static String getStrName(String str){String regEx = "(王|李|张|刘|陈|杨|黄|赵|吴|周|徐|孙|马|朱|胡|郭|何|高|林|罗|郑|梁|谢|宋|唐|许|韩|冯|邓|曹|彭|曾" +"|肖|田|董|袁|潘|于|蒋|蔡|余|杜|叶|程|苏|魏|吕|丁|任|沈|姚|卢|姜|崔|钟|谭|陆|汪|范|金|石|廖|贾|夏|韦|傅" +"|方|白|邹|孟|熊|秦|邱|江|尹|薛|闫|段|雷|侯|龙|史|黎|贺|顾|毛|郝|龚|邵|万|钱|覃|武|戴|孔|汤|庞|樊|兰|殷" +"|施|陶|洪|翟|安|颜|倪|严|牛|温|芦|季|俞|章|鲁|葛|伍|申|尤|毕|聂|柴|焦|向|柳|邢|岳|齐|沿|梅|莫|庄|辛|管" +"|祝|左|涂|谷|祁|时|舒|耿|牟|卜|路|詹|关|苗|凌|费|纪|靳|盛|童|欧|甄|项|曲|成|游|阳|裴|席|卫|查|屈|鲍|位" +"|覃|霍|翁|隋|植|甘|景|薄|单|包|司|柏|宁|柯|阮|桂|闵|欧阳|解|强|丛|华|车|冉|房|边|辜|吉|饶|刁|瞿|戚|丘" +"|古|米|池|滕|晋|苑|邬|臧|畅|宫|来|嵺|苟|全|褚|廉|简|娄|盖|符|奚|木|穆|党|燕|郎|邸|冀|谈|姬|屠|连|郜|晏" +"|栾|郁|商|蒙|计|喻|揭|窦|迟|宇|敖|糜|鄢|冷|卓|花|艾|蓝|都|巩|稽|井|练|仲|乐|虞|卞|封|竺|冼|原|官|衣|楚" +"|佟|栗|匡|宗|应|台|巫|鞠|僧|桑|荆|谌|银|扬|明|沙|薄|伏|岑|习|胥|保|和|蔺|水|云|昌|凤|酆|常|皮|康|元|平" +"|萧|湛|禹|无|贝|茅|麻|危|骆|支|咎|经|裘|缪|干|宣|贲|杭|诸|钮|嵇|滑|荣|荀|羊|於|惠|家|芮|羿|储|汲|邴|松" +"|富|乌|巴|弓|牧|隗|山|宓|蓬|郗|班|仰|秋|伊|仇|暴|钭|厉|戎|祖|束|幸|韶|蓟|印|宿|怀|蒲|鄂|索|咸|籍|赖|乔" +"|阴|能|苍|双|闻|莘|贡|逢|扶|堵|宰|郦|雍|却|璩|濮|寿|通|扈|郏|浦|尚|农|别|阎|充|慕|茹|宦|鱼|容|易|慎|戈" +"|庚|终|暨|居|衡|步|满|弘|国|文|寇|广|禄|阙|东|殴|殳|沃|利|蔚|越|夔|隆|师|厍|晃|勾|融|訾|阚|那|空|毋|乜" +"|养|须|丰|巢|蒯|相|后|红|权逯|盖益|桓|公|万俟|司马|上官|夏侯|诸葛|闻人|东方|赫连|皇甫|尉迟|公羊|澹台" +"|公冶|宗政|濮阳|淳于|单于|太叔|申屠|公孙|仲孙|轩辕|令狐|钟离|宇文|长孙|慕容|鲜于|闾丘|司徒|司空|亓官" +"|司寇|仉|督|子车|颛孙|端木|巫马|公西|漆雕|乐正|壤驷|公良|拓跋|夹谷|宰父|谷粱|法|汝|钦|段干|百里|东郭" +"|南门|呼延|归海|羊舌|微生|帅|缑|亢|况|郈|琴|梁丘|左丘|东门|西门|佘|佴|伯|赏|南宫|墨|哈|谯" +"|笪|年|爱|仝|代)[\u4E00-\u9FA5]{1,6}\\(";Pattern p=Pattern.compile(regEx);Matcher m=p.matcher(str);while(m.find()) {String personName = m.group().replace("(","");return personName;}return null;}public static String getAddress(String str){String regex = "([\\u4E00-\\u9FA5A-Za-z0-9_]+(省|市|区|县|道|路|街|号)){2,}";Pattern phonePattern = Pattern.compile(regex);Matcher matcher = phonePattern.matcher(str);while (matcher.find()) {return matcher.group();}return null;}/*** 将初始数据进行分组解析* @param str* @return*/public static List<PersonInfo> getRealName(String str){str = str.replace("(","(").replace(")",")");String[] a = str.split(")");List<PersonInfo> infos = new ArrayList<>();for(String b:a){String cardNo = pickUpCardNo(b);if(StringUtils.isEmpty(cardNo)){continue;}b = b.replace(cardNo,"");String phoneNo = pickUpPhoneNo(b);
/*            if(StringUtils.isEmpty(phoneNo)){continue;}*/String name = getStrName(b);if(StringUtils.isEmpty(name)){continue;}PersonInfo personInfo = new PersonInfo();personInfo.setCardNo(cardNo);personInfo.setPhoneNo(phoneNo);personInfo.setPersonName(name);infos.add(personInfo);}return infos;}public static void main(String[] args) {String text = "民警张**带辅警张**和郭**到顺坝村卫生所门口现场系报警人贾峰国(***,****)称其老表张大顺(372522195710100019,135123123123)被人打了,故报警,因对方不在现场,民警让其老板先去医院看伤,后到我所来做材料(警务通)倪峰\n" +"后双方在宁围派出所达成调解协议,韩有(371521198411051559,*******)赔偿张大顺3500元,事态平息。";List<PersonInfo> phones = getRealName(text);for(PersonInfo personInfo:phones) {System.out.println(personInfo.getPersonName()+"|"+personInfo.getCardNo()+"|"+personInfo.getPhoneNo());}}}

2、身份证号码校验类

package com.hyt.ima.alarmschedule.utils;import java.text.SimpleDateFormat;
import java.util.Date;public class CheckIdCardUtils {private final static String BIRTH_DATE_FORMAT = "yyyyMMdd"; // 身份证号码中的出生日期的格式private final static Date MINIMAL_BIRTH_DATE = new Date(-2209017600000L); // 身份证的最小出生日期,1900年1月1日private final static int NEW_CARD_NUMBER_LENGTH = 18;private final static int OLD_CARD_NUMBER_LENGTH = 15;// 18位身份证中最后一位校验码private final static char[] VERIFY_CODE = { '1', '0', 'X', '9', '8', '7','6', '5', '4', '3', '2' };// 18位身份证中,各个数字的生成校验码时的权值private final static int[] VERIFY_CODE_WEIGHT = { 7, 9, 10, 5, 8, 4, 2, 1,6, 3, 7, 9, 10, 5, 8, 4, 2 };/*** 如果是15位身份证号码,则自动转换为18位** @param cardNumber* @return*/public static boolean check(String cardNumber){if (null != cardNumber){cardNumber = cardNumber.trim();if (OLD_CARD_NUMBER_LENGTH == cardNumber.length()){cardNumber = contertToNewCardNumber(cardNumber);}return validate(cardNumber);}return false;}public static boolean validate(String cardNumber){boolean result = true;result = result && (null != cardNumber); // 身份证号不能为空result = result && NEW_CARD_NUMBER_LENGTH == cardNumber.length(); // 身份证号长度是18(新证)// 身份证号的前17位必须是阿拉伯数字for (int i = 0; result && i < NEW_CARD_NUMBER_LENGTH - 1; i++){char ch = cardNumber.charAt(i);result = result && ch >= '0' && ch <= '9';}// 身份证号的第18位校验正确result = result&& (calculateVerifyCode(cardNumber) == cardNumber.charAt(NEW_CARD_NUMBER_LENGTH - 1));// 出生日期不能晚于当前时间,并且不能早于1900年try{Date birthDate = new SimpleDateFormat(BIRTH_DATE_FORMAT).parse(getBirthDayPart(cardNumber));result = result && null != birthDate;result = result && birthDate.before(new Date());result = result && birthDate.after(MINIMAL_BIRTH_DATE);/*** 出生日期中的年、月、日必须正确,比如月份范围是[1,12],* 日期范围是[1,31],还需要校验闰年、大月、小月的情况时,* 月份和日期相符合*/String birthdayPart = getBirthDayPart(cardNumber);String realBirthdayPart = new SimpleDateFormat(BIRTH_DATE_FORMAT).format(birthDate);result = result && (birthdayPart.equals(realBirthdayPart));}catch(Exception e){result = false;}return result;}private static String getBirthDayPart(String cardNumber){return cardNumber.substring(6, 14);}/*** 校验码(第十八位数):** 十七位数字本体码加权求和公式 S = Sum(Ai * Wi), i = 0...16 ,先对前17位数字的权求和;* Ai:表示第i位置上的身份证号码数字值 Wi:表示第i位置上的加权因子 Wi: 7 9 10 5 8 4 2 1 6 3 7 9 10 5 8 4* 2; 计算模 Y = mod(S, 11)< 通过模得到对应的校验码 Y: 0 1 2 3 4 5 6 7 8 9 10 校验码: 1 0 X 9* 8 7 6 5 4 3 2** @param cardNumber* @return*/private static char calculateVerifyCode(CharSequence cardNumber){int sum = 0;for (int i = 0; i < NEW_CARD_NUMBER_LENGTH - 1; i++){char ch = cardNumber.charAt(i);sum += ((int) (ch - '0')) * VERIFY_CODE_WEIGHT[i];}return VERIFY_CODE[sum % 11];}/*** 把15位身份证号码转换到18位身份证号码<br>* 15位身份证号码与18位身份证号码的区别为:<br>* 1、15位身份证号码中,"出生年份"字段是2位,转换时需要补入"19",表示20世纪<br>* 2、15位身份证无最后一位校验码。18位身份证中,校验码根据根据前17位生成** @param oldCardNumber* @return*/private static String contertToNewCardNumber(String oldCardNumber){StringBuilder buf = new StringBuilder(NEW_CARD_NUMBER_LENGTH);buf.append(oldCardNumber.substring(0, 6));buf.append("19");buf.append(oldCardNumber.substring(6));buf.append(CheckIdCardUtils.calculateVerifyCode(buf));return buf.toString();}}

3、电话号码校验类

package com.hyt.ima.alarmschedule.utils;import java.util.regex.Matcher;
import java.util.regex.Pattern;
import java.util.regex.PatternSyntaxException;public class CheckPhoneUtils {public static boolean check(String str) throws PatternSyntaxException {// ^ 匹配输入字符串开始的位置// \d 匹配一个或多个数字,其中 \ 要转义,所以是 \\d// $ 匹配输入字符串结尾的位置String regExp = "^(1[3-9]\\d{9}$)";Pattern p = Pattern.compile(regExp);Matcher m = p.matcher(str);return m.matches();}
}

注:由于我实际业务要提取人民的文本中,人名后都跟有一段括号,括号中带有人的身份证号和电话号码,故采用)分组的形式分段提取,准确率达到了95%以上,比使用hanLp的方式精确率更高

java从文本中提取姓名、身份证、电话、地址相关推荐

  1. 从html富文本中提取纯文本

    其实从html富文本中提取纯文本很简单,富文本基本上是使用html标签给文本加上丰富多彩的样式. 所以只需要将富文本字符串中的"<.....>"标签剔除,即可得到纯文本 ...

  2. java数字编程提,java从字符串中提取数字的简单实例

    随便给你一个含有数字的字符串,比如: String s="eert343dfg56756dtry66fggg89dfgf"; 那我们怎么把其中的数字提取出来呢?大致有以下几种方法, ...

  3. java 区分中英文,Java 区分文本中的中英文字符函数

    Java 区分文本中的中英文字符函数 复制代码 代码如下: public class EnCnTest { public static void main(String args[]) { byte ...

  4. java从字符串中提取数字

    1.做一下操作时会一般会用到提取数字操纵: a.列表中有翻页,当新添加的数据不是放在第一条或者最后一条时,需要翻页并循环找到对应的那条数据 b.当新添加的数据放在第一条或者最后一条时,则不需要翻页,只 ...

  5. 一种精确从文本中提取URL的思路及实现

    在今年三四月份,我接受了一个需求:从文本中提取URL.这样的需求,可能算是非常小众的需求了.大概只有QQ.飞信.阿里旺旺等之类的即时通讯软件存在这样的需求.在研究这个之前,我测试了这些软件这块功能,发 ...

  6. 自然语言处理(NLP)之从文本中提取时间

    在我们的日常生活和工作中,从文本中提取时间是一项非常基础却重要的工作,因此,接下来将介绍如何从文本中有效地提取时间.   举个简单的例子,我们需要从下面的文本中提取时间: 6月28日,杭州市统计局权威 ...

  7. 从文本中提取知识图谱代码比较好的,代码对齐,可以使用的

    从文本中提取知识图谱代码比较好的,代码对齐,可以使用的 https://blog.csdn.net/fendouaini/article/details/102987373 https://blog. ...

  8. pdfparser java_如何使用java从PDF中提取内容?

    在Java编程中,如何使用java从PDF中提取内容? 项目的目录结构如下 - Tika的工具包可从以下网址下载:http://tika.apache.org/download.html ,只下载:t ...

  9. php 日期时间 取日期,从PHP中的文本中提取日期,时间和日期范围

    我正在构建一个本地事件日历,它采用RSS提要和网站抓取并从中提取事件日期. 我之前已经问过如何从PHP here中的文本中提取日期,并在MarcDefiant时获得了一个很好的答案: function ...

  10. Excel从文本中提取数值

    Excel从文本中提取数值 前言 一.left.right.mid函数 left(<文本内容>,<从左边取的文本长度>) right(<文本内容>,<从右边取 ...

最新文章

  1. 【数据库】兴唐第二十七节课之jdbc的使用
  2. 解题报告:AcWing 1165. 单词环(01分数规划、hash、经验优化)
  3. 报名 | 大数据如何提升保险客户体验思享会
  4. 做专才能做强做大——从OA、协同之争说起
  5. iOS架构-静态库.a的脚本化打包及使用(3)
  6. 使用Devstack部署neutron网络节点
  7. 计算机科学入门指南游戏攻略,【基础攻略】从零开始新手入门指南
  8. python常见内置函数_python常见的内置函数
  9. 【转】linux之fsck命令
  10. python qt信号在qml 的使用_QML与Python通信
  11. 方法的返回值类型是object_JavaScript中如何判断类型
  12. mysql数据库常用备份、恢复命令
  13. C#实现动态系统托盘图标
  14. 神奇的 37% 的概率
  15. HDU1214 圆桌会议【数学】
  16. [luogu1081] 开车旅行
  17. 常用正则表达式匹配(中文字符)
  18. Android学习笔记3-开发过程中一些常用操作
  19. android wear表盘商店,手里的 Android Wear 太没个性?你该试试这 4 款表盘
  20. 我爱民科,苍蝇越多越干净?!

热门文章

  1. cortex a8 java_ARM Cortex-
  2. PHP+实验室安全系统 毕业设计-附源码191610
  3. matlab 连续下标表示,matlab 下标问题
  4. hp服务器怎么装win7系统,惠普280 Pro G4台式机intel 8代cpu安装win7步骤
  5. ipa包瘦身之图片无损压缩瘦身
  6. java list下标_Java根据list下标拆分子list的四种方式
  7. word树状分支图_word中插入树状图的两种方法
  8. 终极 Shell on-zshrc
  9. 《轩辕剑4苍之涛》另一攻略 (3)
  10. 在VC6.0下设置Unicode编译环境