简历解析步骤(第二步)技术与实现(6)识文字,做分类:婚姻状态 、出生日期 、 户口地址 、 籍贯地址
简历解析步骤(第二步)技术与实现(6)识文字,做分类:婚姻状态 、出生日期 、 户口地址 、 籍贯地址
继上篇文章理论:
简历解析,常见接收到的简历是图片或文档的方式,我们需要先将简历中的文字提取出来,然后再对文字进行算法分析以及AI训练,从而实现解析简历与提高解析度的效果。
先介绍我们整个解析过程和训练过程需要用到的技术:
- 文字识别:OCR服务(百度 AI 开放平台:通用文字识别)
- 算法(伪代码:不限语言)
- AI 机器学习 (ML.NET 或者 Python 一些算法库)
步骤: 第一步:通过文字识别的方式,提取出里面所有有价值的内容(可以转换的所有信息:因为本次讲解都是中文,所以接下来都以解析中文简历来作为例子)第二步:通过算法进行识别,找到符合要求的信息如:姓名、性别、年龄、学历、工作经历等。第三步:将识别出来的信息进行本地存储,然后通过人工去纠正错误,将该版本作为样板,交由机器学习算法进行学习运算,计算出模型。第四步:将得出来的模型再识别简历达到一定的量,再纠错,再交由机器学习算法进行学习运算,反复学习,直至通过率接近 100%。
步骤实现:
第一步:识文字,取信息
细节可以参考上一篇文章
第二步:识文字,做分类
我们通过百度云读取出来的文字信息,是一个区域一个区域的字符串。这个时候,我们要将这些字符串做一些分类:基本信息(38项)
#1. 姓名 2. 姓氏 3. 性别 4. 年龄 5. 身高 6. 体重 7. 婚姻状态 8. 出生日期 9. 户口地址 10. 籍贯地址 11. 身份证号 12. 民族 13. 国籍 14. 政治面貌 15. 语言能力 16. 英语水平 17. 计算机水平 18. 博客/主页地址 19. 工作年限 20. 参加工作时间 21. 当前职位(如果没离职:当前公司的职位,如果离职:上一家公司的职位) 22. 当前职能类型 23. 当前单位 24. 所处行业 25. 在职状态 26. 当前薪资 27. 工作地点 28. 工作性质(全职、兼职、实习) 29. 有否海外留学经历 30. 有否海外工作经历 31. 毕业时间 32. 毕业学校 33. 毕业学校类型 34. 所学专业 35. 学历 36. 是否统招
婚姻状态分类:(核心代码如下)配合识别出来的文字使用
/// <summary>
/// 验证婚姻状态
/// </summary>
/// <param name="words">内容</param>
/// <returns></returns>
static List<string> VerificationMaritalStatus(string words)
{List<string> resultInfo = new List<string>(); ;//有关婚姻状况的直接 [ 已婚 、 未婚 ] 判断做分类if (words.Contains("已婚"))resultInfo.Add(words);if (words.Contains("未婚"))resultInfo.Add(words);return resultInfo;
}
出生日期分类:(核心代码如下)配合识别出来的文字使用
/// <summary>
/// 验证出生日期
/// </summary>
/// <param name="words">内容</param>
/// <returns></returns>
static List<string> VerificationBirthday(string words)
{List<string> resultInfo = new List<string>();if (words.Contains("出生日期"))resultInfo.Add(words);if (words.Contains("出生年月"))resultInfo.Add(words);if (words.Contains("生日"))resultInfo.Add(words);// 搜索这种格式 1990-03-08 1990/03/08 2000-03-08 2000/03/08if (words.IndexOf("/") >= 2 || words.IndexOf("-") >= 2)if (words.Contains("19") || words.Contains("20"))resultInfo.Add(words);return resultInfo;
}
户口地址分类:(核心代码如下)配合识别出来的文字使用
/// <summary>
/// 验证户口地址
/// </summary>
/// <param name="words">内容</param>
/// <returns></returns>
static List<string> VerificationHometownAddress(string words)
{//获取所有省份信息:string allA = "北京市、天津市、上海市、重庆市、河北省、山西省、辽宁省、吉林省、黑龙江省、江苏省、浙江省、安徽省、福建省、江西省、山东省、河南省、湖北省、湖南省、广东省、海南省、四川省、贵州省、云南省、陕西省、甘肃省、青海省、台湾省、内蒙古自治区、广西壮族自治区、西藏自治区、宁夏回族自治区、新疆维吾尔自治区、香港特别行政区、澳门特别行政区";List<string> allss = allA.Split(new string[] { "、" }, StringSplitOptions.RemoveEmptyEntries).ToList();List<string> resultInfo = new List<string>();foreach (var item in allss){if (item.Length > 10){if (words.Contains(item))resultInfo.Add(words);}}return resultInfo;
}
籍贯地址分类:(核心代码如下)配合识别出来的文字使用
/// <summary>
/// 验证籍贯地址
/// </summary>
/// <param name="words">内容</param>
/// <returns></returns>
static List<string> VerificationHometownShortAddress(string words)
{//获取所有省份信息:string allA = "北京、天津、上海、重庆、河北、山西、辽宁、吉林、黑龙江、江苏、浙江、安徽、福建、江西、山东、河南、湖北、湖南、广东、海南、四川、贵州、云南、陕西、甘肃、青海、台湾、内蒙古、广西、西藏、宁夏、新疆维吾尔、香港、澳门";List<string> allss = allA.Split(new string[] { "、" }, StringSplitOptions.RemoveEmptyEntries).ToList();List<string> resultInfo = new List<string>();foreach (var item in allss){if (item.Length <= 10){if (words.Contains(item))resultInfo.Add(words);}}return resultInfo;
}
要源码的,评论区留下邮箱,或者加qq群:546496965
简历解析步骤(第二步)技术与实现(6)识文字,做分类:婚姻状态 、出生日期 、 户口地址 、 籍贯地址相关推荐
- 简历解析步骤(第二步)技术与实现(5)识文字,做分类:身高、体重
简历解析步骤(第二步)技术与实现(5)识文字,做分类:身高.体重 继上篇文章理论: 简历解析,常见接收到的简历是图片或文档的方式,我们需要先将简历中的文字提取出来,然后再对文字进行算法分析以及AI训练 ...
- 简历解析步骤(第二步)技术与实现(3)识文字,做分类:性别
简历解析步骤(第二步)技术与实现(3)识文字,做分类:性别 继上篇文章理论: 简历解析,常见接收到的简历是图片或文档的方式,我们需要先将简历中的文字提取出来,然后再对文字进行算法分析以及AI训练,从而 ...
- 简历解析步骤(第二步)技术与实现(8)政治面貌、语言能力、 英语水平、 计算机水平
简历解析步骤(第二步)技术与实现(8)政治面貌.语言能力. 英语水平. 计算机水平 继上篇文章理论: 简历解析,常见接收到的简历是图片或文档的方式,我们需要先将简历中的文字提取出来,然后再对文字进行算 ...
- 简历解析步骤(第二步)技术与实现(9)博客/主页地址
简历解析步骤(第二步)技术与实现(9)博客/主页地址 继上篇文章理论: 简历解析,常见接收到的简历是图片或文档的方式,我们需要先将简历中的文字提取出来,然后再对文字进行算法分析以及AI训练,从而实现解 ...
- 简历解析步骤(第二步)技术与实现(7)识文字,做分类: 身份证号 、 民族 、 国籍
简历解析步骤(第二步)技术与实现(7)识文字,做分类: 身份证号 . 民族 . 国籍 继上篇文章理论: 简历解析,常见接收到的简历是图片或文档的方式,我们需要先将简历中的文字提取出来,然后再对文字进行 ...
- 简历解析步骤(第一步)技术与实现(1)识文字,取信息
简历解析步骤(第一步)技术与实现(1)识文字,取信息 在上篇文章中,我们讲解了简历解析的理论.一般情况下,我们会以图片或文档的形式收到简历,为了实现解析,首先需要将其中的文本提取出来,然后对文本进行算 ...
- 论简历解析及其步骤(一)步骤及理论
论简历解析及其步骤 简历解析,常见接收到的简历是图片或文档的方式,我们需要先将简历中的文字提取出来,然后再对文字进行算法分析以及AI训练,从而实现解析简历与提高解析度的效果. 先介绍我们整个解析过程和 ...
- 简历 解析 技术总结
最近会将2年前做过的项目中自己负责设计和研发的核心技术--关于简历解析的思路和代码实现发表至此,源码会发布到github上,敬请关注!
- java语言开发的万能简历解析,任何简历都可以 规范格式化数据保存入库! - CSDN博客
Java 无规则简历解析 无规则简历解析demo,写了很多规则,目的就是为了从简历中抓取数据.并不只是姓名,电话,邮箱等数据,而是尽量能做到抓取所有的数据. 说是无规则,其实大多数简历模板也都是有一 ...
最新文章
- pywinauto 记事本操作示例 移动鼠标 使用键盘 自动操作软件
- Python使用proj将GPS经纬度数据转换为utm坐标系(真实的地理位置坐标系,以米为单位),然后可以进行轨迹显示
- 最近的特别问题(1)
- 第13次预习课-20180919 多进程编程
- 面试官问我圆角边框,我交出了满分的答卷!——Web前端系列学习笔记
- cobaltstrike生成一个原生c,然后利用xor加密解密执行
- 计算机的特点 分类及其应用,2016计算机知识:计算机的特点、分类及其应用(1)...
- 安装linux必不可少的一个分区,安装linux系统对硬盘分区时,必须有的两种分区类型是什么?...
- 说明是有两个虚拟机的HTML5
- 数据结构专题(二):2.5在链表指定位置插入元素
- 学术论文中的Introduction与Background
- 程序员能写的最佳代码,就是无码!
- 社招面试会遇到哪些坑?
- IDEA你可能不知道的小工具
- 单纯版九九乘法口诀表
- 查看计算机远程端口,如何查看服务器远程端口号.doc
- Android漏洞查询
- php 对图片缩放,php 图片等比例缩放和截图
- iTunes 备份损坏的解决办法
- BUUCTF【ez_pz_hackover_2016】