简历解析步骤(第一步)技术与实现(1)识文字,取信息

在上篇文章中,我们讲解了简历解析的理论。一般情况下,我们会以图片或文档的形式收到简历,为了实现解析,首先需要将其中的文本提取出来,然后对文本进行算法分析和人工智能训练,以提高解析准确率。

下面是我们整个解析和训练过程中需要使用的技术:

  1. 文字识别:OCR服务(如百度AI开放平台的通用文字识别)。
  2. 算法:可以使用伪代码,不限语言。
  3. AI机器学习:例如 ML.NET 或 Python 中的一些算法库。

步骤:

第一步:通过文字识别,提取出所有有价值的信息(对于中文简历,我们将提供一个简单的例子)。
第二步:通过算法进行分析,找到符合要求的信息,如姓名、性别、年龄、学历、工作经历等。
第三步:将识别出的信息进行本地存储,通过人工纠正错误,将其作为样本提供给机器学习算法进行学习和计算模型。
第四步:使用该模型重新识别简历,不断进行纠错和再次训练,直到准确率接近 100%。

步骤实现:

第一步:识文字,取信息

通过百度 AI 开放平台,识别文字,访问下面的网址,可以跳转到相关文档:

(https://ai.baidu.com/tech/ocr_general)


代码展示:

using System;
using System.Text;
using System.Web;
using System.IO;
using System.Net;namespace ORCGO
{public class Accurate{// 通用文字识别(高精度含位置版)public static string accurate(){var photoAddress = @"C:\Users\dao\Desktop\简历.png";return PhotoToString(photoAddress);}public static string PhotoToString(string photoAddress){string tokenStr = "此处填写token";string host = "https://aip.baidubce.com/rest/2.0/ocr/v1/accurate?access_token=" + tokenStr;Encoding encoding = Encoding.Default;HttpWebRequest request = (HttpWebRequest)WebRequest.Create(host);request.Method = "post";request.KeepAlive = true;// 图片的base64编码string base64 = getFileBase64(photoAddress);String str = "image=" + HttpUtility.UrlEncode(base64);byte[] buffer = encoding.GetBytes(str);request.ContentLength = buffer.Length;request.GetRequestStream().Write(buffer, 0, buffer.Length);HttpWebResponse response = (HttpWebResponse)request.GetResponse();StreamReader reader = new StreamReader(response.GetResponseStream(), Encoding.Default);string result = reader.ReadToEnd();Console.WriteLine("通用文字识别(高精度含位置版):");Console.WriteLine(result);return result;}public static String getFileBase64(String fileName){FileStream filestream = new FileStream(fileName, FileMode.Open);byte[] arr = new byte[filestream.Length];filestream.Read(arr, 0, (int)filestream.Length);string baser64 = Convert.ToBase64String(arr);filestream.Close();return baser64;}}
}

调用这个类里面的方法,就可以了 PhotoToString

Program.cs

using System;namespace ORCGO
{class Program{static void Main(string[] args){var photoAddress = @"C:\Users\dao\Desktop\简历.png";Accurate.SBZP(photoAddress);}}
}

我们写一个简历

获得结果:

上面就是通过 百度AI 接口识别出来的信息,我们可以感受到准确度还是很高的。

需要源码的,评论区留下邮箱

简历解析步骤(第一步)技术与实现(1)识文字,取信息相关推荐

  1. 简历解析步骤(第二步)技术与实现(6)识文字,做分类:婚姻状态 、出生日期 、 户口地址 、 籍贯地址

    简历解析步骤(第二步)技术与实现(6)识文字,做分类:婚姻状态 .出生日期 . 户口地址 . 籍贯地址 继上篇文章理论: 简历解析,常见接收到的简历是图片或文档的方式,我们需要先将简历中的文字提取出来 ...

  2. 简历解析步骤(第二步)技术与实现(5)识文字,做分类:身高、体重

    简历解析步骤(第二步)技术与实现(5)识文字,做分类:身高.体重 继上篇文章理论: 简历解析,常见接收到的简历是图片或文档的方式,我们需要先将简历中的文字提取出来,然后再对文字进行算法分析以及AI训练 ...

  3. 简历解析步骤(第二步)技术与实现(3)识文字,做分类:性别

    简历解析步骤(第二步)技术与实现(3)识文字,做分类:性别 继上篇文章理论: 简历解析,常见接收到的简历是图片或文档的方式,我们需要先将简历中的文字提取出来,然后再对文字进行算法分析以及AI训练,从而 ...

  4. 简历解析步骤(第二步)技术与实现(8)政治面貌、语言能力、 英语水平、 计算机水平

    简历解析步骤(第二步)技术与实现(8)政治面貌.语言能力. 英语水平. 计算机水平 继上篇文章理论: 简历解析,常见接收到的简历是图片或文档的方式,我们需要先将简历中的文字提取出来,然后再对文字进行算 ...

  5. 简历解析步骤(第二步)技术与实现(9)博客/主页地址

    简历解析步骤(第二步)技术与实现(9)博客/主页地址 继上篇文章理论: 简历解析,常见接收到的简历是图片或文档的方式,我们需要先将简历中的文字提取出来,然后再对文字进行算法分析以及AI训练,从而实现解 ...

  6. 简历解析步骤(第二步)技术与实现(7)识文字,做分类: 身份证号 、 民族 、 国籍

    简历解析步骤(第二步)技术与实现(7)识文字,做分类: 身份证号 . 民族 . 国籍 继上篇文章理论: 简历解析,常见接收到的简历是图片或文档的方式,我们需要先将简历中的文字提取出来,然后再对文字进行 ...

  7. php动态引入js文件路径问题,JavaScript_动态加载外部css或js文件,原理解析:第一步:使用dom创 - phpStudy...

    原理解析:第一步:使用dom创建 应用:1.提高代码的复用,减少代码量:2.添加一个javascript控制器和 session可以实现动态改变页面样式:3.由于是页面是从上到下依次加载文件的,并且边 ...

  8. 【运筹学】匈牙利法 ( 匈牙利法步骤 | 第一步 : 使行列出现 0 元素示例 )

    文章目录 一.指派问题求解步骤 二.第一步 : 使行列出现 000 元素示例 一.指派问题求解步骤 指派问题求解步骤 : 1 . 使行列出现 000 元素 : 指派问题系数矩阵 (cij)(c_{ij ...

  9. c++ 3d 解析wrl文件_单晶解析的第一步

    单晶解析需要两个文件,即衍射文件(hkl file)和指令文件(ins file),关于这俩个文件的简介可以去看之前的两篇推文:<晶体解析与精修-衍射数据文件(hkl)>和<晶体解析 ...

最新文章

  1. 基于hsv的亮度调整算法_改变HSV的H和V部分(比如可以增加图像亮度)
  2. 自定义request_Spring Security 自定义登录认证(二)
  3. [Web 前端] mobx教程(二)-mobx主要概念
  4. 进击的Android Hook 注入术《二》
  5. jvm类加载机制_JVM 类加载机制
  6. php5.6.16,OSX 10.11 中重新编译PHP5.6.16问题
  7. apache+tomcat配置
  8. 想领取开发套件,就来参加AIoT开发者大赛
  9. geteditor p 取消自动_自动挡汽车最热问题,N档到底是干什么用的?
  10. 写了一个3D彩票软件!
  11. 计算机视觉相关公开数据集(免费下载)
  12. idea打包jar 有的依赖包没有被打包
  13. JSP request对象
  14. [Python] 从ip138网站爬取ip所处地点
  15. STM32HAL库微秒延时函数的实现---DWT和SysTick
  16. android手机不开机刷机,手机无法开机怎么刷机?安卓手机救砖教程
  17. 清净,一键关闭淘宝、京东营销垃圾短信
  18. C#如何在list中添加序号
  19. Linux蓝牙系统(3) Linux 命令
  20. POI对word文档中的指定内容添加批注

热门文章

  1. 【数据分析】:什么是数据分析?
  2. windows上实现UTF-8转GB18030或GB18030转UTF-8
  3. NPDP在国内的含金量
  4. 产品经理之流失率+留存率≠100% ,MAU DAU
  5. Nim中文社区官网现已上线!
  6. 光模块外形类型QSFP56你知道多少?
  7. 不能查看工作组计算机
  8. 用python检查班上同学交作业的情况
  9. 如何将图片批量重命名001开始?
  10. android xml ignore,工具:ignore =“UselessParent”是什么意思在Android XML布局文件中?...