简历解析步骤(第一步)技术与实现(1)识文字,取信息
简历解析步骤(第一步)技术与实现(1)识文字,取信息
在上篇文章中,我们讲解了简历解析的理论。一般情况下,我们会以图片或文档的形式收到简历,为了实现解析,首先需要将其中的文本提取出来,然后对文本进行算法分析和人工智能训练,以提高解析准确率。
下面是我们整个解析和训练过程中需要使用的技术:
- 文字识别:OCR服务(如百度AI开放平台的通用文字识别)。
- 算法:可以使用伪代码,不限语言。
- AI机器学习:例如 ML.NET 或 Python 中的一些算法库。
步骤:
第一步:通过文字识别,提取出所有有价值的信息(对于中文简历,我们将提供一个简单的例子)。
第二步:通过算法进行分析,找到符合要求的信息,如姓名、性别、年龄、学历、工作经历等。
第三步:将识别出的信息进行本地存储,通过人工纠正错误,将其作为样本提供给机器学习算法进行学习和计算模型。
第四步:使用该模型重新识别简历,不断进行纠错和再次训练,直到准确率接近 100%。
步骤实现:
第一步:识文字,取信息
通过百度 AI 开放平台,识别文字,访问下面的网址,可以跳转到相关文档:
(https://ai.baidu.com/tech/ocr_general)
代码展示:
using System;
using System.Text;
using System.Web;
using System.IO;
using System.Net;namespace ORCGO
{public class Accurate{// 通用文字识别(高精度含位置版)public static string accurate(){var photoAddress = @"C:\Users\dao\Desktop\简历.png";return PhotoToString(photoAddress);}public static string PhotoToString(string photoAddress){string tokenStr = "此处填写token";string host = "https://aip.baidubce.com/rest/2.0/ocr/v1/accurate?access_token=" + tokenStr;Encoding encoding = Encoding.Default;HttpWebRequest request = (HttpWebRequest)WebRequest.Create(host);request.Method = "post";request.KeepAlive = true;// 图片的base64编码string base64 = getFileBase64(photoAddress);String str = "image=" + HttpUtility.UrlEncode(base64);byte[] buffer = encoding.GetBytes(str);request.ContentLength = buffer.Length;request.GetRequestStream().Write(buffer, 0, buffer.Length);HttpWebResponse response = (HttpWebResponse)request.GetResponse();StreamReader reader = new StreamReader(response.GetResponseStream(), Encoding.Default);string result = reader.ReadToEnd();Console.WriteLine("通用文字识别(高精度含位置版):");Console.WriteLine(result);return result;}public static String getFileBase64(String fileName){FileStream filestream = new FileStream(fileName, FileMode.Open);byte[] arr = new byte[filestream.Length];filestream.Read(arr, 0, (int)filestream.Length);string baser64 = Convert.ToBase64String(arr);filestream.Close();return baser64;}}
}
调用这个类里面的方法,就可以了 PhotoToString
Program.cs
using System;namespace ORCGO
{class Program{static void Main(string[] args){var photoAddress = @"C:\Users\dao\Desktop\简历.png";Accurate.SBZP(photoAddress);}}
}
我们写一个简历
获得结果:
上面就是通过 百度AI 接口识别出来的信息,我们可以感受到准确度还是很高的。
需要源码的,评论区留下邮箱
简历解析步骤(第一步)技术与实现(1)识文字,取信息相关推荐
- 简历解析步骤(第二步)技术与实现(6)识文字,做分类:婚姻状态 、出生日期 、 户口地址 、 籍贯地址
简历解析步骤(第二步)技术与实现(6)识文字,做分类:婚姻状态 .出生日期 . 户口地址 . 籍贯地址 继上篇文章理论: 简历解析,常见接收到的简历是图片或文档的方式,我们需要先将简历中的文字提取出来 ...
- 简历解析步骤(第二步)技术与实现(5)识文字,做分类:身高、体重
简历解析步骤(第二步)技术与实现(5)识文字,做分类:身高.体重 继上篇文章理论: 简历解析,常见接收到的简历是图片或文档的方式,我们需要先将简历中的文字提取出来,然后再对文字进行算法分析以及AI训练 ...
- 简历解析步骤(第二步)技术与实现(3)识文字,做分类:性别
简历解析步骤(第二步)技术与实现(3)识文字,做分类:性别 继上篇文章理论: 简历解析,常见接收到的简历是图片或文档的方式,我们需要先将简历中的文字提取出来,然后再对文字进行算法分析以及AI训练,从而 ...
- 简历解析步骤(第二步)技术与实现(8)政治面貌、语言能力、 英语水平、 计算机水平
简历解析步骤(第二步)技术与实现(8)政治面貌.语言能力. 英语水平. 计算机水平 继上篇文章理论: 简历解析,常见接收到的简历是图片或文档的方式,我们需要先将简历中的文字提取出来,然后再对文字进行算 ...
- 简历解析步骤(第二步)技术与实现(9)博客/主页地址
简历解析步骤(第二步)技术与实现(9)博客/主页地址 继上篇文章理论: 简历解析,常见接收到的简历是图片或文档的方式,我们需要先将简历中的文字提取出来,然后再对文字进行算法分析以及AI训练,从而实现解 ...
- 简历解析步骤(第二步)技术与实现(7)识文字,做分类: 身份证号 、 民族 、 国籍
简历解析步骤(第二步)技术与实现(7)识文字,做分类: 身份证号 . 民族 . 国籍 继上篇文章理论: 简历解析,常见接收到的简历是图片或文档的方式,我们需要先将简历中的文字提取出来,然后再对文字进行 ...
- php动态引入js文件路径问题,JavaScript_动态加载外部css或js文件,原理解析:第一步:使用dom创 - phpStudy...
原理解析:第一步:使用dom创建 应用:1.提高代码的复用,减少代码量:2.添加一个javascript控制器和 session可以实现动态改变页面样式:3.由于是页面是从上到下依次加载文件的,并且边 ...
- 【运筹学】匈牙利法 ( 匈牙利法步骤 | 第一步 : 使行列出现 0 元素示例 )
文章目录 一.指派问题求解步骤 二.第一步 : 使行列出现 000 元素示例 一.指派问题求解步骤 指派问题求解步骤 : 1 . 使行列出现 000 元素 : 指派问题系数矩阵 (cij)(c_{ij ...
- c++ 3d 解析wrl文件_单晶解析的第一步
单晶解析需要两个文件,即衍射文件(hkl file)和指令文件(ins file),关于这俩个文件的简介可以去看之前的两篇推文:<晶体解析与精修-衍射数据文件(hkl)>和<晶体解析 ...
最新文章
- 基于hsv的亮度调整算法_改变HSV的H和V部分(比如可以增加图像亮度)
- 自定义request_Spring Security 自定义登录认证(二)
- [Web 前端] mobx教程(二)-mobx主要概念
- 进击的Android Hook 注入术《二》
- jvm类加载机制_JVM 类加载机制
- php5.6.16,OSX 10.11 中重新编译PHP5.6.16问题
- apache+tomcat配置
- 想领取开发套件,就来参加AIoT开发者大赛
- geteditor p 取消自动_自动挡汽车最热问题,N档到底是干什么用的?
- 写了一个3D彩票软件!
- 计算机视觉相关公开数据集(免费下载)
- idea打包jar 有的依赖包没有被打包
- JSP request对象
- [Python] 从ip138网站爬取ip所处地点
- STM32HAL库微秒延时函数的实现---DWT和SysTick
- android手机不开机刷机,手机无法开机怎么刷机?安卓手机救砖教程
- 清净,一键关闭淘宝、京东营销垃圾短信
- C#如何在list中添加序号
- Linux蓝牙系统(3) Linux 命令
- POI对word文档中的指定内容添加批注
热门文章
- 【数据分析】:什么是数据分析?
- windows上实现UTF-8转GB18030或GB18030转UTF-8
- NPDP在国内的含金量
- 产品经理之流失率+留存率≠100% ,MAU DAU
- Nim中文社区官网现已上线!
- 光模块外形类型QSFP56你知道多少?
- 不能查看工作组计算机
- 用python检查班上同学交作业的情况
- 如何将图片批量重命名001开始?
- android xml ignore,工具:ignore =“UselessParent”是什么意思在Android XML布局文件中?...