1、目录

  • 1、目录
  • 2、前言
  • 3、算法细节
    • 1)企业信息数据准备
    • 2)候选业务词袋
    • 3)算法过程
  • 4、算法改进
    • 1)拓展数据源
    • 2)有监督训练

2、前言

  企业画像在企业推荐中是必不可少的一个环节,在客户初次查阅一个企业的信息时,企业画像(标签)可以直观的反应企业的主营业务。

3、算法细节

1)企业信息数据准备

  爬取企业招聘信息,如下图所示:
  
  分析招聘信息,我们可以整理出一个词典,包含了每个模块的标题,整理方法可以通过标题的格式、规则自动抽取后再做一部分人工筛选。

d_start = {u'岗位内容':1,u'岗位要求':1,u'岗位职责':1,u'职责':1,u'职责描述':1,u'职责要求':1,u'主要职责':1,u'工作内容':1,u'工作职责':1}
d_end = {u'工作时间':1,u'职能类别':1,u'地理位置':1,u'任职条件':1,u'任职要求':1,u'任职资格':1,u'应聘条件':1,u'应聘要求':1,u'招聘要求':1,u'职位要求':1,u'人员要求':1,u'福利':1,u'福利待遇':1,u'工作地址':1,u'工作环境':1,u'晋升空间':1,u'培训体制':1,u'社会责任':1,u'薪资':1,u'薪资待遇':1,u'薪资福利':1,u'薪资面谈':1,u'需求专业':1,u'要求':1,u'招聘专业':1,u'职位待遇':1,u'职位福利':1,u'职业发展':1}

  针对这个词典,进一步可以分为d_start(保留了大量有效信息的模块)和d_end(无效信息集中的模块)。

2)候选业务词袋

  选择大型的创投数据库,将企业分类栏目爬下来,如下图所示。
  

3)算法过程

  
- 依次遍历每条招聘信息,将每条招聘信息中d_start字典所涵盖的模块信息进行分词
- 将上述分词结果在业务词袋中进行检索,得到每条招聘信息的业务关键词
- 将每个企业的业务关键词汇总,按照频数降序排列得到如下结果

北京鸿特卓博咨询服务有限公司  招聘 28   人事管理 22 办公 22   人才库 22  课程 21   档案管理 10
神州数码信息服务股份有限公司  测试 14   银行 13   数据库 13  金融 12
北京葵园教育科技有限公司    教育 18
北京成墨达方科技有限公司    招聘 60   简历 56   测试 30   财务 21   财税 19   专科 18   财务软件 15 银行 15   办公软件 15 财务分析 15
绿盟科技    网络安全 10 测试 10
北京先进数通信息技术股份公司  测试 14
北京富迪伟业科技有限公司    销售管理 13 开发管理 13 货款 10   催收 10
北京八零时代电子商务有限公司  O2O 93
北京凌云时速科技有限公司    办公软件 43 设计师 22  软件开发 21 求职者 15  简历 12   游戏开发 10

4、算法改进

1)拓展数据源

  目前数据源仅限于企业招聘信息,未来应该拓展到企业官网、百度百科、新闻舆情、企业研报、产品信息等等。

2)有监督训练

  目前方法是无监督的抽取企业业务标签,虽然性价比极高,但是精度依然存在问题,未来可以采用有监督的训练,监督样本可以从大型创投数据库中爬虫得到:
  
  可采用的训练方法大体有两种,一是为每个样本的标签建立一个词袋,训练的过程就是采集每种标签的词袋的过程;二是将训练样本向量化,通过机器学习分类模型或seq2seq深度模型进行训练。

自动生成企业画像(标签)相关推荐

  1. java自定义表单_JSP实现用于自动生成表单标签html代码的自定义表单标签

    本文实例讲述了JSP实现用于自动生成表单标签HTML代码的自定义表单标签.分享给大家供大家参考.具体如下: 这个是自己写的一个简单的JSP表单标签,用于自动生成checkBox,select,radi ...

  2. 表单在线生成 html代码,JSP实现用于自动生成表单标签html代码的自定义表单标签...

    本文实例讲述了JSP实现用于自动生成表单标签html代码的自定义表单标签.分享给大家供大家参考.具体如下: 这个是自己写的一个简单的JSP表单标签,用于自动生成checkbox,select,radi ...

  3. word目录自动生成未定义标签问题解决

    近期在做毕业设计的论文,利用word的自动生成目录功能后,需要将目录拷贝至其他的文档中,这样一旦打印的时候就会出现未定义标签的错误. 这个问题很另人苦恼,但是也非常容易处理. 处理方法 1选中全部生成 ...

  4. Python自动生成企业合同

    1.背景 工作中经常会需要做大量的合同,不复杂,也就是在合同模板里修改几个合同要素,但是必须打开合同一页一页的翻找修改,合同太多或者手头其他事情纠缠在一起的时候,难免会漏掉.最近在互联网上看到一个类似 ...

  5. 微签电子印章自动生成上线

    远程办公,签字盖章,还在随身携带公章吗?不!只需要一个手机,或者一个电脑,微签在线生成电子公章,在线签署合同,一气呵成. 对于电子合同来说,电子印章既可以通过实体印章的扫描图像生成,也可以通过软件生成 ...

  6. mysql的自动编码_mysql 自动生成编号函数

    根据需求,保存表数据时需要自动生成一个编号,格式如:AA-2020-03-31-0001  (AA-yyyy-MM-dd-序号).数据库用的mysql,所以创建一个mysql函数. 1.建表: cre ...

  7. SOLIDWORKS PDM的智能报表自动生成工具

    一.SOLIDWORKS企业高级报表软件介绍: SolidKits.Reports(企业高级报表)是一款无缝集成于SOLIDWORKS PDM的智能报表自动生成工具,可以自动生成企业所需的各类报表数据 ...

  8. 基于神策用户画像,在线教育企业线索标签体系搭建及培育全流程解析

    作者介绍:TigerHu,环球网校大数据营销产品 leader,主导数据产品线和营销 CRM 产品线. 本文内容均从作者真实实践过程出发,结合作者公司与神策数据合作真实场景,从神策用户画像产品出发,全 ...

  9. html HTML1300 进行了导航,jquery根据文章H标签自动生成导航目录

    jquery根据文章H标签自动生成导航目录2017-11-19 20:57 在一些旅游网站,比如说途牛.携程这些,当你看某条线路的详情页时,右边会有相应的第一天.第二天等的目录. 这么大的网站,不可能 ...

最新文章

  1. JUC并发编程九 并发架构--循环打印
  2. centos部署openstack--网络规划(openvswitch的安装)
  3. Bootstrap 手风琴搭配导航条实现常用菜单栏
  4. 【西安活动】 | 4月20日「拥抱开源,又见.NET:云时代 • 新契机」
  5. centos 单机部署 LDAP 服务
  6. pulsar 容量_[Apache Pulsar] 企业级分布式消息系统-Pulsar入门基础
  7. Oops快速定位代码行方法
  8. Java数据结构:双向链表Double Linked List基础笔记
  9. 计算机软考初级工程资料,计算机软考数据库系统工程师考前练习300资料.doc
  10. Python-标准库(常用模块)
  11. 如何才能不改变图片的像素大小,只改变图片的文件大小
  12. Codeforces 300D Painting Square 题解
  13. 从苏宁电器到卡巴斯基(第二部)第02篇:我在卡巴的日子 II
  14. 帧率(FPS)计算的六种方法总结
  15. 获取当前时间一年后的日期
  16. linux下查找某文件/文件夹所在的位置
  17. 一、python入门整体快速学习
  18. java找出字符串出现最多的字符,JAVA_找出输入的字符串中出现次数最多的字符
  19. 组态王下拉式组合框使用教程,组态王下拉式组合框
  20. day20.1-CE基本使用与原理

热门文章

  1. android分享截屏到微信,Android 微信分享长图 ScrollView 生成长截图 View变bitmap
  2. webpack入门学习笔记10 —— 在项目中使用图片资源
  3. foobar的cue生成插件
  4. TensorFlow2.0 Guide官方教程 学习笔记17 -‘Using the SavedModel format‘
  5. 小论文中添加脚注(可以不显示标号)
  6. 1879: Intersection
  7. Proteus 8.12 仿真软件安装
  8. 如何用计算机计算log除法,电脑系统自带科学计算器使用方法
  9. Python表白妙招,把情书写进她的照片里
  10. Windows 10新功能