python docx 合并文档图片_使用python抓取大量简历文档内数据(word:docx;pdf;图片等）输出表格文件...

1. 文章背景描述：

近期公司有员工离职了，技术岗位的。

让HR招人，招聘进度也太慢了，实在等不及，就撸起袖子自己上。（之前从来没招聘过）

自己在某招聘网站注册后，花了若干人民币，短时间收到大量求职者的简历；

（干嘛交钱，因为不交钱一天也收不到几封简历，想主动撩人都受次数限制。）

（有钱就是好！）[手动无奈的表情]

由于需招聘的岗位稍特殊，且对学历要求比较严格，所以在筛选大量简历的时候耗费了我大量的时间。

以上就是我面临的难题，我需要一个称心的工具，来帮我将这些简历文件中的主要信息整理成Excel表格，这样进一步做简历筛选工作量就轻松了好多了，甚至需要给应聘者打电话时也不用看着简历手动输号码了。

好的，有了主意就行，好久没写python代码了，这次就拿python练练手。

以上就是背景。

2.问题分析

简历文件都有哪些格式？

word ：*.docx、*.doc

PDF：*.pdf

图片：*.png、*.jpg （好过分，竟然用图片^_^）

Excel: *.xls 、 *.xlsx

网页形式：html等

由于pdf和word所占比例较高，那就先搞定word和PDF文件

2.1. 对于word文件：

去搜索引擎查了下，有个现成的库可以用：python-docx

python-docx搜索示例

安装python-docx 库：

pip install python-docx --target="C:Program FilesPython37Libsite-packages" -i https://pypi.tuna.tsinghua.edu.cn/simple

我这里使用的是清华的镜像源，指定了安装路径；

大家可以使用 pip install python-docx 来安装 python-docx库

导入python-docx库：

import

简历示例

先写一段代码测试下：

import docx
import osprint(os.getcwd())
file_docx = docx.Document(r"C:UsersAdministratorDesktopread_docx张三-求职机器学习岗位-18888888888.docx")
# file_docx = docx.Document(r"C:UsersAdministratorDesktopread_docx数据分析.docx")
tables = file_docx.tables
print(file_docx)
print("tables len:", len(tables))print("对象类型：", type(file_docx))
print("文件长度：", len(file_docx.paragraphs))
print(file_docx.paragraphs[0].text)
# C:UsersAdministratorDesktopread_docx数据分析.docx# print("="*20)
print(tables)
for _table in tables[:]:for i, row in enumerate(_table.rows[:]):row_content = []for cell in row.cells[:]:c = cell.textrow_content.append(c)print(row_content)

输出结果：

<docx.document.Document object at 0x00000273208E9D68>
tables len: 2
对象类型： <class 'docx.document.Document'>
文件长度： 7
个人简历
====================
[<docx.table.Table object at 0x00000273208E0C48>, <docx.table.Table object at 0x0000027320902C48>]
['姓名', '张三', '性别', '男']
['年龄', '23', '学历', '本科']
['电话', '188 8888 8888', '邮箱', '188 8888 8888@163.com']
['清华大学', '人工智能专业', '本科', '1999.09.01-2003.07.01']
['北京大学', '人工智能专业', '硕士', '2003.09.01-2007.07.01']

嗯，确定表格内的数据能提取并输出就行了；

由于现在大多数人的简历word版都是使用文本框录入数据的，并不直接使用表格，上述的代码仅限于表格，那么我们再：

import docx
import osprint("=" * 40)
file = docx.Document(r"C:UsersAdministratorDesktopread_docx赵思思--求职机器学习岗位-19999999999.docx")
children = file.element.body.iter()
child_iters = []
tags = []
for child in children:# 通过类型判断目录if child.tag.endswith(('AlternateContent', 'textbox')):for ci in child.iter():tags.append(ci.tag)if ci.tag.endswith(('main}r', 'main}pPr')):child_iters.append(ci)
text = ['']
for ci in child_iters:if ci.tag.endswith('main}pPr'):text.append('')else:text[-1] += ci.textci.text = ''
trans_text = ['***' + t + '***' for t in text]
print(trans_text)i, k = 0, 0
for ci in child_iters:if ci.tag.endswith('main}pPr'):i += 1k = 0elif k == 0:ci.text = trans_text[i]k = 1file.save(r'C:UsersAdministratorDesktopread_docx/new_test.docx')

接下来，就是将抽取到的数据进行精确提取了。

+++2020年5月21日+++

未完待更

+++

资料参考：

1、使用python-docx提取word中的表格 - 六盘水月照 - 博客园

2、https://python-docx.readthedocs.io/en/latest/user/quickstart.html

3、https://blog.csdn.net/u013546508/article/details/98849695