Python提取信息测试
文章目录
- 1、提取文档内表格型文件
- 1.1 说明
- 1.2 网站截图
- 1.3 输出结果
- 2、提取表格在附件的文档
- 2.1 仅提取正文
- 2.2 提取正文中的链接
- 2.3 针对性提取
- 2.4 针对性提取链接后,访问链接发现输出网页文本乱码
1、提取文档内表格型文件
1.1 说明
1、测试链接为:https://wenku.baidu.com/view/efd468c75fbfc77da269b13e.html?rec_flag=default
2、解析方法:BeautifulSoup
3、提取步骤:表格数据按行提取
1.2 网站截图
1.3 输出结果
1、输出网页纯文本----------------------------------------
参会人员名单 - 百度文库序号所在系部姓 名签 到
1科技专家咨询小组刘白2科技专家咨询小组王文利3科技专家咨询小组任仙怡4科技专家咨询小组柳伟5科技专家咨询小组张平安6科技专家咨询小组陈永清7科技专家咨询小组贺敬凯8科技专家咨询小组雷国琼9科技专家咨询小组高潮10科技专家咨询小组贺小凤11科技专家咨询小组
蒋方纯12院办陈 璐13党委办公室肖 赞14学生处程建伟15新校区建设办公室
张 建16招标办王校辉17软件工程系梁永生18软件工程系张宗平19软件工程系但唐仁20
软件工程系
李华忠
参会人员名单
关于作者ohvoohph文库新人文档
1177
粉丝
1
等级
Lv1
关注个人主页
2、提取表格在附件的文档
1、测试链接为:http://www.offcn.com/jiaoshi/2021/0714/458245.html
2、解析方法:BeautifulSoup
3、提取步骤:暂无方案,先试试
2.1 仅提取正文
可以看到xlsx和xls的文件并没有获取到,仅以正文形式表达。
2021年连云港市教育局直属学校公开招聘教师228人岗位表已发布,报名时间:2021年7月19日09:00--7月21日16:00。
点击下载>>>
连云港市教育局直属学校公开招聘教师岗位表.xlsx
连云港市教育局直属学校公开招聘教师选岗表.xls
(一)资格条件
1.具有中华人民共和国国籍,遵守中华人民共和国宪法和法律,拥护中国共产党领导和社会主义制度。具备良好的品行。具备适应岗位要求的身体条件。
2.年龄在18周岁以上、35周岁以下(即1985年8月1日至2003年7月31日之间出生)。依法退出现役的退役军人应聘,可放宽至40周岁;对年龄有特殊要求的,以《岗位表》中写明的为准,年龄计算方法不变。
3.具备《岗位表》中岗位要求的资格条件。其中,“专业”条件按《江苏省2021年度考试录用公务员专业参考目录》(附件3)设置。
4.资格条件中的学历指国民教育序列学历。具有国(境)外学历的应聘人员须提供教育部留学服务中心出具的国(境)外学历认证材料。
5.资格条件中的“2021年毕业生”指在2021年毕业并已取得学历证书,且仍无工作单位的人员。其中,能够提供《毕业生就业推荐表》(原件)的普通高校毕业生,取得学历证书的日期可放宽至2021年12月31日;国(境)外同期毕业人员,取得学历证书的日期可适当放宽,但须在2021年12月31日前完成教育部留学服务中心学历认证。
2019年和2020年普通高校毕业生,若仍未落实工作单位,其档案关系仍保留在原毕业学校,或保留在各级毕业生就业主管部门(毕业生就业指导服务中心)、人才交流服务机构和公共就业服务机构的,以及国(境)外同期毕业且已完成学历认证但仍未落实工作单位的人员,可应聘面向2021年毕业生岗位。
参加基层服务项目的人员,如参加服务项目前无工作经历,服务期满且考核合格后2年内的,可应聘面向2021年毕业生岗位。
以普通高校应届毕业生应征入伍服义务兵的人员,退役后1年内的,可应聘面向2021年毕业生岗位。
6.具有与应聘岗位相符合的教师资格证书,其中:应聘jyj049-jyj057岗位的人员,教师资格证暂不作要求,但须在聘用之日起3年内取得中职及以上教师资格证;应聘其他岗位的人员,受疫情影响,暂未取得教师资格证书的,可持在有效期内的中小学教师资格考试合格证明或笔试合格成绩(即“中小学教师资格考试NTCE成绩”,小学、中职教师资格为两科笔试成绩,初中、高中教师资格为三科笔试成绩)报名应聘,但在办理聘用手续前须取得相应教师资格证书。
7.资格条件中工作年限指周年,截止时间计算到2021年8月31日,须提供相关证明材料。
8.本次公开招聘的全部岗位均没有户籍限制。
9.取得祖国大陆普通高校学历的台湾学生和取得祖国大陆承认学历的其他台湾居民应聘时按国家和江苏省的有关规定执行。
(二)有下列情形之一的,请不要报名应聘:
1.现役军人或国民教育序列普通高校在读非2021届毕业生。
2.与事业单位负责人员有夫妻关系、直系血亲关系、三代以内旁系血亲关系或者近姻亲关系等亲属关系的,不得应聘事业单位的组织(人事)、纪检监察、审计财务岗位;与现有在岗人员存在上述关系的,不得应聘到岗后形成直接上下级领导关系的管理类岗位,以及《事业单位人事管理回避规定》明确应当回避的岗位。
3.《江苏省事业单位公开招聘人员办法》(苏办发〔2020〕9号)于2020年3月13日起施行,根据其后发布的事业单位公开招聘人员公告,被聘用到江苏省地方各类事业单位的在编(在册)人员。
4.2021年8月31日前,5年服务期未满的新录用公务员,或有规定(含协议明确)不得解聘离开工作单位(岗位)的人员,或国家和省另有规定不得应聘到事业单位的人员。
以上就是2021年连云港市教育局直属学校公开招聘教师228人岗位表,报名时间:2021年7月19日09:00--7月21日16:00。
2021年连云港市教育局直属学校公开招聘教师228人岗位表(责任编辑:张建平)
THE END声明:本站点发布的来源标注为“中公教育”的文章,版权均属中公教育所有,未经允许不得转载。
岗位表
江苏教师招聘
连云港教师招聘
2.2 提取正文中的链接
网页中涉及到的链接太多了,结果如下,还有很多,没有全部截上图
2.3 针对性提取
通过关键字“表”可以获取到包含表的链接,较片面。
linklst = []
for x in soup.find_all('a', href=re.compile('表')):link = x.get('href')if link:linklst.append(link)for x in linklst: # 验证:循环打印出linklist列表中的链接print(x)
http://files.offcn.com/2021/0713/连云港市教育局直属学校公开招聘教师岗位表m.xlsx
http://files.offcn.com/2021/0713/连云港市教育局直属学校公开招聘教师选岗表m.xls
2.4 针对性提取链接后,访问链接发现输出网页文本乱码
因为这个链接并无文本可以访问,访问链接直接就是下载
结果如下所示,无法提取出有效文字
Python提取信息测试相关推荐
- 怎样用Python提取信息呢?分享这3个Python PDF库
很多时候我们都会用Python去取数据文件,这些文件中很多都是PDF格式,有些PDF文件解析的时候只能解析一部分内容出来,大段的文字没有解析出来,那怎么样才能用Python提取这些信息呢? 下面小千就 ...
- 2.python爬虫实战:爬取近5年的中国大学排行榜信息【Python】(测试代码+api例程)
目录 API说明: 思路 注意事项 完整代码 总结 欢迎关注 『Python』 系列,持续更新中 欢迎关注 『Python』 系列,持续更新中 爬取近5年的中国大学排行榜信息,在python爬虫爬取2 ...
- python提取网页表格信息_python 提取网页表格数据库数据库
python开源工具列表[持续更新] 以下是个人在工作中整理的一些python wheel,供参考.这个列表包含与网页抓取和数据处理的Python库 网络 通用urllib -网络库(stdlib). ...
- python模块os测试文件是否存在及基础原信息获取
python模块os测试文件是否存在及基础原信息获取 在自动化测试中,经常需要查找操作文件,比如说查找配置文件(从而读取配置文件的信息),查找测试报告(从而发送测试报告邮件),经常要对大量文件和大量路 ...
- python pdf库_3个Python PDF库,提取信息、转换格式、分割剪裁有它就够了!
Python无处不在,似乎支持从主要网站到桌面实用程序到企业软件的所有功能.Python已经被用来编写流行的软件项目,如dnf/yum.OpenStack.OpenShot.Blender.Calib ...
- 利用Python提取PDF文件中的文本信息
如何利用Python提取PDF文件中的文本信息 日常工作中我们经常会用到pdf格式的文件,大多数情况下是浏览或者编辑pdf信息,但有时候需要提取pdf中的文本,如果是单个文件的话还可以通过复制粘贴来直 ...
- 用python提取发票扫描件常用的10多个发票信息保存到excel表
用python提取发票扫描件常用的10多个发票信息 #输出所有文件和文件夹 如何将发票扫描将中常用的10-20个信息提取到excel表格中,用python提取是不错的方法. 1.用python提取发票 ...
- python怎么筛选excel数据_python筛选数据excel表格-如何利用python提取两个excel对比后的重复值的信息?...
怎么用python读取excel表格的数据 import xlrd #open the .xls file xlsname="test.xls" book = xlrd.open_ ...
- python提取时长2s以内的单词音频的韵母基频,以及单词词长信息
python提取时长2s以内的单词音频的韵母基频,以及单词词长信息 提取信息自动存入当前工作空间中的excel文件,包括文件名.前字时长.后字时长.两字总时长.前字韵母基频.后字韵母基频.(10个点, ...
最新文章
- 国际化困境(第二篇)
- Leetcode 每日一题 40 组合2
- C# 效率也不是很差嘛
- $(#id).val()取值textarea是
- 在Asp.Net Core中使用ModelConvention实现全局过滤器隔离
- Java后端 + 百度SDK实现人脸识别
- C# - JSON详解
- ffmpeg播放器 android,Android使用FFmpeg(六)--ffmpeg实现音视频同步播放
- 计算机的发展英语600词,程序员必备的600个英语词汇
- vue ---- 实现手机端(左滑 删除。右划 正常)
- IR2104半桥驱动电路
- dht11传感器c语言程序,树莓派 DHT11 温湿度传感器读取 C 语言版
- MATLAB绘图中特殊符号的插入方法
- 数据库设计——关系数据理论(超详细)
- 问道手游服务器配置文件,问道手游脚本视频教程
- 【Cesium】【vue】空间查询——量距(测量距离)、量面(测量面积)
- [转]144P /240P/360P/480P/720P/1080P分辨率的差别
- 代码实现 —— 多项式的最大公因式(线性代数)
- Github创建个人博客
- uva 10286 Trouble with a Pentagon