python 爬虫:爬取91job竞赛题库
#http://ycit.91job.gov.cn/contest/question
#本次爬去的是91job竞赛的题库
#共52题
#爬去题目与正确答案
#保存为doc格式
#由于需要登陆所以我采用的是cookie
#但是可能在你使用这部分代码是cookie已经失效了 你可以用自己的账号
#xpath是一款十分好用的提取数据的方法
#由于爬取简单就直接上代码了
import requests
from lxml import etree
import csv
for i in range(1,523):url = 'http://ycit.91job.gov.cn/contest/question?page=%s'% iheader = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko Core/1.70.3676.400 QQBrowser/10.4.3505.400','Cookie':'__51cke__=; PHPSESSID2=o0g27b9lvje92ei8f8jd1muht3; __tins__18735067=%7B%22sid%22%3A%201559039651245%2C%20%22vd%22%3A%205%2C%20%22expires%22%3A%201559041694835%7D; __51laig__=5'}response = requests.get(url = url,headers=header)html = response.textselector = etree.HTML(html)items = selector.xpath('//div[@class="all"]')for item in items:timu = item.xpath('./div[@class="title"]/b/text()')[0]answer = item.xpath('./div[@class="right"]/p/font//text()')[0]timu = timu.replace('\xa0'and'\u2002',' ')info = [timu,answer]with open('a.doc','a+',encoding='utf-8',newline='')as f:f.write('\n'.join(info)+'\n')
爬取结果::
python 爬虫:爬取91job竞赛题库相关推荐
- python爬虫数据分析可以做什么-python爬虫爬取的数据可以做什么
在Python中连接到多播服务器问题,怎么解决你把redirect关闭就可以了.在send时,加上参数allow_redirects=False 通常每个浏览器都会设置redirect的次数.如果re ...
- 使用Python爬虫爬取网络美女图片
代码地址如下: http://www.demodashi.com/demo/13500.html 准备工作 安装python3.6 略 安装requests库(用于请求静态页面) pip instal ...
- 运用Python爬虫爬取一个美女网址,爬取美女图
运用Python爬虫爬取一个美女网址,爬取美女图 要运用到的python技术: 导入库 1.request 发送请求,从服务器获取数据 2.BeautifulSoup 用来解析整个网页的源代码 imp ...
- Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频 喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
- 四小时学python爬虫爬取信息系列(第一天)
四小时学python爬虫爬取信息系列(第一天)(全是干货) 1.安装requests库(可以在电脑python,我是进入anaconda我建的虚拟环境) anaconda虚拟环境法流程: conda ...
- Python爬虫爬取微信朋友圈的方法,感兴趣的朋友可以了解下
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 小雨 | 作者 python教程 | 来源 接下来,我们将实现微信朋友圈的 ...
- 【爬虫】利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入Excel中(2)...
[爬虫]利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入Excel中(2) 第一篇( http://blog.itpub.net/26736162/viewspace-22865 ...
- Python爬虫 爬取豆瓣电影TOP250
Python爬虫 爬取豆瓣电影TOP250 最近在b站上学习了一下python的爬虫,实践爬取豆瓣的电影top250,现在对这两天的学习进行一下总结 主要分为三步: 爬取豆瓣top250的网页,并通过 ...
- Python爬虫爬取微信朋友圈
更多编程教程请到:菜鸟教程 https://www.piaodoo.com/ 友情链接: 高州阳光论坛https://www.hnthzk.com/ 人人影视http://www.op-kg.com/ ...
最新文章
- spring获取上下文的方式
- MySQL8常见客户端和启动相关参数
- 浏览器中xhr选项是做什么用的呢_XHR和AJAX终于搞懂了!!
- 阿里云短信isp.RAM_PERMISSION_DENY没有访问权限解决办法
- jQuery.sap.factory
- 用css实现三角效果
- MSP430F5529 DriverLib 库函数学习笔记(十)SPI驱动墨水屏
- SpringBoot在项目中基本配置设置
- pycharm profile对函数调用效率进行测试
- javascript replace高级用法
- WebService学习总结(4)——第三方webService服务调用
- 奥哲徐平俊:乘风、冒险与未来
- Vscode配置ftp连接远程服务器
- HTML5分级标题,HTML5与CSS3基础教程:创建分级标题_html/css_WEB-ITnose
- Android studio学习笔记:adb被系统空闲进程占用了怎么办?
- 原创:职场最忌讳的几大“想当然”
- 企业成功的秘密:成为独角兽
- .bat文件打开方式
- python基础知识整理一
- 统一用户登录管理认证LDAP 服务端部署
热门文章
- excel拆分表格之多条件拆分
- spring事务管理tx:Advice详解
- vscode Couldn‘t start client Rust Language Server
- 何洛洛高考成绩查询2021,2021高考查分时间表 什么时候查成绩
- po模型+unittest测试
- 六则励志故事,送给程序员的你,希望从中获得启发与帮助!
- Zotero-word中引用跳转到参考文献/建立超链接-引用格式(Xie et al 2021, Achanta et al 2012)
- 系统服务器算固定资产吗,服务器操作系统算固定资产
- 2022科技公司薪酬排行榜,来了!
- 从苏宁电器到卡巴斯基第29篇:难忘的三年硕士时光 V