python爬取58同城的兼职信息
标题python爬取58同城的兼职信息
刚刚开始学习爬虫,一些 自己研究的小东西,爬取58同城上面的兼职信息放入Excel表格里,具体代码解释在代码里给出注释,下面给出完整代码:
#首先是导包
import time
#import urllib.request
from bs4 import BeautifulSoup
import requests
import xlwt#下面是对表格的一些初始化,我个人实验没有的话也不会出错,但为了严谨还是加上
style=xlwt.XFStyle()
font=xlwt.Font()
font.name='SimSun'
style.font=font#下面是表格的一些设置,增加5个标题
#其中运用到了for--enumerate 循环
w=xlwt.Workbook(encoding='UTF-8')
ws=w.add_sheet('sheet 1',cell_overwrite_ok=True)
fields=["职位","工作区域","公司名称","价格","结算"]
for i,v in enumerate(fields):ws.write(0,i,v) #下面这一模块为模拟浏览器访问url链接并且BeautifulSoup解析网页内容 这里使用lxml解析,当然也可用其他的
def get_html(url): headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:53.0) Gecko/20100101 Firefox/53.0"}html =requests.get(url,headers=headers).textbsObj =BeautifulSoup(html,'lxml')return bsObj
#以下为核心语句
def download_p(pages):number =1row=1#控制爬取页数for page in range(pages):url = 'https://qhd.58.com/xueshengjianzhi/%d/'%pagebsObj =get_html(url)#print(bsObj.html)#下面为根据分析网页结构通过find来完成对所需内容的查找div_obj = bsObj.find_all('div',class_="item clearfix")for index in range(len(div_obj)):职位 =(div_obj[index].find_all('h2')[0].string)工作区域 =(div_obj[index].find_all('p')[0].string)[5:]公司名称=(div_obj[index].find_all('p',class_="company")[0].find_all('a')[0].text)[5:-3].strip()价格 =div_obj[index].find_all('span',class_="qian")[0].text结算 =div_obj[index].find_all('span',class_="fangshi")[0].texttime.sleep(0.4)####暂停0.4秒,控制速度ws.write(row,0,职位)ws.write(row,1,工作区域)ws.write(row,2,公司名称)ws.write(row,3,价格)ws.write(row,4,结算)row+=1info ='已保存%d 条记录' %number + '\r'print(info,end='')number +=1以下为主程序
if __name__ =="__main__":pp=1##页数s_time =time.time()download_p(pp)e_time =time.time()print('\n')print('用时:%f秒'%(e_time-s_time))print('共'+str(pp)+'页')
w.save('秦皇岛兼职.xls')
需要注意的一点是,在爬取次数多的时候,可能会出现爬取不到内容,那可能是网站监测到爬虫需要输入验证码,复制url进入网站完成验证码即可
python爬取58同城的兼职信息相关推荐
- python爬取58同城所有租房信息_python爬虫:找房助手V1.0-爬取58同城租房信息
#!/usr/bin/python # -*- encoding:utf-8 -*-importrequests frombs4 importBeautifulSoup frommultiproces ...
- python:爬取58同城全部二手商品信息(转转网)
python_58ershou python+beautifulsoup多线程爬取58同城二手全部商品信息,并在jupyter上将数据可视化 项目主程序在58_index中: 建立mango数据库表 ...
- Python爬取58同城广州房源+可视化分析
感谢关注天善智能,走好数据之路↑↑↑ 欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答.求职一站式搞定! 对商业智能BI.大数据分析挖掘.机器学习, ...
- 利用python爬取58同城简历数据
利用python爬取58同城简历数据 最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用python里面的scrapy框架制作爬虫.但 ...
- 利用python爬取58同城简历数据_利用python爬取58同城简历数据-Go语言中文社区
利用python爬取58同城简历数据 最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用python里面的scrapy框架制作爬虫.但 ...
- Python 爬取58同城以及解析
python爬虫--爬取58同城房屋的信息 仅供参考 解析58同城的字体反爬 58同城出租房屋 这是爬取下来的数据: 我们用谷歌浏览器右击点开查看网页源代码搜索font-face可以看到一串用base ...
- python实战|python爬取58同城租房数据并以Excel文件格式保存到本地
python实战|python爬取58同城租房数据并以Excel文件格式保存到本地 一.分析目标网站url 目标网站:https://cq.58.com/minsuduanzu/ 让我们看看网站长啥样 ...
- python爬取58同城房子发布的手机号码_爬虫(成都58同城所有房价,Python实现)
Python实现爬虫(爬取58同城所有房价) 程序发布日期2018-9-25(如果以后不能使用了,就需要更改解析方式.) github博客传送门 csdn博客传送门 爬虫文件(Python实现)-爬取 ...
- python爬取大众点评_浅谈python爬取58同城,大众点评这两个网站
1.爬取58同城租房网遇到的坑:我爬了一页数据被封了ip,此时的我是非常的不爽,才十几条数据就封我,于是我就想着一定得找ip代理来解决这个问题,后面就写了个ip代理去弄,另外把之前头部信息ua改成了u ...
最新文章
- 如何成为一名优秀的软件架构师?
- 数据中心运维认证中的管理要求
- python图像检测_如何用Python检测图像中的矩形项
- 基于java ssm springboot女士电商平台系统源码+文档设计
- NSBundle 的理解和 mainBundle
- html5 drawimage参数,HTML canvas
- 2017.9.7 翻硬币 失败总结
- 虚拟机与服务器桥接不能上网,vmware虚拟机桥接模式不能上网
- php rabbmq教程_PHP+RabbitMQ实现消息队列的完整代码
- 迅雷for linux centos,在CentOS6.6(32位)下配置迅雷远程成功
- 用友nc633与oracle,用友NC和ORACLE数据库配置教程.doc
- 网站地图(sitemap)在线生成
- 浏览器访问IPv6地址
- java对文件进行md5加密,对文件进行 MD5 加密
- 叮咚,您有一封告白信件待查收(原生HTML+CSS+JS绘制表白信件,代码+链接+步骤详解)
- 详解抖音壁纸号的具体玩法,变现方法容易吗?
- Arthas、jprofiler使用
- 白盒与黑盒测试什么区分
- 乖离 暗机器人_乖离性百万亚瑟王黑暗机器人打法技巧 暗马桶攻略
- 3月刊特别策划:移动应用排名与开发者的机会
热门文章
- android 接电话 返回后黑屏,安卓手机打电话黑屏原因和解决方法
- 3.100个渗透测试实战#3(Lampiao)
- win10系统许可证即将过期的解决方法
- YOLOv4原文翻译 - v4它终于来了!
- 微服务是银弹还是焦油坑?
- 力扣报错 error: <identifier> expected
- 详解Django的Models(django基础四)
- 如何花钱做引流?如何推广付费引流?付费引流有哪些?
- 学计算机编程难吗,编程真的很难吗?为什么会认为学编程难?
- [转载] 晓说——第32期:抗战史上最悲壮一幕 淞沪战役(上)