1,默认城市是杭州,代码如下

#! -*-coding:utf-8 -*-

from urllib import request, parse

from bs4 import BeautifulSoup

import datetime

import xlwt

starttime = datetime.datetime.now()

url = r'https://www.zhipin.com/job_detail/?scity=101210100'

# boss直聘的url地址,默认杭州

def read_page(url, page_num, keyword): # 模仿浏览器

page_headers = {

'Host': 'www.zhipin.com',

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36 '

'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',

'Connection': 'keep-alive'

}

page_data = parse.urlencode([  # 浏览器请求的参数

('ka', 'page-'+str(page_num)),

('page', page_num),

('query', keyword)

])

req = request.Request(url, headers=page_headers)

page = request.urlopen(req, data=page_data.encode('utf-8')).read()

page = page.decode('utf-8')

return page

if __name__ == '__main__':

print('**********************************即将进行抓取**********************************')

keyword = input('请输入您要搜索的职位:')

workbook = xlwt.Workbook()

sheet = workbook.add_sheet('sheet1')

i=0

for j in range(1,5):

soup=BeautifulSoup(read_page(url, j, keyword))

for link in soup.select('.company-text'):

sheet.write(i,0,link.get_text())

i=i+1

workbook.save("D:\\resultsLatest.xls")

endtime = datetime.datetime.now()

time = (endtime - starttime).seconds

print('总共用时:%s s' % time)

2,爬取的结果

python爬取boss直招_简易python爬虫爬取boss直聘职位,并写入excel相关推荐

  1. Python爬取网站用户手机号_利用python爬取慕课网站上面课程

    1.抓取网站情况介绍 抓取网站:http://www.imooc.com/course/list 抓取内容:要抓取的内容是全部的课程名称,课程简介,课程URL ,课程图片URL,课程人数(由于动态渲染 ...

  2. 用python输出所有的玫瑰花数_用Python爬取WordPress官网所有插件

    转自丘壑博客,转载注明出处 前言 只要是用WordPress的人或多或少都会装几个插件,可以用来丰富扩展WordPress的各种功能.围绕WordPress平台的插件和主题已经建立了一个独特的经济生态 ...

  3. python爬取网页实时数据_使用 Python 爬取网页数据

    1. 使用 urllib.request 获取网页 urllib 是 Python 內建的 HTTP 库, 使用 urllib 可以只需要很简单的步骤就能高效采集数据; 配合 Beautiful 等 ...

  4. python如何爬取网站所有目录_用python爬虫爬取网站的章节目录及其网址

    认识爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟 ...

  5. python爬取微信好友头像_使用python itchat包爬取微信好友头像形成矩形头像集的方法...

    初学python,我们必须干点有意思的事!从微信下手吧! 头像集样例如下: 大家可以发朋友圈开启辨认大赛哈哈~ 话不多说,直接上代码,注释我写了比较多,大家应该能看懂 import itchat im ...

  6. python3爬取微博评论教程_用python 爬取微博评论,怎么打开微博评论下的查看更多|...

    怎样用python爬新浪微博大V所有数据 先上结论,通过公开的api如爬到某大v的所有数据,需足以下两个条件: 1.在你的爬虫开始运行时,该大v的所有微博发布量没有超过回溯查询的上限,新浪是2000, ...

  7. 用python爬取qq空间内容_用python爬取QQ空间

    原博文 2016-11-18 17:19 − 好久没写博文了,最近捣鼓了一下python,好像有点上瘾了,感觉python比js厉害好多,但是接触不久,只看了<[大家网]Python基础教程(第 ...

  8. python爬取新闻并汇总_【python】 爬虫-爬取新闻

    最近,在数据挖掘课,要交课设了,打算做一个通过机器学习进行新闻分类,首先要有大量的文本(新闻),去做训练,并通过爬虫爬取大量的新闻 一,思路如下: 0.首先确定获取数据的网站 1.通过Beautifu ...

  9. python 循环定时器 timer显示数据_【Python】多线程、定时循环爬取优信二手车信息...

    爬虫 爬取优信二手车:循环遍历每页,获取相应的有价值字段信息,这里不详细阐释了. 多线程 Python中,使用concurrent.futures模块下的ThreadPoolExecutor类来实现线 ...

最新文章

  1. 1050. 螺旋矩阵(25)
  2. 防止程序重复执行的单元
  3. jvm性能调优实战 - 29使用 jstat 摸清线上系统的JVM运行状况
  4. RHEL 5.4 安装Oracle 11gR2, 安装篇2
  5. CVPR 2019 | INIT:针对实例级的图像翻译
  6. 数据庞大繁杂,如何精简挖掘?
  7. JDK 18 / Java 18 GA 发布
  8. BeginnersBook Java 示例
  9. 大整数相乘 + 分治法(JS)
  10. EasyUI中的combobox下拉框自适应高度
  11. CodeReview 常见代码问题( 上 )
  12. 重载类型转换操作符(overload conversion operator)
  13. 【通信】基于matlab量子密钥分发密钥率仿真【含Matlab源码 1662期】
  14. 下棋计算机是什么配置的啊,一个下棋人的电脑配置,请大家指教
  15. XMPP即时通讯基础知识
  16. D触发器的工作原理以及Verilog代码(一/二)
  17. 混合式app开发框架
  18. 无人机原理图、pcb图下载地址
  19. VNC远程桌面使用方法
  20. 基于opencv答题卡识别

热门文章

  1. 给Android新手的六条建议,听说安卓不火了?
  2. 加载java ie停止工作_IE报错“Internet Explorer 已停止工作”解决方案
  3. 防火墙、IDS(入侵检测系统)与双机热备
  4. 在photoshop中,从1寸到24寸的大小是多少
  5. 灌区续建配套与信息化改造工程--设备选型
  6. Oracle Linux 8.5上架微软商店;英特尔发力 RISC-V;200 亿参数 GPT-NeoX 即将开源 | 开源日报
  7. 主页被改为www.n220.com www.129yy.cn
  8. slite的一些基本介绍
  9. html中背景条纹效果,css3 条纹背景滚动效果
  10. 笔记本键盘输入错乱,字母都变成数字了