python爬取前程无忧_Python爬虫获取51job的51job代码,python,抓取,前程无忧
为了结果直观,做的简单
网页地址:
https://search.51job.com/list/180200,000000,0000,00,9,99,%25E6%25AD%25A6%25E6%25B1%2589,2,1.html?lang=c&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=
扣 182480171, 源码和lun文, 远程演示
# -*- coding:utf-8 -*-
import requests
from lxml import etree
from wordcloud import WordCloud
# 写入csv
def write_csv(name, row):
reload(sys)
sys.setdefaultencoding("utf-8")
# 统计出现频率
def get_count(text):
wordlist_jieba = jieba.cut(text)
# jieba分词
def chinese_jieba(text):
wordlist_jieba = jieba.cut(text)
text_jieba = " ".join(wordlist_jieba)
return text_jieba
# 生成词云图
def get_ciyun(text):
text = chinese_jieba(text)
print(text)
# mask_pic = numpy.array(Image.open(os.path.join(cur_path, "bit.jpg")))
# print(text)
# 背景颜色 词数量 词字体大小 字体文件路径(需要放到和py文件同一个路径下) 去掉的词 遮罩层
font_path = path.join(d, 'fonts', 'Symbola', 'Symbola.ttf')
image.show()
#获取数据
def get_data(url):
result = ''
headers={'Host':'search.51job.com','Upgrade-Insecure-Requests':'1','User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko)\ Chrome/63.0.3239.132 Safari/537.36'}
return result
# 主程序
def main():
url = 'https://search.51job.com/list/180200,000000,0000,00,9,99,%25E6%25AD%25A6%25E6%25B1%2589,2,1.html?lang=c&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare='
text = get_data(url)
#print("获取完毕,分词生成词云")
get_ciyun(text)
get_count(text)
main()
网页:
结果
1 抓取结果
2 词云图
3 统计词频
python爬取前程无忧_Python爬虫获取51job的51job代码,python,抓取,前程无忧相关推荐
- python编程理论篇_Python爬虫入门实战之猫眼电影数据抓取(理论篇)
前言 本文可能篇幅较长,但是绝对干货满满,提供了大量的学习资源和途径.达到让读者独立自主的编写基础网络爬虫的目标,这也是本文的主旨,输出有价值能够真正帮助到读者的知识,即授人以鱼不如授人以渔,让我们直 ...
- python爬虫入门实战争胜法_Python爬虫入门实战之猫眼电影数据抓取(理论篇)
前言 本文可能篇幅较长,但是绝对干货满满,提供了大量的学习资源和途径.达到让读者独立自主的编写基础网络爬虫的目标,这也是本文的主旨,输出有价值能够真正帮助到读者的知识,即授人以鱼不如授人以渔,让我们直 ...
- python 爬视频下载_Python爬虫进阶之爬取某视频并下载的实现
这篇文章我们来讲一下在网站建设中,Python爬虫进阶之爬取某视频并下载的实现.本文对大家进行网站开发设计工作或者学习都有一定帮助,下面让我们进入正文. 这几天在家闲得无聊,意外的挖掘到了一个资源网站 ...
- python 爬网站 实例_python爬虫实战:之爬取京东商城实例教程!(含源代码)
前言: 本文主要介绍的是利用python爬取京东商城的方法,文中介绍的非常详细,下面话不多说了,来看看详细的介绍吧. 主要工具 scrapy BeautifulSoup requests 分析步骤 1 ...
- 如何用python爬股票数据_python爬虫股票数据,如何用python 爬虫抓取金融数据
Q1:如何用python 爬虫抓取金融数据 获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一.鉴于此,我拾起了Python这把利器,开启了网络爬虫之路. 本篇使用的版本为 ...
- python爬京东联盟_python爬虫框架scrapy实战之爬取京东商城进阶篇
前言 之前的一篇文章已经讲过怎样获取链接,怎样获得参数了,详情请看python爬取京东商城普通篇,本文将详细介绍利用python爬虫框架scrapy如何爬取京东商城,下面话不多说了,来看看详细的介绍吧 ...
- 如何运用python爬游戏皮肤_Python爬虫练习:20行Python代码爬取王者荣耀全英雄皮肤...
引言王者荣耀大家都玩过吧,没玩过的也应该听说过,作为时下最火的手机MOBA游戏,咳咳,好像跑题了.我们今天的重点是爬取王者荣耀所有英雄的所有皮肤,而且仅仅使用20行Python代码即可完成. 准备工作 ...
- python爬网易新闻_Python爬虫实战教程:爬取网易新闻
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: Amauri PS:如有需要Python学习资料的小伙伴可以加点击 ...
- python爬网易新闻_Python爬虫实战教程:爬取网易新闻;爬虫精选 高手技巧
Python爬虫实战教程:爬取网易新闻:爬虫精选 高手技巧 发布时间:2020-02-21 17:42:43 前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有, ...
最新文章
- java中BigDecimal的常见用法
- 欢迎参与Java 事务讨论
- swift学习笔记-UI篇之UIImageView
- 计算机组成与系统 报告,计算机组成与系统结构实验报告2
- django 中datetimefile 问题
- 贪心法—— LeetCode45 跳跃游戏II(跳跃游戏进阶版)
- 在无法单步调试的情况下找Bug的技巧
- python logging打印终端_python中那些小众但有用的自带标准库
- Clojure 学习入门(3)- 数字类型
- Jenkins添加注册用户默认权限/Add a default authenticated user role
- NSCharacterSet 去除NSString中的空格
- SpringBoot 中解决跨域请求
- 【优化算法】白冠鸡优化算法(COOT)【含Matlab源码 1795期】
- QT翻译的使用及避坑指南
- 宝藏软件:“小狼毫” 一款开源牛叉输入法
- java 解压带密码rar_Java解压和压缩带密码的zip文件过程详解
- 网络笔记--接入网及网络运营商
- JVM00_面试官对类加载器子系统、运行时数据区、内存分布、执行引擎的灵虚拷问,你能坚持到第几问?
- 网易WEB白帽子-WEB安全体系建设
- 调用聚合数据平台天气接口