为了结果直观,做的简单

网页地址:

https://search.51job.com/list/180200,000000,0000,00,9,99,%25E6%25AD%25A6%25E6%25B1%2589,2,1.html?lang=c&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=

扣 182480171,  源码和lun文, 远程演示

# -*- coding:utf-8 -*-

import requests

from lxml import etree

from wordcloud import WordCloud

# 写入csv

def write_csv(name, row):

reload(sys)

sys.setdefaultencoding("utf-8")

# 统计出现频率

def get_count(text):

wordlist_jieba = jieba.cut(text)

# jieba分词

def chinese_jieba(text):

wordlist_jieba = jieba.cut(text)

text_jieba = " ".join(wordlist_jieba)

return text_jieba

# 生成词云图

def get_ciyun(text):

text = chinese_jieba(text)

print(text)

# mask_pic = numpy.array(Image.open(os.path.join(cur_path, "bit.jpg")))

# print(text)

# 背景颜色  词数量  词字体大小  字体文件路径(需要放到和py文件同一个路径下) 去掉的词  遮罩层

font_path = path.join(d, 'fonts', 'Symbola', 'Symbola.ttf')

image.show()

#获取数据

def get_data(url):

result = ''

headers={'Host':'search.51job.com','Upgrade-Insecure-Requests':'1','User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko)\ Chrome/63.0.3239.132 Safari/537.36'}

return result

# 主程序

def main():

url = 'https://search.51job.com/list/180200,000000,0000,00,9,99,%25E6%25AD%25A6%25E6%25B1%2589,2,1.html?lang=c&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare='

text = get_data(url)

#print("获取完毕,分词生成词云")

get_ciyun(text)

get_count(text)

main()

网页:

结果

1 抓取结果

2 词云图

3 统计词频

python爬取前程无忧_Python爬虫获取51job的51job代码,python,抓取,前程无忧相关推荐

  1. python编程理论篇_Python爬虫入门实战之猫眼电影数据抓取(理论篇)

    前言 本文可能篇幅较长,但是绝对干货满满,提供了大量的学习资源和途径.达到让读者独立自主的编写基础网络爬虫的目标,这也是本文的主旨,输出有价值能够真正帮助到读者的知识,即授人以鱼不如授人以渔,让我们直 ...

  2. python爬虫入门实战争胜法_Python爬虫入门实战之猫眼电影数据抓取(理论篇)

    前言 本文可能篇幅较长,但是绝对干货满满,提供了大量的学习资源和途径.达到让读者独立自主的编写基础网络爬虫的目标,这也是本文的主旨,输出有价值能够真正帮助到读者的知识,即授人以鱼不如授人以渔,让我们直 ...

  3. python 爬视频下载_Python爬虫进阶之爬取某视频并下载的实现

    这篇文章我们来讲一下在网站建设中,Python爬虫进阶之爬取某视频并下载的实现.本文对大家进行网站开发设计工作或者学习都有一定帮助,下面让我们进入正文. 这几天在家闲得无聊,意外的挖掘到了一个资源网站 ...

  4. python 爬网站 实例_python爬虫实战:之爬取京东商城实例教程!(含源代码)

    前言: 本文主要介绍的是利用python爬取京东商城的方法,文中介绍的非常详细,下面话不多说了,来看看详细的介绍吧. 主要工具 scrapy BeautifulSoup requests 分析步骤 1 ...

  5. 如何用python爬股票数据_python爬虫股票数据,如何用python 爬虫抓取金融数据

    Q1:如何用python 爬虫抓取金融数据 获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一.鉴于此,我拾起了Python这把利器,开启了网络爬虫之路. 本篇使用的版本为 ...

  6. python爬京东联盟_python爬虫框架scrapy实战之爬取京东商城进阶篇

    前言 之前的一篇文章已经讲过怎样获取链接,怎样获得参数了,详情请看python爬取京东商城普通篇,本文将详细介绍利用python爬虫框架scrapy如何爬取京东商城,下面话不多说了,来看看详细的介绍吧 ...

  7. 如何运用python爬游戏皮肤_Python爬虫练习:20行Python代码爬取王者荣耀全英雄皮肤...

    引言王者荣耀大家都玩过吧,没玩过的也应该听说过,作为时下最火的手机MOBA游戏,咳咳,好像跑题了.我们今天的重点是爬取王者荣耀所有英雄的所有皮肤,而且仅仅使用20行Python代码即可完成. 准备工作 ...

  8. python爬网易新闻_Python爬虫实战教程:爬取网易新闻

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: Amauri PS:如有需要Python学习资料的小伙伴可以加点击 ...

  9. python爬网易新闻_Python爬虫实战教程:爬取网易新闻;爬虫精选 高手技巧

    Python爬虫实战教程:爬取网易新闻:爬虫精选 高手技巧 发布时间:2020-02-21 17:42:43 前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有, ...

最新文章

  1. java中BigDecimal的常见用法
  2. 欢迎参与Java 事务讨论
  3. swift学习笔记-UI篇之UIImageView
  4. 计算机组成与系统 报告,计算机组成与系统结构实验报告2
  5. django 中datetimefile 问题
  6. 贪心法—— LeetCode45 跳跃游戏II(跳跃游戏进阶版)
  7. 在无法单步调试的情况下找Bug的技巧
  8. python logging打印终端_python中那些小众但有用的自带标准库
  9. Clojure 学习入门(3)- 数字类型
  10. Jenkins添加注册用户默认权限/Add a default authenticated user role
  11. NSCharacterSet 去除NSString中的空格
  12. SpringBoot 中解决跨域请求
  13. 【优化算法】白冠鸡优化算法(COOT)【含Matlab源码 1795期】
  14. QT翻译的使用及避坑指南
  15. 宝藏软件:“小狼毫” 一款开源牛叉输入法
  16. java 解压带密码rar_Java解压和压缩带密码的zip文件过程详解
  17. 网络笔记--接入网及网络运营商
  18. JVM00_面试官对类加载器子系统、运行时数据区、内存分布、执行引擎的灵虚拷问,你能坚持到第几问?
  19. 网易WEB白帽子-WEB安全体系建设
  20. 调用聚合数据平台天气接口

热门文章

  1. 华为S交换机堆叠配置大全
  2. 银行数字化转型导师坚鹏:银行数字化转型痛点、路径与对策
  3. 利用For-Each循环进行遍历
  4. 歌曲信息管理系统c语言代码,歌曲信息管理系统_通用完整版.doc
  5. 【C++11 】模板类array对象的使用方法
  6. HTML(1)吃豆豆网页代码
  7. 理解OpenShift(3):网络之 SDN
  8. Mysql 日期比较之DATE_SUB
  9. github新家!https://github.com/woaixiaoyuyu
  10. 惊恐!朋友圈照片被打包倒卖,一套只要五块钱?