目录

一、写在前面

二、关于代码

三、一些词云图

3.1 筛选条件:无

3.2 筛选条件:性别-男

3.3 筛选条件:性别-女

3.4 筛选条件:教程程度-研究生及其以上

3.5 筛选条件:教育程度-本科

3.6 筛选条件:籍贯-福建

3.7 筛选条件:籍贯-广东

3.8 筛选条件:借款理由-含“苹果”两字

四、代码

4.1 导入库

4.2 导入数据

4.3 设置停用词

4.4 生成词云图代码

五、写在最后


一、写在前面

关于人人贷的历史博文:人人贷散标爬虫实例_小zhan柯基-CSDN博客_人人贷爬虫、人人贷散标爬虫实例进阶-使用异步io_小zhan柯基-CSDN博客、用python处理28万条人人贷数据,告诉你最详细的借款人结构分布情况_小zhan柯基-CSDN博客

上篇关于人人贷的博文中提到3点,一是可以继续挖掘数据,比如分析各个年龄段的学历分布什么的;二是可以利用人人贷的数据训练信用评价的神经网络模型;三是可以利用借款理由这一列数据生成词云图。

由于最近忙着进行区块链与供应链金融的相关研究,所以这次就先挑软柿子捏吧,生成个词云图还是特别快的。

最后,有需要人人贷贷款数据的私信我!

二、关于代码

生成词语图的方法就不赘述啦哈,网上一搜教程一大堆,例如Python制作炫酷的词云图(包含停用词、词频统计)!!!_gjgfjgy的博客-CSDN博客_停用词分析、绘制词云图
EDG夺冠,用Python分析一波:粉丝都炸锅了_数据分析与统计学之美-CSDN博客
这里提一点关于

pandas一个比较常用的用法:筛选包含某个关键词的行/列!

首先数据如上图,共含有284316条借款理由的数据,如果我要找出借款理由里含有“苹果”两个字的数据应该怎么做呢?

conciseData[conciseData["借款理由"].str.contains("苹果",na=False)]["借款理由"]

从上图可以看出,借款买苹果手机的数据只有646条,占比0.23%,看来买借款买苹果手机的并不多哈哈哈哈。

三、一些词云图

3.1 筛选条件:无

3.2 筛选条件:性别-男

3.3 筛选条件:性别-女

3.4 筛选条件:教程程度-研究生及其以上

3.5 筛选条件:教育程度-本科

3.6 筛选条件:籍贯-福建

3.7 筛选条件:籍贯-广东

3.8 筛选条件:借款理由-含“苹果”两字

四、代码

4.1 导入库

import numpy as np
import matplotlib.pyplot as plt
import pandas as pdimport matplotlib.ticker as ticker
import mpl_toolkits.axisartist as AA
from mpl_toolkits.axisartist.axislines import SubplotZero
import pylabimport jieba
from wordcloud import WordCloudpylab.mpl.rcParams['font.sans-serif'] = ['SimHei'] #显示中文
plt.rcParams['axes.unicode_minus']=False  #用于解决不能显示负号的问题

4.2 导入数据

data = pd.read_csv("all.csv",encoding="gbk",header=None,parse_dates=True)
data.columns = ["id","借款时间(月)","剩余还款时间(月)","借款金额","notPayInterest","productRepayType","贷款类型","利率","性别","籍贯","出生日期","教育程度","工作单位","行业","公司规模","职位","收入","车贷","汽车数量","婚姻状况","房贷","房子数量","信用等级","none","none","none","借款理由"]conciseData = data[["id","借款时间(月)","剩余还款时间(月)","借款金额","贷款类型","利率","性别","籍贯","出生日期","教育程度","工作单位","行业","公司规模","职位","收入","车贷","汽车数量","婚姻状况","房贷","房子数量","信用等级","借款理由"]]
conciseData = conciseData.set_index("id")
conciseData = conciseData.dropna(how="all")

4.3 设置停用词

stopWords = ["人人","真实有效","同时","符合","借款人","提供","上述","考察","实地","已经","希望","大家","认证","审核","此次","公司","众信","借款","谢谢","比较","第一次","压力","贷","的","标准","方友","业","还款","收入","用于","信息","以上","问题","好","一下","通过","稳定","全国","企业","位于","该","为","自己","现居","工作","单位","但","高","一些","还清","行业","主要","从事","有","无","良好","贷款","累计","自","放心","家里","吱吱","为了","放款","多","在","年","所","抵押","无担保","服务","本人","多多","小额贷款","想","与","借","给","建立""支持","至今","安信","良好","最","多","探索","大","小","证大速贷","成立","于","信用","成立","每月","流水","一家","因为","我","和","是","做","所以","迅速","以来","需""快速","简便","可以","专门","资料","经","了","也","现在","由于","测试","需要","元","也","还","个","月","人","申请","等","能","了","及","没有","现在","就","进行","都","各位","急急","每个","准备","有限公司","目前","保证","按时","因","可","持续","一个","上","到","万","要","现","来","想","个人","左右","不","年底","能力",]

4.4 生成词云图代码

由于28W条数据过多,此处采用步距为3对数据切片!

txt = ""for each in conciseData[conciseData["性别"]=="男"]["借款理由"][::3]:if isinstance(each,str):txt += each + "  "words = jieba.cut(txt) #分词result = ""
for each in words:if each not in stopWords:result += each + " "wordshow = WordCloud(background_color='black',width=800,height=800,max_words=800,max_font_size=100,font_path="msyh.ttc",    ).generate(result)wordshow.to_file('男.png')

五、写在最后

众生皆苦,不止你一个,放下即是自在。

用Python生成人人贷借款理由词云图相关推荐

  1. python生成微信个性签名的词云图

    需要用到的库:itchat,jieba,numpy,wordcloud import itchat import re import jieba import matplotlib.pyplot as ...

  2. 基于Python的特定形状透明背景词云图绘制

    基于Python的特定形状透明背景词云图绘制 1.需求分析 2.前期准备 2.1文本文件准备 2.2特定形状图片准备 3.代码解析与实现 3.1模块库的导入 3.2停用词表 3.3基于TF-IDF提取 ...

  3. python中词云图怎样变成特殊图案_如何利用python画出一个多变的词云图?(1)...

    问题描述: 如何利用python画出一个多变的词云图? 解决方法:import numpy as np import matplotlib import matplotlib.pyplot as pl ...

  4. 用Python做中文分词和绘制词云图

    用Python做中文分词和绘制词云图 Python窗体布局 def __init__(self):self.root=Tk()self.root.wm_title('绘制词云')self.root.r ...

  5. python image stiching_Python自然语言处理,词云图生成

    自然语言处理 本节介绍如何使用Python中的库,生成词云图,涉及自然语言处理的相关问题,自然语言处理是计算机科学领域与人工智能领域中的一个重要方向.它研究能实现人与计算机之间用自然语言进行有效通信的 ...

  6. Python爬虫 - 人人贷散标

    前言 这次爬的网站 人人贷 - 散标 是一个客户要求爬的,数据一共是148w多条,不过后来发现有绝大部分是无效数据,也就是那个页面不存在,不过我看网上很多人爬这个网站都是用什么 BeautifulSo ...

  7. python爬人人贷代码视频_【IT专家】人人贷网的数据爬取(利用python包selenium)

    本文由我司收集整编,推荐下载,如有疑问,请与我司联系 人人贷网的数据爬取(利用 python 包 selenium ) 2016/12/31 0 记得之前应同学之情,帮忙爬取人人贷网的借贷人信息,综合 ...

  8. python爬人人贷代码视频_Python爬虫 - 人人贷散标

    前言这次爬的网站 [人人贷 - 散标](网贷p2p散标列表 - 人人贷官网) 是一个客户要求爬的,数据一共是148w多条,不过后来发现有绝大部分是无效数据,也就是那个页面不存在,不过我看网上很多人爬这 ...

  9. [Python]*词云图生成——默认和图片蒙版词云图

    1.生成默认画布词云图 : import wordcloud as wc #导入词云库 import jieba #jieba中文分词库 import matplotlib.pyplot as plt ...

  10. Python简单的枫叶形状的词云图

    Python有很多词云库,其中比较流行的有wordcloud和pytagcloud.这里我们以wordcloud为例,可通过以下代码安装该库: pip install wordcloud 1提取文本数 ...

最新文章

  1. 标签在MPLS网络中的功能—Vecloud
  2. Operations on Numbers Strings
  3. ICLR 2017 | GAN Missing Modes 和 GAN
  4. 【转】XMPP_3920_最靠谱的中文翻译文档
  5. php 不识别 函数,奇怪的PHP错误:函数无法识别自己的参数
  6. pixel 解锁_如何在Google Pixel 4和Pixel 4 XL上禁用面部解锁
  7. java比赛题目_【蓝桥杯2016第七届比赛题目】JAVA A组
  8. linux-stat查属
  9. python 的多线程执行速度
  10. 解决MySQL下把结果导出到文件权限不足问题
  11. struts入门的ognl
  12. DRmare Audio Converter Mac使用指南 - DRM音频清除转换
  13. 张量分解在无线通信和MIMO雷达中的概述
  14. 用友t3系统打印机如何连接到服务器,用友软件打印凭证的时候如何为当前电脑添加打印机?...
  15. 当程序员变成软件项目经理
  16. 在禁用UAC时无法激活此应用
  17. Array和Slices
  18. Design Compiler工具学习笔记(7)
  19. 【opencv学习】【图像直方图和均衡化】
  20. 百度数据实习生面试经历—2019.4.15

热门文章

  1. 如何检索论文被引用情况
  2. click与onclick的区别
  3. mybatis 通配符
  4. 手把手教你基于Springboot+Vue搭建个人博客网站
  5. CKA 认证笔记 - CKA 认证经验帖
  6. SU2 CFD代码阅读
  7. android 判断是否是标点符号_如何“专业”的定义Android的string资源中标点符号及特殊字符...
  8. java 及时释放内存_Java里可以自动释放的不只是内存,只要是“资源”,都可以自动释放!轻松加愉快!...
  9. 什么是搜索引擎营销(SEM)?
  10. pyinstaller 打包exe启动慢的问题