这是当时在中国mooc学 用python玩转数据 时,写的一个小demo.

程序实现步骤

1.从某一网站爬取数据,比如我是在豆瓣爬取的书评

利用Requests库的get()爬取网页

使用BeatifulSoup库对爬取网页进行解析。

写入文件

2.对所爬取字符串分词

利用分词器 jieba ,逐行用jieba分词,单行代码如:

word_list=pseg.cut(subject)

3.去除停用词

很多如 “的”、“我们”这样的词以及一些符号对主题热点词分析并没有用,所以要删去过滤这些词。代码如:

stop_words =set(line.strip() for line in open('stopwords.txt',encodeing='utf-8'))

4.选择名词

jieba中的词性标签使用了传统方式,例如’n’是名词,’a’是形容词,’v’是动词。数据中的名词更能代表热点,可以单独选择名词进行后续处理,选择所有的名词放到一个列表中的代码如下:

        for word, flag in word_list:if not word in stop_words and flag == '

python爬取数据热点词生成词云相关推荐

  1. [转载]Python爬取豆瓣影评并生成词云图代码

    # -*- coding:utf-8 -*- ''' 抓取豆瓣电影某部电影的评论 这里以<我不是潘金莲为例> 网址链接:https://movie.douban.com/subject/2 ...

  2. python爬取网易云音乐生成王力宏歌曲词云

    python爬取网易云音乐生成王力宏歌曲词云 # -*- coding:utf-8 -*- # 网易云音乐,通过歌手id生成词云 import requests import sys,re,os fr ...

  3. 详解使用Python爬取豆瓣短评并绘制词云

    使用Python爬取豆瓣短评并绘制词云 成果如下(比较丑,凑合看) 1.分析网页 打开想要爬取的电影,比如<找到你>,其短评如下: 查看源代码 发现短评存放在<span>标签里 ...

  4. python爬取数据时报错:`aiohttp.client_exceptions.ClientConnectorCertificateError: Cannot connect to host sea

    python爬取数据时报错:aiohttp.client_exceptions.ClientConnectorCertificateError: Cannot connect to host sear ...

  5. Python:爬取数据出现response.status_code为403解决方法

    目录 前言 1. 原理 2. 代码 前言 出现403的返回结果 主要是有些服务器为了防止访问量过大,承受服务器的压力,或者是拒绝你的访问.服务器接收到这个信息,理应返回了这个403的信息 在前一块的代 ...

  6. python爬取B站评论制作词云

    python爬取B站评论制作词云 江山代有才人出,B站评论占一半 废话不多说,咱们直接上代码` import imageio import jieba import wordcloud import ...

  7. 爬取京东评论并生成词云

    import os import time import json import randomimport jieba import requests import numpy as np from ...

  8. python 爬取数据还要下载scrapy吗_python网络爬虫之Scrapy

    本文分享的大体框架包含以下三部分 (1)首先介绍html网页,用来解析html网页的工具xpath (2)介绍python中能够进行网络爬虫的库(requests,lxml,scrapy等) (3)从 ...

  9. Python爬取数据存储到本地文本文件

    前面说过Python爬取的数据可以存储到文件.关系型数据库.非关系型数据库.前面两篇文章没看的,可快速戳这里查看!https://mp.weixin.qq.com/s/A-qry4r3ymuCLXLB ...

最新文章

  1. Node.js-提供了四种形式的定时器
  2. java高效编程_Java高效编程
  3. MATLAB plot画图后横轴去除空白
  4. NSCalendar 日历类
  5. centos7 安装mysql php,Centos7安装mysql与php的方法
  6. IT兄弟连 Java语法教程 Java的发展历程
  7. 从“负电价”说起:谈谈德国新能源消纳的借鉴意义
  8. 聊聊 Java 的几把 JVM 级锁
  9. java numa_Java只使用2个CPU中的1个和NUMA(Neo4J)
  10. 【Java】模拟分组交换网络的时延、丢包
  11. EnableViewState和EnableTheming的作用
  12. arcpy投影(一)——prj、gtf文件定义、路径及解析(arcmap,arcpro)
  13. 【ATSC】韩国:2017年将迎来ATSC3.0广播时代
  14. jeecms9自定义标签以及使用新创建的数据库表
  15. 计算机应用基础在线3,《计算机应用基础》第3阶段在线作业3.docx
  16. 122、影响爆炸极限的因素
  17. 块存储服务(Cinder)安装配置,这一篇就够了!
  18. 入职一年,升职一次,涨薪两次
  19. 函数的callee和caller的区别和用处
  20. java.util.Date在jdk1.8之后有新的替代了

热门文章

  1. 《Java-SE-第二十四章》之线程间协作
  2. python投资分析实验报告_Python的实验报告怎么写?
  3. Android Studio 模拟器卡慢、占内存解决方法,上岸蚂蚁金服
  4. 矮油~ C++ explicit关键字详解
  5. html+css实现哔哩哔哩游戏网页
  6. 富文本编辑器使用 ( 手动上传图片视频 动态插入到标签中 )
  7. Local Root Exploits
  8. 线程池(ThreadPool)
  9. 线程池ThreadPool
  10. mac安装docker oracle 11g,macOS 使用Docker安装Oracle 11g