python爬取数据热点词生成词云
这是当时在中国mooc学 用python玩转数据 时,写的一个小demo.
程序实现步骤
1.从某一网站爬取数据,比如我是在豆瓣爬取的书评
利用Requests库的get()爬取网页
使用BeatifulSoup库对爬取网页进行解析。
写入文件
2.对所爬取字符串分词
利用分词器 jieba ,逐行用jieba分词,单行代码如:
word_list=pseg.cut(subject)
3.去除停用词
很多如 “的”、“我们”这样的词以及一些符号对主题热点词分析并没有用,所以要删去过滤这些词。代码如:
stop_words =set(line.strip() for line in open('stopwords.txt',encodeing='utf-8'))
4.选择名词
jieba中的词性标签使用了传统方式,例如’n’是名词,’a’是形容词,’v’是动词。数据中的名词更能代表热点,可以单独选择名词进行后续处理,选择所有的名词放到一个列表中的代码如下:
for word, flag in word_list:if not word in stop_words and flag == '
python爬取数据热点词生成词云相关推荐
- [转载]Python爬取豆瓣影评并生成词云图代码
# -*- coding:utf-8 -*- ''' 抓取豆瓣电影某部电影的评论 这里以<我不是潘金莲为例> 网址链接:https://movie.douban.com/subject/2 ...
- python爬取网易云音乐生成王力宏歌曲词云
python爬取网易云音乐生成王力宏歌曲词云 # -*- coding:utf-8 -*- # 网易云音乐,通过歌手id生成词云 import requests import sys,re,os fr ...
- 详解使用Python爬取豆瓣短评并绘制词云
使用Python爬取豆瓣短评并绘制词云 成果如下(比较丑,凑合看) 1.分析网页 打开想要爬取的电影,比如<找到你>,其短评如下: 查看源代码 发现短评存放在<span>标签里 ...
- python爬取数据时报错:`aiohttp.client_exceptions.ClientConnectorCertificateError: Cannot connect to host sea
python爬取数据时报错:aiohttp.client_exceptions.ClientConnectorCertificateError: Cannot connect to host sear ...
- Python:爬取数据出现response.status_code为403解决方法
目录 前言 1. 原理 2. 代码 前言 出现403的返回结果 主要是有些服务器为了防止访问量过大,承受服务器的压力,或者是拒绝你的访问.服务器接收到这个信息,理应返回了这个403的信息 在前一块的代 ...
- python爬取B站评论制作词云
python爬取B站评论制作词云 江山代有才人出,B站评论占一半 废话不多说,咱们直接上代码` import imageio import jieba import wordcloud import ...
- 爬取京东评论并生成词云
import os import time import json import randomimport jieba import requests import numpy as np from ...
- python 爬取数据还要下载scrapy吗_python网络爬虫之Scrapy
本文分享的大体框架包含以下三部分 (1)首先介绍html网页,用来解析html网页的工具xpath (2)介绍python中能够进行网络爬虫的库(requests,lxml,scrapy等) (3)从 ...
- Python爬取数据存储到本地文本文件
前面说过Python爬取的数据可以存储到文件.关系型数据库.非关系型数据库.前面两篇文章没看的,可快速戳这里查看!https://mp.weixin.qq.com/s/A-qry4r3ymuCLXLB ...
最新文章
- Node.js-提供了四种形式的定时器
- java高效编程_Java高效编程
- MATLAB plot画图后横轴去除空白
- NSCalendar 日历类
- centos7 安装mysql php,Centos7安装mysql与php的方法
- IT兄弟连 Java语法教程 Java的发展历程
- 从“负电价”说起:谈谈德国新能源消纳的借鉴意义
- 聊聊 Java 的几把 JVM 级锁
- java numa_Java只使用2个CPU中的1个和NUMA(Neo4J)
- 【Java】模拟分组交换网络的时延、丢包
- EnableViewState和EnableTheming的作用
- arcpy投影(一)——prj、gtf文件定义、路径及解析(arcmap,arcpro)
- 【ATSC】韩国:2017年将迎来ATSC3.0广播时代
- jeecms9自定义标签以及使用新创建的数据库表
- 计算机应用基础在线3,《计算机应用基础》第3阶段在线作业3.docx
- 122、影响爆炸极限的因素
- 块存储服务(Cinder)安装配置,这一篇就够了!
- 入职一年,升职一次,涨薪两次
- 函数的callee和caller的区别和用处
- java.util.Date在jdk1.8之后有新的替代了
热门文章
- 《Java-SE-第二十四章》之线程间协作
- python投资分析实验报告_Python的实验报告怎么写?
- Android Studio 模拟器卡慢、占内存解决方法,上岸蚂蚁金服
- 矮油~ C++ explicit关键字详解
- html+css实现哔哩哔哩游戏网页
- 富文本编辑器使用 ( 手动上传图片视频 动态插入到标签中 )
- Local Root Exploits
- 线程池(ThreadPool)
- 线程池ThreadPool
- mac安装docker oracle 11g,macOS 使用Docker安装Oracle 11g