爬虫大作业_爬取三星Galaxy_S9论坛
1.选一个自己感兴趣的主题或网站。(所有同学不能雷同)
2.用python 编写爬虫程序,从网络上爬取相关主题的数据。
3.对爬了的数据进行文本分析,生成词云。
4.对文本分析结果进行解释说明。
5.写一篇完整的博客,描述上述实现过程、遇到的问题及解决办法、数据分析思想及结论。
6.最后提交爬取的全部数据、爬虫及数据分析源代码。
这次爬取的是三星S9论坛
一共爬取了100页,大约2400篇帖子。对爬取到的文本进行分析,利用结巴分词,提取每篇帖子的20个关键词,再用词云对关键词文本进行分析,生成词云。
一、以下是爬取帖子的相关代码
import requests
from bs4 import BeautifulSoup
import jieba
import jieba.analyse
#将爬取到的文本保存到TXT文件
def file(content):f = open('samsung.txt', 'a', encoding='utf-8')f.write(content)f.write("\r")f.close()
#对论坛中的每一页进行分析,得到每一个帖子的访问链接
def getListUrl(newbbsurl):print(newbbsurl)newbbs = requests.get(newbbsurl)soup1 = BeautifulSoup(newbbs.text, 'html.parser')body = soup1.select('.ImgList')for i in body:aurl = i.select('a')[0].attrs['href']url = ("http://www.galaxyclub.cn" + aurl)print(url)getContent(url)
#爬取每个帖子中的文本,提取每个帖子中的20个关键词,并保存到文件中
def getContent(url):newurl1 = requests.get(url)soup1 = BeautifulSoup(newurl1.text, 'html.parser')body = soup1.select('.BSHARE_POP')[0].texti = jieba.analyse.extract_tags(body, topK=20, withWeight=False, allowPOS=())for a in i:file(a)
#生成前一百页的链接
for i in range(1,100):aurl = 'http://www.galaxyclub.cn/bbs/galaxys_s9-p{}.html'.format(i)getListUrl(aurl)
二、以下是读取文本生成词云的相关代码
from scipy.misc import imread
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator
import matplotlib.pyplot as plt
#用于生成词云的图片
back_color = imread('123.png')
wc = WordCloud(background_color='white', # 生成词云的背景颜色max_words=1000, # 设置最大词数mask=back_color, # 以该参数值作图绘制词云。max_font_size=100, # 显示字体的最大值stopwords=STOPWORDS.add('\n'), # 使用内置的屏蔽词,再添加'苟利国'font_path="C:\Windows\WinSxS\amd64_microsoft-windows-font-truetype-simhei_31bf3856ad364e35_10.0.17133.1_none_d9a7426bdd402fe7\simhei.ttf",# 解决无法显示中文的问题。random_state=45, # 为每个词返回一个PIL颜色)
#读取爬取到的文本文件
f = open('samsung.txt', 'r', encoding='utf-8').read()
wc.generate(f)
# 基于彩色图像生成相应彩色
image_colors = ImageColorGenerator(back_color)
# 显示图片
plt.imshow(wc)
# 关闭坐标轴
plt.axis('off')
# 绘制词云
plt.figure()
plt.imshow(wc.recolor(color_func=image_colors))
plt.axis('off')
# 保存图片
wc.to_file('samsung.png')
三、以下是生成词云时使用的图片和生成的词云
转载于:https://www.cnblogs.com/hano/p/8932475.html
爬虫大作业_爬取三星Galaxy_S9论坛相关推荐
- 爬虫大作业~以爬取hao123漫画为例
一.准备过程 首先打开hao123漫画筛选区,网址是https://www.hao123.com/manhua/list/?finish=&audience=&area=&ca ...
- 爬虫入门实践之爬取虎扑论坛帖子
现在网络以及移动互联网发展迅速,大家花费越来越多的时间逛一些网站浏览帖子,比如贴吧.论坛等.博主喜欢打篮球,爱看NBA,因此常常行迹于虎扑论坛,看一些精彩赛事以及比较好的帖子.本文主要通过对虎扑某一版 ...
- python人人贷爬虫_爬取人人贷网上部分借贷信息以及数据可视化
一.主题式网络爬虫设计方案:爬取人人贷网上部分借贷信息 1.主题式网络爬虫名称:爬取人人贷网上部分信息 2.主题式网络爬虫的内容与数据特征分析:爬取人人贷部分信息数据,借贷信息 3.主题式网络爬虫设计 ...
- python爬虫对炒股有没有用_使用python爬虫实现网络股票信息爬取的demo
实例如下所示: import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url ...
- python爬虫股票市盈率_使用python爬虫实现网络股票信息爬取的demo
实例如下所示: import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url ...
- 【期末课设】python爬虫基础与可视化,使用python语言以及支持python语言的第三方技术实现爬虫功能,定向爬取网页的图片数据,并且实现批量自动命名分类下载。
1.大作业的内容 本要求使用python语言以及支持python语言的第三方技术实现爬虫功能,定向爬取网页的图片数据,并且实现批量自动命名分类下载. 2.案例需求 要求采用虚拟浏览器等动态爬虫技术,完 ...
- python爬取图片教程-推荐|Python 爬虫系列教程一爬取批量百度图片
Python 爬虫系列教程一爬取批量百度图片https://blog.csdn.net/qq_40774175/article/details/81273198# -*- coding: utf-8 ...
- python爬去百度百科词条_Python爬虫入门学习实践——爬取小说
本学期开始接触python,python是一种面向对象的.解释型的.通用的.开源的脚本编程语言,我觉得python最大的优点就是简单易用,学习起来比较上手,对代码格式的要求没有那么严格,这种风格使得我 ...
- 爬虫项目三:爬取选课信息
爬虫项目三:爬取whut-jwc选课信息 项目实现:主要获得通识选修.个性选课.英语体育选课的课程信息 核心: 1.实现网页登陆 2.爬取课程信息 一.网页信息登陆 from selenium imp ...
最新文章
- oracle自动化,Oracle 自动化备份脚本
- 超可爱,抖音爆款实时视频漫画变身特效技术
- 发现一个ps抠毛发简单快捷高质量的方法
- SAP ABAP实用技巧介绍系列之反模式:一些低效的ABAP内表操作
- 通示jQuery实例方法,未DOM对象添加多个方法
- jsp+java bean+mysql数据库进行分页显示
- 我有一个朋友毕业后一直在腾讯
- 如何提高 Rust 程序的性能?
- Magic Battery for Mac(电量显示工具)
- 图像坐标系与世界坐标系的变
- python抽奖教程_python实现抽奖小程序
- C 语言中MDI有什么作用,Qt MDI及其使用方法(详解版)
- pcap_compile
- Ae 表达式语言引用​:Comp
- 点线面的意义_【干货】设计中的点线面到底有什么用?
- 【location】将url参数转换为对象的形式
- vivo手机删除自带程序方法
- win10下右键菜单项里没有“打开方式“的解决办法
- error LNK1120: 2个无法解析的外部命令:vtkRenderingOpenGL_AutoInit(Construct、Destruct),该函数在......中被引用
- 看电影的计算机配置,2160p的电影需要什么电脑配置看才流畅?
热门文章
- windows聚焦壁纸不更新_win10系统锁屏壁纸聚焦不更新的解决方法
- android原生分享功能,Android原生分享到微博、微信等平台的实现方式
- 已解决selenium.common.exceptions.WebDriverException: Message: unknown error: cannot find Chrome binary
- 2021-04-14
- 面向对象编程三种特性
- python 爬虫 requests模块 中的Cookies 验证 通过验证cookies模拟登陆豆瓣登陆
- word标尺灰色_如何在Microsoft Word中使用标尺
- CISP证书专栏 — CISP-IRE证书
- kafka指定偏移量拉取与偏移量半自动提交
- 收集了以下神注释,缓解你们工作中的压力