1.选一个自己感兴趣的主题或网站。(所有同学不能雷同)

2.用python 编写爬虫程序,从网络上爬取相关主题的数据。

3.对爬了的数据进行文本分析,生成词云。

4.对文本分析结果进行解释说明。

5.写一篇完整的博客,描述上述实现过程、遇到的问题及解决办法、数据分析思想及结论。

6.最后提交爬取的全部数据、爬虫及数据分析源代码。

这次爬取的是三星S9论坛

一共爬取了100页,大约2400篇帖子。对爬取到的文本进行分析,利用结巴分词,提取每篇帖子的20个关键词,再用词云对关键词文本进行分析,生成词云。

一、以下是爬取帖子的相关代码

import requests
from bs4 import BeautifulSoup
import jieba
import jieba.analyse
#将爬取到的文本保存到TXT文件
def file(content):f = open('samsung.txt', 'a', encoding='utf-8')f.write(content)f.write("\r")f.close()
#对论坛中的每一页进行分析,得到每一个帖子的访问链接
def getListUrl(newbbsurl):print(newbbsurl)newbbs = requests.get(newbbsurl)soup1 = BeautifulSoup(newbbs.text, 'html.parser')body = soup1.select('.ImgList')for i in body:aurl = i.select('a')[0].attrs['href']url = ("http://www.galaxyclub.cn" + aurl)print(url)getContent(url)
#爬取每个帖子中的文本,提取每个帖子中的20个关键词,并保存到文件中
def getContent(url):newurl1 = requests.get(url)soup1 = BeautifulSoup(newurl1.text, 'html.parser')body = soup1.select('.BSHARE_POP')[0].texti = jieba.analyse.extract_tags(body, topK=20, withWeight=False, allowPOS=())for a in i:file(a)
#生成前一百页的链接
for i in range(1,100):aurl = 'http://www.galaxyclub.cn/bbs/galaxys_s9-p{}.html'.format(i)getListUrl(aurl)

二、以下是读取文本生成词云的相关代码

from scipy.misc import imread
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator
import matplotlib.pyplot as plt
#用于生成词云的图片
back_color = imread('123.png')
wc = WordCloud(background_color='white',  # 生成词云的背景颜色max_words=1000,  # 设置最大词数mask=back_color,  # 以该参数值作图绘制词云。max_font_size=100,  # 显示字体的最大值stopwords=STOPWORDS.add('\n'),  # 使用内置的屏蔽词,再添加'苟利国'font_path="C:\Windows\WinSxS\amd64_microsoft-windows-font-truetype-simhei_31bf3856ad364e35_10.0.17133.1_none_d9a7426bdd402fe7\simhei.ttf",# 解决无法显示中文的问题。random_state=45,  # 为每个词返回一个PIL颜色)
#读取爬取到的文本文件
f = open('samsung.txt', 'r', encoding='utf-8').read()
wc.generate(f)
# 基于彩色图像生成相应彩色
image_colors = ImageColorGenerator(back_color)
# 显示图片
plt.imshow(wc)
# 关闭坐标轴
plt.axis('off')
# 绘制词云
plt.figure()
plt.imshow(wc.recolor(color_func=image_colors))
plt.axis('off')
# 保存图片
wc.to_file('samsung.png')

三、以下是生成词云时使用的图片和生成的词云

转载于:https://www.cnblogs.com/hano/p/8932475.html

爬虫大作业_爬取三星Galaxy_S9论坛相关推荐

  1. 爬虫大作业~以爬取hao123漫画为例

    一.准备过程 首先打开hao123漫画筛选区,网址是https://www.hao123.com/manhua/list/?finish=&audience=&area=&ca ...

  2. 爬虫入门实践之爬取虎扑论坛帖子

    现在网络以及移动互联网发展迅速,大家花费越来越多的时间逛一些网站浏览帖子,比如贴吧.论坛等.博主喜欢打篮球,爱看NBA,因此常常行迹于虎扑论坛,看一些精彩赛事以及比较好的帖子.本文主要通过对虎扑某一版 ...

  3. python人人贷爬虫_爬取人人贷网上部分借贷信息以及数据可视化

    一.主题式网络爬虫设计方案:爬取人人贷网上部分借贷信息 1.主题式网络爬虫名称:爬取人人贷网上部分信息 2.主题式网络爬虫的内容与数据特征分析:爬取人人贷部分信息数据,借贷信息 3.主题式网络爬虫设计 ...

  4. python爬虫对炒股有没有用_使用python爬虫实现网络股票信息爬取的demo

    实例如下所示: import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url ...

  5. python爬虫股票市盈率_使用python爬虫实现网络股票信息爬取的demo

    实例如下所示: import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url ...

  6. 【期末课设】python爬虫基础与可视化,使用python语言以及支持python语言的第三方技术实现爬虫功能,定向爬取网页的图片数据,并且实现批量自动命名分类下载。

    1.大作业的内容 本要求使用python语言以及支持python语言的第三方技术实现爬虫功能,定向爬取网页的图片数据,并且实现批量自动命名分类下载. 2.案例需求 要求采用虚拟浏览器等动态爬虫技术,完 ...

  7. python爬取图片教程-推荐|Python 爬虫系列教程一爬取批量百度图片

    Python 爬虫系列教程一爬取批量百度图片https://blog.csdn.net/qq_40774175/article/details/81273198# -*- coding: utf-8 ...

  8. python爬去百度百科词条_Python爬虫入门学习实践——爬取小说

    本学期开始接触python,python是一种面向对象的.解释型的.通用的.开源的脚本编程语言,我觉得python最大的优点就是简单易用,学习起来比较上手,对代码格式的要求没有那么严格,这种风格使得我 ...

  9. 爬虫项目三:爬取选课信息

    爬虫项目三:爬取whut-jwc选课信息 项目实现:主要获得通识选修.个性选课.英语体育选课的课程信息 核心: 1.实现网页登陆 2.爬取课程信息 一.网页信息登陆 from selenium imp ...

最新文章

  1. oracle自动化,Oracle 自动化备份脚本
  2. 超可爱,抖音爆款实时视频漫画变身特效技术
  3. 发现一个ps抠毛发简单快捷高质量的方法
  4. SAP ABAP实用技巧介绍系列之反模式:一些低效的ABAP内表操作
  5. 通示jQuery实例方法,未DOM对象添加多个方法
  6. jsp+java bean+mysql数据库进行分页显示
  7. 我有一个朋友毕业后一直在腾讯
  8. 如何提高 Rust 程序的性能?
  9. Magic Battery for Mac(电量显示工具)
  10. 图像坐标系与世界坐标系的变
  11. python抽奖教程_python实现抽奖小程序
  12. C 语言中MDI有什么作用,Qt MDI及其使用方法(详解版)
  13. pcap_compile
  14. Ae 表达式语言引用​:Comp
  15. 点线面的意义_【干货】设计中的点线面到底有什么用?
  16. 【location】将url参数转换为对象的形式
  17. vivo手机删除自带程序方法
  18. win10下右键菜单项里没有“打开方式“的解决办法
  19. error LNK1120: 2个无法解析的外部命令:vtkRenderingOpenGL_AutoInit(Construct、Destruct),该函数在......中被引用
  20. 看电影的计算机配置,2160p的电影需要什么电脑配置看才流畅?

热门文章

  1. windows聚焦壁纸不更新_win10系统锁屏壁纸聚焦不更新的解决方法
  2. android原生分享功能,Android原生分享到微博、微信等平台的实现方式
  3. 已解决selenium.common.exceptions.WebDriverException: Message: unknown error: cannot find Chrome binary
  4. 2021-04-14
  5. 面向对象编程三种特性
  6. python 爬虫 requests模块 中的Cookies 验证 通过验证cookies模拟登陆豆瓣登陆
  7. word标尺灰色_如何在Microsoft Word中使用标尺
  8. CISP证书专栏 — CISP-IRE证书
  9. kafka指定偏移量拉取与偏移量半自动提交
  10. 收集了以下神注释,缓解你们工作中的压力