爬虫大作业_爬取三星Galaxy

1.选一个自己感兴趣的主题或网站。(所有同学不能雷同)

2.用python 编写爬虫程序，从网络上爬取相关主题的数据。

3.对爬了的数据进行文本分析，生成词云。

4.对文本分析结果进行解释说明。

5.写一篇完整的博客，描述上述实现过程、遇到的问题及解决办法、数据分析思想及结论。

6.最后提交爬取的全部数据、爬虫及数据分析源代码。

这次爬取的是三星S9论坛

一共爬取了100页，大约2400篇帖子。对爬取到的文本进行分析，利用结巴分词，提取每篇帖子的20个关键词，再用词云对关键词文本进行分析，生成词云。

一、以下是爬取帖子的相关代码

import requests
from bs4 import BeautifulSoup
import jieba
import jieba.analyse
#将爬取到的文本保存到TXT文件
def file(content):f = open('samsung.txt', 'a', encoding='utf-8')f.write(content)f.write("\r")f.close()
#对论坛中的每一页进行分析，得到每一个帖子的访问链接
def getListUrl(newbbsurl):print(newbbsurl)newbbs = requests.get(newbbsurl)soup1 = BeautifulSoup(newbbs.text, 'html.parser')body = soup1.select('.ImgList')for i in body:aurl = i.select('a')[0].attrs['href']url = ("http://www.galaxyclub.cn" + aurl)print(url)getContent(url)
#爬取每个帖子中的文本，提取每个帖子中的20个关键词，并保存到文件中
def getContent(url):newurl1 = requests.get(url)soup1 = BeautifulSoup(newurl1.text, 'html.parser')body = soup1.select('.BSHARE_POP')[0].texti = jieba.analyse.extract_tags(body, topK=20, withWeight=False, allowPOS=())for a in i:file(a)
#生成前一百页的链接
for i in range(1,100):aurl = 'http://www.galaxyclub.cn/bbs/galaxys_s9-p{}.html'.format(i)getListUrl(aurl)

二、以下是读取文本生成词云的相关代码

from scipy.misc import imread
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator
import matplotlib.pyplot as plt
#用于生成词云的图片
back_color = imread('123.png')
wc = WordCloud(background_color='white',  # 生成词云的背景颜色max_words=1000,  # 设置最大词数mask=back_color,  # 以该参数值作图绘制词云。max_font_size=100,  # 显示字体的最大值stopwords=STOPWORDS.add('\n'),  # 使用内置的屏蔽词，再添加'苟利国'font_path="C:\Windows\WinSxS\amd64_microsoft-windows-font-truetype-simhei_31bf3856ad364e35_10.0.17133.1_none_d9a7426bdd402fe7\simhei.ttf",# 解决无法显示中文的问题。random_state=45,  # 为每个词返回一个PIL颜色)
#读取爬取到的文本文件
f = open('samsung.txt', 'r', encoding='utf-8').read()
wc.generate(f)
# 基于彩色图像生成相应彩色
image_colors = ImageColorGenerator(back_color)
# 显示图片
plt.imshow(wc)
# 关闭坐标轴
plt.axis('off')
# 绘制词云
plt.figure()
plt.imshow(wc.recolor(color_func=image_colors))
plt.axis('off')
# 保存图片
wc.to_file('samsung.png')

三、以下是生成词云时使用的图片和生成的词云

转载于:https://www.cnblogs.com/hano/p/8932475.html

爬虫大作业_爬取三星Galaxy_S9论坛相关推荐

爬虫大作业~以爬取hao123漫画为例
一.准备过程首先打开hao123漫画筛选区,网址是https://www.hao123.com/manhua/list/?finish=&audience=&area=&ca ...
爬虫入门实践之爬取虎扑论坛帖子
现在网络以及移动互联网发展迅速,大家花费越来越多的时间逛一些网站浏览帖子,比如贴吧.论坛等.博主喜欢打篮球,爱看NBA,因此常常行迹于虎扑论坛,看一些精彩赛事以及比较好的帖子.本文主要通过对虎扑某一版 ...
python人人贷爬虫_爬取人人贷网上部分借贷信息以及数据可视化
一.主题式网络爬虫设计方案:爬取人人贷网上部分借贷信息 1.主题式网络爬虫名称:爬取人人贷网上部分信息 2.主题式网络爬虫的内容与数据特征分析:爬取人人贷部分信息数据,借贷信息 3.主题式网络爬虫设计 ...
python爬虫对炒股有没有用_使用python爬虫实现网络股票信息爬取的demo
实例如下所示: import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url ...
python爬虫股票市盈率_使用python爬虫实现网络股票信息爬取的demo
实例如下所示: import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url ...
【期末课设】python爬虫基础与可视化，使用python语言以及支持python语言的第三方技术实现爬虫功能，定向爬取网页的图片数据，并且实现批量自动命名分类下载。
1.大作业的内容本要求使用python语言以及支持python语言的第三方技术实现爬虫功能,定向爬取网页的图片数据,并且实现批量自动命名分类下载. 2.案例需求要求采用虚拟浏览器等动态爬虫技术,完 ...
python爬取图片教程-推荐|Python 爬虫系列教程一爬取批量百度图片
Python 爬虫系列教程一爬取批量百度图片https://blog.csdn.net/qq_40774175/article/details/81273198# -*- coding: utf-8 ...
python爬去百度百科词条_Python爬虫入门学习实践——爬取小说
本学期开始接触python,python是一种面向对象的.解释型的.通用的.开源的脚本编程语言,我觉得python最大的优点就是简单易用,学习起来比较上手,对代码格式的要求没有那么严格,这种风格使得我 ...
爬虫项目三：爬取选课信息
爬虫项目三:爬取whut-jwc选课信息项目实现:主要获得通识选修.个性选课.英语体育选课的课程信息核心: 1.实现网页登陆 2.爬取课程信息一.网页信息登陆 from selenium imp ...

爬虫大作业_爬取三星Galaxy_S9论坛

爬虫大作业_爬取三星Galaxy_S9论坛相关推荐

最新文章

热门文章