1.选一个自己感兴趣的主题。

2.网络上爬取相关的数据。

3.进行文本分析,生成词云。

4.对文本分析结果解释说明。

5.写一篇完整的博客,附上源代码、数据爬取及分析结果,形成一个可展示的成果。

网站:80电影天堂网站(http://www.80dyy.cc/80kehuan/index.html)

我预期是首先完成的爬取所有科幻片的演员的名字,然后分析出哪些演员的频率高,得知他在该网站的电影中的热门程度

分析网站,看的电影的标题和连接放在<li>标签里面的<dl>标签里,主要看代码部分的解释

爬取内容保存到数据库代码import requests

由于<dl>标签里 的连接只是后面那部分,所以使用了一条循环,补全链接

for names in soup.select('dl'):      name = names.select('a')[0]['href']addname = "http://www.80dyy.cc{}".format(name)        

提取内容到数据库的代码:

import re
from bs4 import BeautifulSoup
from datetime import datetime
import pandas
import sqlite3def getdetail(url):resd = requests.get(url)resd.encoding='gbk'   soupd=BeautifulSoup(resd.text,'html.parser')namels={}#print(url)for names in soupd.select('.mtext'):namels['标题'] = names.select('li')[0].contents[0].textnamels['链接']= urlaction= names.select('li')[1].textaction = action.replace('\xa0',' ')namels["演员"] = action[3:len(action)+1]return(namels)def onepage(pageurl):res = requests.get(pageurl)res.encoding = 'gbk'soup = BeautifulSoup(res.text,'html.parser')namels = []for names in soup.select('dl'):      name = names.select('a')[0]['href']#print(name)addname = "http://www.80dyy.cc{}".format(name)
        namels.append(getdetail(addname)) #break  #这个用来停止循环,等一页的所有信息都完成后删去即可return namelsnewst= []
zurl = 'http://www.80dyy.cc/80kehuan/'
resd = requests.get(zurl)
resd.encoding='gbk'
soup=BeautifulSoup(resd.text,'html.parser')
newst.extend(onepage(zurl))for i in range(2,4):listurl='http://www.80dyy.cc/80kehuan/index{}.html'.format(i)newst.extend(onepage(listurl))#print(newst)

df = pandas.DataFrame(newst)
with sqlite3.connect("dyactiondb10.sqlite") as db:df.to_sql('dyactiondb108',con = db)

保存成功

保存到本地excel并查看excel表格:

df = pandas.DataFrame(newst)
df.to_excel('dyaction.xlsx')

由上面得到的列表newst。接下来把列表的演员全部输出,并保存到text文件里。

df = pandas.DataFrame(newst)
print(df["演员"])

由于文件内容过多,我选择先完成2个页面的输出:

处理成字符型数据:

df = pandas.DataFrame(newst)
#print(df["演员"])
straction = " ".join(df["演员"])
print(straction)

输出的结果:

接下来,做词云统计。

把保存到text的文件先统计出现的次数,看有没有不相干的词语。

import jiebatxt = open("ac1.txt","r",encoding='utf-8').read()ls = []
words = jieba.lcut(txt)
counts = {}
for word in words:ls.append(word)if len(word) == 1:continueelse:counts[word] = counts.get(word,0)+1items = list(counts.items())
items.sort(key = lambda x:x[1], reverse = True)
for i in range(50):word , count = items[i]print ("{:<10}{:>5}".format(word,count))

结果:

接下来完成词云部分:

import jieba
import WordCloud
import matplotlib.pyplot as plttxt = open("ac1.txt","r",encoding='utf-8').read()wordlist = jieba.cut(text,cut_all=True)
wl_split = "/".join(wordlist)mywc = WordCloud().generate(text)
plt.imshow(mywc)
plt.axis("off")
plt.show()

分析出迈克尔、克里斯、约翰、威廉等词出现的次数最多。

转载于:https://www.cnblogs.com/ruijin-chen/p/7718896.html

一个完整的大作业:80电影天堂网站相关推荐

  1. HTML5期末大作业:电影票务网站设计——电影票务网站整套(24页) HTML+CSS+JavaScript 学生DW网页设计作业成品 web课程设计网页规划与设计 计算机毕设网页设计源码

    HTML5期末大作业:电影票务网站设计--电影票务网站整套(24页) HTML+CSS+JavaScript 学生DW网页设计作业成品 web课程设计网页规划与设计 计算机毕设网页设计源码 常见网页设 ...

  2. HTML5期末大作业:电影在线网站设计——漫威电影(2页) 免费大学生网页设计制作作业作品下载dreamweaver制作静态html网页设计作业作

    HTML5期末大作业:电影在线网站设计--漫威电影(2页) 免费大学生网页设计制作作业作品下载dreamweaver制作静态html网页设计作业作 常见网页设计作业题材有 个人. 美食. 公司. 学校 ...

  3. HTML5期末大作业:电影影视网站设计——电影介绍(11页) 学生HTML个人网页作业作品下载 个人电影影视网页设计制作 大学生个人电影影视网站作业模板 简单个人电影影视

    HTML5期末大作业:电影影视网站设计--电影介绍(11页) 学生HTML个人网页作业作品下载 个人电影影视网页设计制作 大学生个人电影影视网站作业模板 简单个人电影影视 常见网页设计作业题材有 个人 ...

  4. HTML5期末大作业:电影介绍网站设计——电影从你的全世界路过(4页)带音乐特效 HTML+CSS+JavaScript 学生DW网页设计作业成品 web课程设计网页规划与设计 web学生网页设计

    HTML5期末大作业:电影介绍网站设计--电影从你的全世界路过(4页)带音乐特效 HTML+CSS+JavaScript 学生DW网页设计作业成品 web课程设计网页规划与设计 web学生网页设计作业 ...

  5. 23HTML5期末大作业:电影影视网站设计——电影介绍(11页) 学生HTML个人网页作业作品下载 个人电影影视网页设计制作 大学生个人电影影视网站作业模板 简单个人电影影视

    HTML5期末大作业:电影影视网站设计--电影介绍(11页) 学生HTML个人网页作业作品下载 个人电影影视网页设计制作 大学生个人电影影视网站作业模板 简单个人电影影视 常见网页设计作业题材有 个人 ...

  6. 【大作业】一个完整的大作业

    一.作业要求 1.选一个自己感兴趣的主题. 2.网络上爬取相关的数据. 3.进行文本分析,生成词云. 4.对文本分析结果解释说明. 5.写一篇完整的博客,附上源代码.数据爬取及分析结果,形成一个可展示 ...

  7. 一个完整的大作业--广州市社会保障(市民)卡服务网

    1.选一个自己感兴趣的主题. 广州市社会保障(市民)卡服务网,网页网址为http://card.gz.gov.cn/gzshbzk/xwgg/list.shtml 2.网络上爬取相关的数据. impo ...

  8. HTML5期末大作业:电影网站设计——电影资讯博客(5页) HTML+CSS+JavaScript 学生DW网页设计作业成品 web课程设计网页规划与设计 web学生网页设计作业源码

    HTML5期末大作业:电影网站设计--电影资讯博客(5页) HTML+CSS+JavaScript 学生DW网页设计作业成品 web课程设计网页规划与设计 web学生网页设计作业源码 常见网页设计作业 ...

  9. HTML5期末大作业:电影网站设计——漫威电影(2页) HTML+CSS+JavaScript 学生DW网页设计作业成品 web课程设计网页规划与设计 web学生网页设计作业源码...

    HTML5期末大作业:电影网站设计--漫威电影(2页) HTML+CSS+JavaScript 学生DW网页设计作业成品 web课程设计网页规划与设计 web学生网页设计作业源码 常见网页设计作业题材 ...

最新文章

  1. 业务逻辑写在存储过程好还是后端好_后端两小时,前端一星期!你只是一个写接口的工程师吗?...
  2. web 点击劫持 X-Frame-Options
  3. java stringtoarray_java中toArray()的用法
  4. cmd imp导入dmp文件_PLSQL Developer导入导出表数据结构
  5. 整理ASP.NET MVC 5各种错误请求[401,403,404,500]的拦截及自定义页面处理实例
  6. selenium firefox驱动_Python3+selenium配置常见报错解决方案
  7. javascript总for of和for in的区别?
  8. 【今日CS 视觉论文速览】Fri, 21 Dec 2018
  9. 一个箱子的梦想_长葛这中学“建”了一个“梦想厅”……
  10. 数据库-子查询概念和分类
  11. 高薪诚聘项目经理,架构师,高级工程师,工程师,网页设计师
  12. Android开发笔记(二十一)横幅轮播页Banner
  13. “跨国视频造假窝点”曝光!这个大规模数据集,帮AI揪出99%换脸视频
  14. 摩斯电码php源码,PHP实现基于文本的莫斯电码生成器
  15. idea 2018汉化包(附使用教程)
  16. 安卓手机有坏点测试软件,手机屏幕坏点怎么检测
  17. Netbean控制台程序中文输出乱码解决方案
  18. 芯片达人教你如何看数据手册
  19. 坚果pro官方固件_锤子坚果pro 官方3.6.0稳定版 精简流畅 Magisk授权-刷机之家
  20. 腾讯短链接在线生成工具

热门文章

  1. Win8.1 KB2919355更新无法正常安装完成,如何正确,这是我的方法。
  2. 买新不买旧?选购固态硬盘的几点建议
  3. 雅虎面临大幅裁员 每个员工创造的营收不到Facebook的三分之一
  4. 属性加密(ABE)基础知识
  5. python框架是什么_python框架是什么?
  6. android 换 苹果,第一次从安卓手机换到苹果,会有哪些特别不适应的地方?
  7. 马云卸任:中国企业如何走出“创始人驱动”?
  8. 利用计算机网络犯罪案例,网络犯罪指导性案例实务指引
  9. 框架(Framework)
  10. php常用的数组相关的函数及面向对象