这里写自定义目录标题

  • Python小白逆袭大神七日打卡营全纪录
  • day1-Python基础
  • day2-《青春有你2》选手信息爬取
  • day3-《青春有你2》选手数据分析
  • day4-《青春有你2》选手识别
  • day5-综合大作业

Python小白逆袭大神七日打卡营全纪录

day1-Python基础

作业一:输出 9*9 乘法口诀表(注意格式)
注意:提交作业时要有代码执行输出结果。

def table():#在这里写下您的乘法口诀表代码吧!for i in range(1,10): #大循环9次str_row = ""#每一行的字符串 9行for j in range(1,i+1):str_row += "{0}*{1}={2}".format(j,i,i*j)+"  "print(str_row)if __name__ == '__main__':table()

11=1
1
2=2 22=4
1
3=3 23=6 33=9
14=4 24=8 34=12 44=16
15=5 25=10 35=15 45=20 55=25
1
6=6 26=12 36=18 46=24 56=30 66=36
1
7=7 27=14 37=21 47=28 57=35 67=42 77=49
18=8 28=16 38=24 48=32 58=40 68=48 78=56 88=64
19=9 29=18 39=27 49=36 59=45 69=54 79=63 89=72 9*9=81

作业二:查找特定名称文件
遍历”Day1-homework”目录下文件;
找到文件名包含“2020”的文件;
将文件名保存到数组result中;
按照序号、文件名分行打印输出。
注意:提交作业时要有代码执行输出结果。

#导入OS模块
import os
#待搜索的目录路径
path = "Day1-homework"
#待搜索的名称
filename = "2020"
#定义保存结果的数组
result = []def findfiles():#在这里写下您的查找文件代码吧!i = 1    #要求文件的序号for dirpath,dirnames,sub_filenames in os.walk(path):#对文件有”2020“进行删选for sub_filename in sub_filenames:str_sub_filename = str(sub_filename)if(str_sub_filename.find(filename,0,len(str_sub_filename))!=-1):result.append(sub_filename)    #将指定文件加入resultprint('{}, \''.format(i)+dirpath+sub_filename+'\'')i = i+1    #序号递增if __name__ == '__main__':findfiles()

1, ‘Day1-homework/4/2204:22:2020.txt’
2, ‘Day1-homework/26/26new2020.txt’
3, ‘Day1-homework/18182020.doc’

day2-《青春有你2》选手信息爬取

度学习一般过程:
收集数据,尤其是有标签、高质量的数据是一件昂贵的工作。
爬虫的过程,就是模仿浏览器的行为,往目标站点发送请求,接收服务器的响应数据,提取需要的信息,并进行保存的过程。
Python为爬虫的实现提供了工具:requests模块、BeautifulSoup库

任务描述

本次实践使用Python来爬取百度百科中《青春有你2》所有参赛选手的信息。
数据获取:https://baike.baidu.com/item/青春有你第二季
上网的全过程:
普通用户:
打开浏览器 --> 往目标站点发送请求 --> 接收响应数据 --> 渲染到页面上。
爬虫程序:
模拟浏览器 --> 往目标站点发送请求 --> 接收响应数据 --> 提取有用的数据 --> 保存到本地/数据库。
爬虫的过程:
1.发送请求(requests模块)
2.获取响应数据(服务器返回)
3.解析并提取数据(BeautifulSoup查找或者re正则)
4.保存数据

本实践中将会使用以下两个模块,首先对这两个模块简单了解以下:
request模块:
requests是python实现的简单易用的HTTP库,官网地址:http://cn.python-requests.org/zh_CN/latest/
requests.get(url)可以发送一个http get请求,返回服务器响应内容。

BeautifulSoup库:
BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库。网址:https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/
BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个是 lxml。
BeautifulSoup(markup, “html.parser”)或者BeautifulSoup(markup, “lxml”),推荐使用lxml作为解析器,因为效率更高。

!!!作业说明!!!
1.请在下方提示位置,补充代码,完成《青春有你2》选手图片爬取,将爬取图片进行保存,保证代码正常运行
2.打印爬取的所有图片的绝对路径,以及爬取的图片总数,此部分已经给出代码。请在提交前,一定要保证有打印结果

一、爬取百度百科中《青春有你2》中所有参赛选手信息,返回页面数据

import json
import re
import requests
import datetime
from bs4 import BeautifulSoup
import os#获取当天的日期,并进行格式化,用于后面文件命名,格式:20200420
today = datetime.date.today().strftime('%Y%m%d')    def crawl_wiki_data():"""爬取百度百科中《青春有你2》中参赛选手信息,返回html"""headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}url='https://baike.baidu.com/item/青春有你第二季'                         try:response = requests.get(url,headers=headers)print(response.status_code)#将一段文档传入BeautifulSoup的构造方法,就能得到一个文档的对象, 可以传入一段字符串soup = BeautifulSoup(response.text,'lxml')#返回的是class为table-view log-set-param的<table>所有标签tables = soup.find_all('table',{'class':'table-view log-set-param'})crawl_table_title = "参赛学员"for table in  tables:           #对当前节点前面的标签和字符串进行查找table_titles = table.find_previous('div').find_all('h3')for title in table_titles:if(crawl_table_title in title):return table       except Exception as e:print(e)

二、对爬取的页面数据进行解析,并保存为JSON文件

def parse_wiki_data(table_html):'''从百度百科返回的html中解析得到选手信息,以当前日期作为文件名,存JSON文件,保存到work目录下'''bs = BeautifulSoup(str(table_html),'lxml')all_trs = bs.find_all('tr')error_list = ['\'','\"']stars = []for tr in all_trs[1:]:all_tds = tr.find_all('td')star = {}#姓名star["name"]=all_tds[0].text#个人百度百科链接star["link"]= 'https://baike.baidu.com' + all_tds[0].find('a').get('href')#籍贯star["zone"]=all_tds[1].text#星座star["constellation"]=all_tds[2].text#身高star["height"]=all_tds[3].text#体重star["weight"]= all_tds[4].text#花语,去除掉花语中的单引号或双引号flower_word = all_tds[5].textfor c in flower_word:if  c in error_list:flower_word=flower_word.replace(c,'')star["flower_word"]=flower_word #公司if not all_tds[6].find('a') is  None:star["company"]= all_tds[6].find('a').textelse:star["company"]= all_tds[6].text  stars.append(star)json_data = json.loads(str(stars).replace("\'","\""))   with open('work/' + today + '.json', 'w', encoding='UTF-8') as f:json.dump(json_data, f, ensure_ascii=False)

三、爬取每个选手的百度百科图片,并进行保存

def crawl_pic_urls():'''爬取每个选手的百度百科图片,并保存''' with open('work/'+ today + '.json', 'r', encoding='UTF-8') as file:json_array = json.loads(file.read())headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36' }for star in json_array:name = star['name']link = star['link']#!!!请在以下完成对每个选手图片的爬取,将所有图片url存储在一个列表pic_urls中!!!#向选手个人百度百科发送http get请求response = requests.get(link,headers=headers)#将一段文档传入beautifulsoup构造,得到一个文档对象bs = BeautifulSoup(response.text,'lxml')#从个人百度百科页解析链接,指向选手图片列表页pic_list_url = bs.select('.summary-pic a')[0].get('href')pic_list_url = 'https://baike.baidu.com' + pic_list_url#向选手图片列表页发送http get请求pic_list_response = requests.get(pic_list_url,headers=headers)#对选手图片列表页面发送http get请求bs = BeautifulSoup(pic_list_response.text,'lxml')pic_list_html = bs.select('.pic-list img ')pic_urls = []for pic_html in pic_list_html:pic_url = pic_html.get('src')pic_urls.append(pic_url)     #!!!根据图片链接列表pic_urls, 下载所有图片,保存在以name命名的文件夹中!!!down_pic(name,pic_urls)def down_pic(name,pic_urls):'''根据图片链接列表pic_urls, 下载所有图片,保存在以name命名的文件夹中,'''path = 'work/'+'pics/'+name+'/'if not os.path.exists(path):os.makedirs(path)for i, pic_url in enumerate(pic_urls):try:pic = requests.get(pic_url, timeout=15)string = str(i + 1) + '.jpg'with open(path+string, 'wb') as f:f.write(pic.content)print('成功下载第%s张图片: %s' % (str(i + 1), str(pic_url)))except Exception as e:print('下载第%s张图片时失败: %s' % (str(i + 1), str(pic_url)))print(e)continue

四、打印爬取的所有图片的路径

def show_pic_path(path):'''遍历所爬取的每张图片,并打印所有图片的绝对路径'''pic_num = 0for (dirpath,dirnames,filenames) in os.walk(path):for filename in filenames:pic_num += 1print("第%d张照片:%s" % (pic_num,os.path.join(dirpath,filename)))           print("共爬取《青春有你2》选手的%d照片" % pic_num)if __name__ == '__main__':#爬取百度百科中《青春有你2》中参赛选手信息,返回htmlhtml = crawl_wiki_data()#解析html,得到选手信息,保存为json文件parse_wiki_data(html)#从每个选手的百度百科页面上爬取图片,并保存crawl_pic_urls()#打印所爬取的选手图片路径show_pic_path('/home/aistudio/work/pics/')print("所有信息爬取完成!")

200
成功下载第1张图片: https://bkimg.cdn.bcebos.com/pic/faf2b2119313b07eca80d4dd909f862397dda0442687?x-bce-process=image/resize,m_lfit,h_160,limit_1
……
第481张照片:/home/aistudio/work/pics/申洁/1.jpg
第482张照片:/home/aistudio/work/pics/魏辰/1.jpg
共爬取《青春有你2》选手的482照片
所有信息爬取完成!

day3-《青春有你2》选手数据分析

任务描述:
基于第二天实践使用Python来爬去百度百科中《青春有你2》所有参赛选手的信息,进行数据可视化分析。

# 如果需要进行持久化安装, 需要使用持久化路径, 如下方代码示例:
#!mkdir /home/aistudio/external-libraries
#!pip install matplotlib -t /home/aistudio/external-libraries
# 同时添加如下代码, 这样每次环境(kernel)启动的时候只要运行下方代码即可:
# Also add the following code, so that every time the environment (kernel) starts, just run the following code:
import sys
sys.path.append('/home/aistudio/external-libraries')
# 下载中文字体
!wget https://mydueros.cdn.bcebos.com/font/simhei.ttf
# 将字体文件复制到matplotlib字体路径
!cp simhei.ttf /opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/matplotlib/mpl-data/fonts/ttf/
# 一般只需要将字体文件复制到系统字体目录下即可,但是在aistudio上该路径没有写权限,所以此方法不能用
# !cp simhei.ttf /usr/share/fonts/# 创建系统字体文件路径
!mkdir .fonts
# 复制文件到该路径
!cp simhei.ttf .fonts/
!rm -rf .cache/matplotlib
import matplotlib.pyplot as plt
import numpy as np
import json
import matplotlib.font_manager as font_manager#显示matplotlib生成的图形
%matplotlib inlinewith open('data/data31557/20200422.json', 'r', encoding='UTF-8') as file:json_array = json.loads(file.read())#绘制小姐姐区域分布柱状图,x轴为地区,y轴为该区域的小姐姐数量zones = []
for star in json_array:zone = star['zone']zones.append(zone)
print(len(zones))
print(zones)zone_list = []
count_list = []for zone in zones:if zone not in zone_list:count = zones.count(zone)zone_list.append(zone)count_list.append(count)print(zone_list)
print(count_list)# 设置显示中文
plt.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体plt.figure(figsize=(20,15))plt.bar(range(len(count_list)), count_list,color='r',tick_label=zone_list,facecolor='#9999ff',edgecolor='white')# 这里是调节横坐标的倾斜度,rotation是度数,以及设置刻度字体大小
plt.xticks(rotation=45,fontsize=20)
plt.yticks(fontsize=20)plt.legend()
plt.title('''《青春有你2》参赛选手''',fontsize = 24)
plt.savefig('/home/aistudio/work/result/bar_result.jpg')
plt.show()

import matplotlib.pyplot as plt
import numpy as np
import json
import matplotlib.font_manager as font_manager
import pandas as pd#显示matplotlib生成的图形
%matplotlib inlinedf = pd.read_json('data/data31557/20200422.json')
#print(df)grouped=df['name'].groupby(df['zone'])
s = grouped.count()zone_list = s.index
count_list = s.values# 设置显示中文
plt.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体plt.figure(figsize=(20,15))plt.bar(range(len(count_list)), count_list,color='r',tick_label=zone_list,facecolor='#9999ff',edgecolor='white')# 这里是调节横坐标的倾斜度,rotation是度数,以及设置刻度字体大小
plt.xticks(rotation=45,fontsize=20)
plt.yticks(fontsize=20)plt.legend()
plt.title('''《青春有你2》参赛选手''',fontsize = 24)
plt.savefig('/home/aistudio/work/result/bar_result02.jpg')
plt.show()

import matplotlib.pyplot as plt
import numpy as np
import json
import matplotlib.font_manager as font_manager
#显示matplotlib图形
%matplotlib inlinewith open('data/data31557/20200422.json','r',encoding='UTF-8') as file:json_array = json.loads(file.read())#绘制小姐姐籍贯直方图,x为籍贯,y数量weights = []
counts = []for star in json_array:weight = float(star['weight'].replace('kg',''))weights.append(weight)
print(weights)size_list = []
count_list = []size1 = 0
size2 = 0
size3 = 0
size4 = 0for weight in weights:if weight <=45:size1 += 1elif 45 < weight <= 50:size2 += 1elif 50 < weight <= 55:size3 += 1else:size4 += 1labels = '<=45kg', '45~50kg', '50~55kg', '>55kg'sizes = [size1, size2, size3, size4]
explode = (0.1, 0.1, 0, 0)fig1, ax1 = plt.subplots()
ax1.pie(sizes, explode = explode, labels = labels, autopct = '%1.1f%%',shadow = True, startangle = 90)
ax1.axis('equal')
plt.savefig('/home/aistudio/work/result/pie_result01.jpg')
plt.show()

import matplotlib.pyplot as plt
import numpy as np
import json
import matplotlib.font_manager as font_manager
#显示matplotlib图形
%matplotlib inlinedf = pd.read_json('data/data31557/20200422.json')
#print(df)weights = df['weight']
arrs = weights.valuesfor i in range(len(arrs)):#print(float(arrs[i][0:-2]))arrs[i] = float(arrs[i][0:-2])
#print(arrs)#pandas.cut分割一组数据成离散区间。
bin = [0,45,50,55,100]
se1 = pd.cut(arrs,bin)#pandas的value_counts()函数可以计数Series里每个值并排序。
pd.value_counts(se1)labels = '<=45kg', '45~50kg', '50~55kg', '>55kg'
sizes = pd.value_counts(se1)
explode = (0.1, 0.1, 0, 0)fig1, ax1 = plt.subplots()
ax1.pie(sizes, explode = explode, labels = labels, autopct = '%1.1f%%',shadow = True, startangle = 90)
ax1.axis('equal')
plt.savefig('/home/aistudio/work/result/pie_result02.jpg')
plt.show()

day4-《青春有你2》选手识别

PaddleHub之《青春有你2》作业:五人识别
一、任务简介
图像分类是计算机视觉的重要领域,它的目标是将图像分类到预定义的标签。近期,许多研究者提出很多不同种类的神经网络,并且极大的提升了分类算法的性能。本文以自己创建的数据集:青春有你2中选手识别为例子,介绍如何使用PaddleHub进行图像分类任务。

#CPU环境启动请务必执行该指令
%set_env CPU_NUM=1 
#安装paddlehub
!pip install paddlehub==1.6.0 -i https://pypi.tuna.tsinghua.edu.cn/simple
!unzip -o file.zip -d ./dataset/
import paddlehub as hub
module = hub.Module(name="resnet_v2_50_imagenet")
from paddlehub.dataset.base_cv_dataset import BaseCVDatasetclass DemoDataset(BaseCVDataset): def __init__(self): # 数据集存放位置self.dataset_dir = "/home/aistudio"super(DemoDataset, self).__init__(base_path=self.dataset_dir,train_list_file="dataset/train_list.txt",validate_list_file="dataset/validate_list.txt",test_list_file="dataset/test_list.txt",label_list_file="dataset/label_list.txt",)
dataset = DemoDataset()
print(dataset)
data_reader = hub.reader.ImageClassificationReader(image_width=module.get_expected_image_width(),image_height=module.get_expected_image_height(),images_mean=module.get_pretrained_images_mean(),images_std=module.get_pretrained_images_std(),dataset=dataset)
config = hub.RunConfig(use_cuda=True,                              #是否使用GPU训练,默认为False;num_epoch=3,                                #Fine-tune的轮数;checkpoint_dir="cv_finetune_turtorial_demo",#模型checkpoint保存路径, 若用户没有指定,程序会自动生成;batch_size=3,                              #训练的批大小,如果使用GPU,请根据实际情况调整batch_size;eval_interval=10,                           #模型评估的间隔,默认每100个step评估一次验证集;strategy=hub.finetune.strategy.DefaultFinetuneStrategy())  #Fine-tune优化策略;
input_dict, output_dict, program = module.context(trainable=True)
img = input_dict["image"]
feature_map = output_dict["feature_map"]
feed_list = [img.name]task = hub.ImageClassifierTask(data_reader=data_reader,feed_list=feed_list,feature=feature_map,num_classes=dataset.num_labels,config=config)
run_states = task.finetune_and_eval()
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.image as mpimgwith open("dataset/test_list.txt","r") as f:filepath = f.readlines()data = [filepath[0].split(" ")[0],filepath[1].split(" ")[0],filepath[2].split(" ")[0],filepath[3].split(" ")[0],filepath[4].split(" ")[0]]label_map = dataset.label_dict()
index = 0
run_states = task.predict(data=data)
results = [run_state.run_results for run_state in run_states]for batch_result in results:print(batch_result)batch_result = np.argmax(batch_result, axis=2)[0]print(batch_result)for result in batch_result:index += 1result = label_map[result]print("input %i is %s, and the predict result is %s" %(index, data[index - 1], result))

day5-综合大作业

第一步:爱奇艺《青春有你2》评论数据爬取(参考链接:https://www.iqiyi.com/v_19ryfkiv8w.html#curid=15068699100_9f9bab7e0d1e30c494622af777f4ba39)

爬取任意一期正片视频下评论
评论条数不少于1000条

第二步:词频统计并可视化展示

数据预处理:清理清洗评论中特殊字符(如:@#¥%、emoji表情符),清洗后结果存储为txt文档
中文分词:添加新增词(如:青你、奥利给、冲鸭),去除停用词(如:哦、因此、不然、也好、但是)
统计top10高频词
可视化展示高频词

第三步:绘制词云

根据词频生成词云
可选项-添加背景图片,根据背景图片轮廓生成词云

第四步:结合PaddleHub,对评论进行内容审核

需要的配置和准备

中文分词需要jieba
词云绘制需要wordcloud
可视化展示中需要的中文字体
网上公开资源中找一个中文停用词表
根据分词结果自己制作新增词表
准备一张词云背景图(附加项,不做要求,可用hub抠图实现)
paddlehub配置

!pip install jieba
!pip install wordcloud
# Linux系统默认字体文件路径
# !ls /usr/share/fonts/
# 查看系统可用的ttf格式中文字体
!fc-list :lang=zh | grep ".ttf"
!wget https://mydueros.cdn.bcebos.com/font/simhei.ttf # 下载中文字体
# #创建字体目录fonts
!mkdir .fonts
# # 复制字体文件到该路径
!cp simhei.ttf .fonts/
#安装模型
!hub install porn_detection_lstm==1.1.0
!pip install --upgrade paddlehub
from __future__ import print_function
import requests
import json
import re #正则匹配
import time #时间处理模块
import jieba #中文分词
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import matplotlib.font_manager as font_manager
from PIL import Image
from wordcloud import WordCloud  #绘制词云模块
import paddlehub as hub
#请求爱奇艺评论接口,返回response信息
def getMoveinfo(url):'''请求爱奇艺评论接口,返回response信息参数  url: 评论的url:return: response信息'''session = requests.Session()headers = {"User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1","Accept": "application/json","Referer": "http://m.iqiyi.com/v_19rqriflzg.html","Origin": "http://m.iqiyi.com","Host": "sns-comment.iqiyi.com","Connection": "keep-alive","Accept-Language": "en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7,zh-TW;q=0.6","Accept-Encoding": "gzip, deflate"}response = session.get(url, headers=headers)if response.status_code == 200:return response.textreturn None#解析json数据,获取评论'''解析json数据,获取评论参数  lastId:最后一条评论ID  arr:存放文本的list:return: 新的lastId'''
def saveMovieInfoToFile(lastId, arr):url='https://sns-comment.iqiyi.com/v3/comment/get_comments.action?agent_type=118&agent_version=9.11.5&authcookie=null&business_type=17&content_id=15068699100&page=&page_size=10&types=time&last_id='url+=str(lastId)responseTxt = getMoveinfo(url)responseJson=json.loads(responseTxt)comments=responseJson['data']['comments']for val in comments:# print(val.keys())if 'content' in val.keys():print(val['content'])arr.append(val['content'])lastId = str(val['id'])return lastId
#去除文本中特殊字符
def clear_special_char(content):'''正则处理特殊字符参数 content:原文本return: 清除后的文本'''comp = re.compile('[^A-Z^a-z^0-9^\u4e00-\u9fa5]')return comp.sub('', content)text_zh = '$你好!我是个程%序^猿,标注!!#码农¥'
print(clear_special_char(text_zh))
def fenci(text):'''利用jieba进行分词参数 text:需要分词的句子或文本return:分词结果'''# 添加自定义字典 add_words.txt# jieba.load_userdict('') jieba.load_userdict('add_words.txt')seg=jieba.lcut(text)return seg
def stopwordslist(file_path):'''创建停用词表参数 file_path:停用词文本路径return:停用词list'''# f= open(file_path, 'r') # my_data = [i.strip('\n') for i in f]stopwords= [line.strip() for line in open(file_path,encoding='UTF-8').readline()]return stopwords
def movestopwords(sentence,stopwords,counts):'''去除停用词,统计词频参数 file_path:停用词文本路径 stopwords:停用词list counts: 词频统计结果return:None'''out = []for word in sentence:if word not in stopwords:if len(word) != 1:counts[word] = counts.get(word, 0) + 1return None    
def drawcounts(counts, num):'''绘制词频统计表参数 counts: 词频统计结果 num:绘制topNreturn:none'''x_aixs=[]y_aixs=[]c_order=sorted(counts.items(), key=lambda x:x[1],reverse=True)for c in c_order[:num]:x_aixs.append(c[0])y_aixs.append(c[1])matplotlib.rcParams['font.sans-serif']=['SimHei']matplotlib.rcParams['axes.unicode_minus']=Falseplt.bar(x_aixs, y_aixs)plt.title('词频统计结果')plt.show()
def drawcloud(word_f):'''根据词频绘制词云图参数 word_f:统计出的词频结果return:none'''    cloud_mask=np.array(Image.open('cloud.jpg'))st=set(['东西', '这是'])wc=WordCloud(background_color='white',mask=cloud_mask,max_words=150,font_path='simhei.ttf',min_font_size=10,max_font_size=100,width=400,relative_scaling=0.3,stopwords=st)wc.fit_words(word_f)wc.to_file('pic.png')
def text_detection(text, file_path):'''使用hub对评论进行内容分析return:分析结果'''porn_detection_lstm=hub.Module(name='porn_detection_lstm')f=open('aqy.txt', 'r', encoding='utf-8')for line in f:if len(line.strip())==1:continueelse:test_text.append(line)f.close()input_dict={'text':test_text}results=porn_detection_lstm.detection(data=input_dict,use_gpu=True,batch_size=1)for index, item in enumerate(results):if item['porn_detection_key'] =='porn':print(item['text'],':', item['porn_probs'])
#评论是多分页的,得多次请求爱奇艺的评论接口才能获取多页评论,有些评论含有表情、特殊字符之类的
#num 是页数,一页10条评论,假如爬取1000条评论,设置num=100
if __name__ == '__main__':num=110lastId='0'arr=[]with open('aqy.txt', 'a', encoding='utf-8') as f:for i in range(num):lastId=saveMovieInfoToFile(lastId, arr)time.sleep(0.5)for item in arr:item=clear_special_char(item)if item.strip()!='':try:f.write(item+'\n')except  e:print('含有特殊字符')print("共获取评论:", len(arr))f=open('aqy.txt', 'r', encoding='utf-8')counts={}for line in f:words=fenci(line)stopwords=stopwordslist(r'./stopwords/中文停用词表.txt')movestopwords(words, stopwords, counts)drawcounts(counts, 10)drawcloud(counts)f.close()file_path='aqy.txt'test_text=[]text_detection(test_text, file_path)

display(Image.open('pic.png')) #显示生成的词云图像

Python小白逆袭大神七日打卡营飞桨paddlepaddle相关推荐

  1. 百度深度学习paddlepaddle7日打卡——Python小白逆袭大神学习心得

    百度深度学习paddlepaddle7日打卡--Python小白逆袭大神学习心得 7日学习总结 第一天作业 第二天作业 第三天作业 第四天作业 第五天作业 7日学习总结 通过这7日打卡课程的学习,从小 ...

  2. 百度飞桨深度学习Python小白逆袭大神7日结营心得

    很有幸参加了百度飞桨的Python小白逆袭大神7天打卡营.七天的学习已经接近了尾声.现在回顾一下这次的课程,收获颇丰.相信很多参加的学员都感受颇丰,从小白入门到自主大作业完成,我们不仅了解了深度学习的 ...

  3. Python小白逆袭大神-结营心得-alading

    Python小白逆袭大神-结营心得 赶在五一前结束的Python小白逆袭大神7天打卡营结束了,经过了7天的练习,我觉得收获还是很多的.经过整理总结,进行分享. 1. 本期培训重点 本期集训营主要是一些 ...

  4. python画饼图_百度飞桨PaddlePaddle之[Python小白逆袭大神]7天训练营

    第三次参加百度的7天训练营了 这次参加的主题是[Python小白逆袭大神],不过你别看是小白逆势...除非你一开始参加就逆袭完,不然你真的是python小白,这个课程还是有难难度的. 说一下个训练营的 ...

  5. python小白逆袭大神_python小白逆天(3),Python,小白逆袭,大神,三

    Python小白逆袭大神 作业三 作业: 对<青春有你2>对选手体重分布进行可视化,绘制饼状图 这个作业是根据第二天爬取获得的json文件进行数据的处理课可视化. with open('d ...

  6. 我在百度Python小白逆袭大神课程中“打怪”欢乐之旅

          本文描述了作者在参加百度Python小白逆袭大神课程一些亲身经历,从开始的半信半疑,到最后坚定的革命信念,给没有参加过百度课程的同学一点参考,文中有高质量的数据分析.pyecharts动态 ...

  7. python小白逆袭大神课程心得_python小白逆袭大神(深度学习7日训练营)——心得体会...

    使用过程及心得 百度飞桨(PaddlePaddle)是国内唯一功能完备的开源深度学习平台,自Paddle Fluid v1.0发布以来,飞桨陆续在开发.训练和部署全流程上进行全方面的升级. 1.在这次 ...

  8. 深度学习入门之Python小白逆袭大神系列(三)—深度学习常用Python库

    深度学习常用Python库介绍 目录 深度学习常用Python库介绍 简介 Numpy库 padas库 PIL库 Matplotlib库 简介 Python被大量应用在数据挖掘和深度学习领域,其中使用 ...

  9. PaddleHub百度飞桨【Python小白逆袭大神】七天打卡营心得

    第一次接触百度的paddlehub,之前有参加过CV疫情的打卡营,但是没坚持把作业做下来.这次参加打卡营吧几次作业都跟下来了.因为作者本人是做计算机视觉方向的,python之前使用的多为OpeanCV ...

最新文章

  1. 腾讯内部人士爆与老干妈合作多个环节有漏洞 却没人察觉
  2. 【推荐】整理者:明日互联网的枢纽角色
  3. Myeclipse 10 使用之修改字体
  4. pythonjam怎么运行_第二十四天 PYTHON学习
  5. Linux 命令之 userconf -- 设置用户账号
  6. python爬虫登录网站_python爬虫19 | 遇到需要的登录的网站怎么办?用这3招轻松搞定!...
  7. linux将日期和日历信息追加到文件中_Linux常用指令
  8. chrome http请求,测试webapp接口之DHC - REST/HTTP API Client
  9. iosTableView 局部全部刷新以及删除编辑操作
  10. Atitit 面向对象编程(OOP)、面向组件编程(COP)、面向方面编程(AOP)和面向服务编程(SOP)的区别和联系
  11. 这五款办公神器一个比一个好用
  12. 分布式数据库笔记 —— 数据一致性模型
  13. 到底买苹果XS还是XR_iPhone XS和XR买哪个?10个理由告诉你XS更好,贵是有原因的!...
  14. I/O流(万流齐发、万流归宗) 本章目标: 掌握 讲  解:★★★★★ http://kuaibao.qq.com/s/20200527A0LR3000?refer=spider 1.I/O流概
  15. 微信小程序开发工具项目的基本组成结构
  16. word中磅和mm的换算
  17. 编程(代码、软件)规范(适用嵌入式、单片机、上位机等)
  18. FleaPHP 开发指南 - 2. FleaPHP 中的 MVC 模式
  19. 1、树莓派4B设置热点,一步步细心来
  20. Unity 报错之 java.net.MalformedURLException: unknown protocol

热门文章

  1. springboot+quartz构建定时任务
  2. C#控制textbox只能输入数字
  3. 洛谷P1506 拯救oibh总部
  4. 我还有很多话想说——大一
  5. python 输入一句话 单个单词打印,Python如何打印单词所在的句子?
  6. 解决:cropit插件无法缩小裁剪图片占用空间
  7. Java ArrayList存放二维数组的数据
  8. 简单学生成绩查询系统 按成绩排序 按姓名排序
  9. 全网最全内容:让你深入了解IT实训、IT集训、IT培训的差别
  10. 酒,引人深思的神奇存在