python爬虫实践-腾讯视频弹幕分析

系列文章目录

python爬虫实践–晋江小说书籍分析
python爬虫实践-腾讯视频弹幕分析
python爬虫实践-B站弹幕分析

文章目录

系列文章目录
前言
目录
主程序模块
main（）函数
1.爬取网页
2.开始解析数据
3.存放数据
结语

前言

编写这个程序的出发点是……研究弹幕文化？？额，不是，就是好奇，大家都发些什么，为什么有些弹幕反响很高，我每次发都无人问津（生气）

那还是和上次爬取晋江小说的程序流程差不多，就是进入网页，提取数据，存储数据。不同的只是网页编排方式不一样，只要找到合适的正则表达式，就可以把数据提出来。
哦，还有一个大问题，找到存储弹幕数据的文档规律最重要，这个解决了，基本这个程序就完成了。
当然，为了方便我们的数据更有质量，可以用程序筛选一下，比如重复的弹幕就只记录一条，100个点赞以下的弹幕不记录，还有按照点赞数从高到低排序。
下面开始上代码啦啦啦啦

主程序模块

这个模块，把弹幕文档的基本格式先固定下来，就是baseurl，因为一集弹幕它可能有很多个文档，这些文档都由timestamp的值来区分，规律就是第一个文档的timestamp值是15，下一个文档的timestamp值加30，…………

if __name__=='__main__':#爬取整集弹幕baseurl = 'https://mfm.video.qq.com/danmu?otype=json&callback=jQuery191006002695521294066_1613526990594&target_id=6402048035%26vid%3Do003502jkv8&timestamp='for i in range(15, 2595, 30):url = baseurl + str(i)main(url)print('{}爬取完毕'.format(url))print('全部爬取完毕!')

这个程序运行到main（）的时候会走进子函数，我们爬取网页、提取数据、存储数据的过程都是在子函数中完成的，现在我们一个一个来看这些子函数

main（）函数

main（）函数主要也就是定参数，规范流程，把爬取网页模块儿的输出数据传入解析数据模块儿，然后把解析数据模块儿的输出数据传入存放数据模块儿……

#定义全局变量
flag = 0def main(url):#基础网址savename = '暗恋橘生淮南.docx'title = '第二集'link = 'https://v.qq.com/x/cover/mzc002002vcxot9.html'# 1.爬取网页bs = crawlweb(url)# 2.开始解析数据comments = analysedata(bs)#print(comments)# 3.存放数据savebarrage(comments, title, link, savename)

接下来进行第一步

1.爬取网页

def crawlweb(url):#伪装headershead = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36 Edg/87.0.664.75"}html = requests.get(url,headers=head)bs = json.loads(html.text[html.text.find('{'):-1], strict = False)# print(bs)# strict = Falsereturn bs

这部分要构造一个协议头，用来把程序伪装成浏览器。
其次主要就是用了loads函数来提取网页的html代码。

2.开始解析数据

def analysedata(bs):#存储数据df = pd.DataFrame()contents=[]upcounts=[]#遍历获取目标字段for i in bs['comments']:content = i['content']  #弹幕内容upcount = i['upcount'] #点赞数列表# cache = pd.DataFrame({'内容':[content],'评论点赞':[upcount]})# df = pd.concat([df,cache])#print(df)contents.append(content)upcounts.append(upcount)dic = dict(zip(contents,upcounts))#删除点赞数在100以下的元素for key, value in list(dic.items()):if value<100:del(dic[key])#排序comments = sorted(dic.items(), key=lambda dic:dic[1],reverse=True)return comments

这段代码还有可以改进的地方：朝字典中添加元素时，如果存在相同的键，就会替换掉；如果某条内容很多人发，第一条点赞数多，最后一条点赞数少，那么这条内容就会被删除，造成统计的数据不准确，很有可能这条内容就是十分重要。

3.存放数据

def savebarrage(comments,title,link,savename):global flagif flag == 0:document = Document()   #savename不存在document.add_heading(title, 0)document.add_heading(link, 1)flag = 1else:document = Document(savename) #savaname存在#添加段落，文本可以包含制表符（\t）、换行符（\n）或回车符（\r）等#添加标题，并设置级别，范围：0 至 9，默认为1'''for i in range(len(comments[0]))item = comments[0][i]+'comments[1][i]document.add_paragraph()document.add_paragraph(comments[1][i])'''#在doc中添加表格存储table = document.add_table(rows=1, cols=2)  # 添加表hdr_cells = table.rows[0].cells  # 设置表首行标题hdr_cells[0].text = '内容'  # 表首行标题赋值hdr_cells[1].text = '点赞数'#for循环将records内容赋值到单元格内for item in comments:row_cells = table.add_row().cellsrow_cells[0].text = item[0]row_cells[1].text =str(item[1])#print(comments[0])#保存.docx文档document.save(savename)

这段有个需要处理的地方在于：当我们用来存储数据的文件不存在时，我们可以直接用代码写入，这时候程序会自动创建该文件。
但是如果该文件原本存在，而我们用代码往里面写东西的时候，如果直接写，那么程序不会打开原文件，而是会重新创建一个新文件，最后保存的时候覆盖原文件。
所以，当原文件存在时，我们要写入，需要打开原文件。
这里的flag就是用来判断原文件存不存在的。

结语

这个小程序，有很多不完整的地方，因为我时间和能力都有限，并不能把它做到很美观，很友好，想到以下几个可改进的地方给大家参考：
1.可改进：如果要获取整个电视剧每一集的弹幕数量，可以通过观察每一集链接中的规律，根据规律修改参数，然后就可以提取了
2.可以把所有函数的参数都单独提出来，不要放到函数中去，不然修改变量的时候可能不明白是啥意思或者修改不完全（目前该函数修改变量的地方是主函数和main函数）