（数据分析）网易云热评技巧

本文通过Python爬虫获取了网易云9万条热评，通过数据可视化分析其中的规律，同时分析热评最多的用户特征，从中总结出上热评的技巧。

1.数据抓取

数据集的获取是我们进行数据分析的第一步。现在获取数据的主要途径一般为：现成数据；自己写爬虫去爬取数据；使用现有的爬虫工具爬取所需内容，保存到数据库，或以文件的形式保存到本地。博主用的是现有的数据进行数据分析。

1.1爬取过程

爬取华语歌单列表中所有的歌单url
从每篇歌单地址中爬取每首歌的url
从每首歌的首页爬取热评

先来看一下要爬取的页面

点翻页观察url的变化：

https://music.163.com/#/discover/playlist/?order=hot&cat=%E5%8D%8E%E8%AF%AD&limit=35&offset=0

https://music.163.com/#/discover/playlist/?order=hot&cat=%E5%8D%8E%E8%AF%AD&limit=35&offset=35

https://music.163.com/#/discover/playlist/?order=hot&cat=%E5%8D%8E%E8%AF%AD&limit=35&offset=70

从中可以看出翻页时url只有offset部分发生变化，每次在前一页的基础上加35。通过这个可以设计出爬取歌单的代码。

def get_list():list_01 = []url = 'https://music.163.com/discover/playlist/?order=hot&cat=%E5%8D%8E%E8%AF%AD&limit=35&offset={page}'for page in range(0,1295,35):    url1 = url.format(page = page)list = []for i in scrape_index(url1):  i_url = i.attr('href')     '''网易云歌单APIhttps://music.163.com/api/playlist/detail?id={歌单ID}热评获取APIhttp://music.163.com/api/v1/resource/comments/R_SO_4_{歌曲ID}?limit=20&offset=0'''detail_url = f'https://music.163.com/api{i_url.replace("?","/detail?")}'   list.append(detail_url) list_01.extend(list)    # extend 对列表合并          time.sleep(5+random.random())  return list_01

这样我们就可以获得38页每页35篇歌单，共1330篇歌单。
类似的是后面热评的获取，我们也只是需要获取歌曲ID，然后再用网易云的热评API即可获得详细的歌曲热评。

我们只需要获得歌曲的name和id的值即可。

def parse_detail(html):list_02 = []jobs = html['result']['tracks']for j in jobs:dic ={}dic['name'] = j['name'] # 创建 字典dic['id'] = j['id']list_02.append(dic)    return list_02

剩下就是获取每首歌曲的热评了，与前面获取歌曲类似，也是根据api构造，很容易就找到了。

def parse_comment(html, name ):data = []jobs =  html['hotComments']for job in jobs:dic = {}dic['nickname'] = job['user']['nickname']dic['userid'] = job['user']['userId']dic['content'] = job['content'].replace('\n', '')     #  对换行符进行替换     dic['likecount'] = job['likedCount']dic['time'] = stampToTime(job['time'])   # 时间戳的转换dic['name'] = namedata.append(dic)return data

我们就爬取了87112行，7列的数据

1.2数据读取

读取刚刚爬好的csv文件

df1 = pd.read_csv('hotComments_06.csv',index_col = 0,lineterminator='\n')
df1.info()

2.数据清洗

数据得到手，我们就需要对我们爬取的数据进行清洗工作，为之后的数据分析做铺垫，如果清洗的不到位势必会对之后的数据分析造成影响。

2.1异常值处理

没有缺失值，但发现异常值，因为设置了lineterminator=’\n’,以\n为换行符，会留下\r，用replace进行替换

df3['content'].iloc[432:435]
df3['content1'] = df3['content'].apply(lambda x:x.replace('\r',''))

3.数据分析及可视化

3.1点赞数排行前10的热评

df5 = df4.sort_values(by = 'likecount',ascending = False)
df5.head(10).to_csv('strat_TOP10.csv',index = False, encoding = 'utf-8-sig')

结果如图

分析热评内容发现多为故事或对某一件事的看法，从侧面反映出了用户的喜好。

3.2热评的频次较多的词语

通过jieba库进行关键词抽取

segments = []
for index,row in df4.iterrows():  content = row[5]words = jieba.analyse.textrank(content,topK=3, withWeight=False,allowPOS=('ns', 'n', 'vn', 'v'))for w in words:                                   segments.append({'word':w,'counts':1})
df_w = pd.DataFrame(segments)

生成词云，需要自行导入background.png，以它为背景图

mask_cir = np.array(Image.open('background.png'))
wordc =WordCloud(background_color='white',mask = mask_cir,font_path = 'SimHei.ttf',    # 中文显示的方法文max_words=1000).generate(text)
plt.imshow(wordc)
plt.axis('off')    #关闭坐标轴plt.savefig('图3.jpg',dpi=600, bbox_inches='tight', quality=95)  # bbox_inches='tight'，可以达到去除空白的效果
plt.show()

生成词云如图所示

我们将所有热评绘制成词云，发现“喜欢”、“希望”与“大哭”这几个感情色彩截然不同的词汇被最多提及。从中体现出用户群体感情的多样化。

3.3热评最多的ID的特征

查找热评最多的用户ID

df4.groupby('userid').count().sort_values(by = 'content',ascending = False)

发现热评最多的用户ID为424311909

看一下该用户的点赞数分布

plt.hist(df12, bins = 200, density = True )
plt.xlim((0,6000))
plt.title('424311909用户的点赞分布')
plt.savefig('start_424311909.png',dpi = 100)
plt.show()

可以看出大部分点赞数都在500以内，通过进入网易云查看其他用户热评发现点赞数远少于正常热评用户，点赞数很少却能进入热评，从中可以推测该用户评论的多为小众音乐，或者在新歌区评论。想要获得热评的人们可以借鉴他的方法。

最后看看该用户的评论长度分布

df12 = df11['content'].map(len)      # map函数进行求取每一单元格个长度plt.hist(df12,bins = 20, density = True)
plt.title('424311909用户的评论长度分布')
plt.savefig('len_424311909.png', dpi = 100)
plt.show()

可以看出想要获得热评，评论的长度不应该太长，主要集中在13到18个字之间，不要太长让人没有耐心读下去。