贴吧评论敏感词识别及情感分析初级实现之评论获取

分三个模块实现贴吧评论敏感词识别及情感分析研究：“评论爬虫抓取”、“评论敏感词识别”、“评论情感分析（积极或消极）”。数据存储于MongoDB中，现设数据库“spiders”，数据集合users。其余两个模块见本人博文。
在贴吧评论敏感词识别及情感分析初级实现里，只涉及最基础的知识，未进行代码的升级以及相应模块的技术完善。

评论爬虫抓取

数据获取实现

因受限于语料库（“网上购酒体验评论”），现只爬取与语料库相关内容的帖子，如https://tieba.baidu.com/p/6105007639。该模块旨在通过贴吧URL，爬虫抓取全部页面中网民的头像、网名、发表言论以及发表时间。该模块通过分析网页URL,采用递进方式对贴吧特定主题“网上商城购酒体验”（https://tieba.baidu.com/p/6105007639）进行抓取，如：
网页1：https://tieba.baidu.com/p/6105007639?pn=1，
网页2：https://tieba.baidu.com/p/6105007639?pn=2，…
网页n：https://tieba.baidu.com/p/6105007639?pn=n
因此首先获取主题总页数，然后构建该主题下存在的所有网页URL 并对其进行数据抓取。
评论爬虫抓取的数据流图如下所示：

抓取的数据只存储于users集合中，且users集合的组成为：users（username，image，page,time）。
（1）利用网页节点属性获取帖子中的总页数。

    from pyquery import PyQuery as pq#获取总页数def gettotalpage(url):url=url+str(1)doc=pq(url=url)temp = []for item in doc('.l_reply_num .red').items():temp.append(item.text())return(int(temp[1]))

（2）请求路径获得网页源码。

import requests
def get_one_page(url):try:headers={'User_Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 ''(KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}response=requests.get(url,headers=headers)if response.status_code==200:return response.textreturn Noneexcept RequestException:return None

（3）利用正则表达式，提取信息

import re
def parse_one_page(html):pattern=re.compile('<img\susername.*?src=.*?https(''.*?)"/>.*?<li\sclass="d_name".*?<a''.*?target="_blank">(.*?)</a>.*?''<div.*?class="d_post_content''\sj_d_post_content.*?">(.*?)</div>.*?''<div\sclass="post-tail-wrap".*?<span''\sclass="tail-info''">.*?楼</span>.*?<span\sclass''="tail-info">(.*?)''</span>.*?</div>',re.S)items=re.findall(pattern,html)for item in items:temp1 = re.sub('<.*>', '', item[1].strip())temp2 = re.sub('<.*>', '', item[2].strip())yield {'username':temp1,'img':str('https')+item[0],'page':temp2,'time':item[3]}

（4）将信息存储于users数据集合中。

from pymongo import MongoClient
'''连接mongodb中的spiders库中的users集合'''
client=MongoClient()
db=client['spiders']
collection1=db['users']
def save_to_mongo(result):#此时result为字典集if collection1.insert_many(result):print('save successful')

（5）根据总页数，爬取该帖子所有网页的用户评论信息。

#抓取所有评论页面，规定不超过十页
def panduan(url,offset):url=url+str(offset)if requests.get(url).status_code==200:html = get_one_page(url)save_to_mongo(parse_one_page(html))#for item in parse_one_page(html):#write_to_file(item)
#抓取所有信息
def total_scrapy(url):url=url+str('?pn=')for i in range(1,gettotalpage(url=url)+1):panduan(url,i)

爬虫抓取缺陷

（1）帖子中的回复评论数据属于Ajax异步加载，没有实现Ajax分析爬取，因此数据不能获取。
（2）不能进行分布式爬取，未使用框架（spiders、scrapy），所用为“三段式”。

参考来源

（1）崔庆才.python3网络爬虫开发实战[M].北京：人民邮电出版社，2018