python爬虫论坛1688_Python爬虫抓取论坛关键字过程解析

前言：

之前学习了用python爬虫的基本知识，现在计划用爬虫去做一些实际的数据统计功能。由于前段时间演员的诞生带火了几个年轻的实力派演员，想用爬虫程序搜索某论坛中对于某些演员的讨论热度，并按照日期统计每天的讨论量。

这个项目总共分为两步：

1.获取所有帖子的链接：

将最近一个月内的帖子链接保存到数组中

2.从回帖中搜索演员名字：

从数组中打开链接，翻出该链接的所有回帖，在回帖中查找演员的名字

获取所有帖子的链接：

搜索的范围依然是以虎扑影视区为界限。虎扑影视区一天约5000个回帖，一月下来超过15万回帖，作为样本来说也不算小，有一定的参考价值。

完成这一步骤，主要分为以下几步：

1.获取当前日期

2.获取30天前的日期

3.记录从第一页往后翻的所有发帖链接

1.获取当前日期

这里我们用到了datetime模块。使用datetime.datetime.now()，可以获取当前的日期信息以及时间信息。在这个项目中，只需要用到日期信息就好。

2.获取30天前的日期

用datetime模块的优点在于，它还有一个很好用的函数叫做timedelta，可以自行计算时间差。当给定参数days=30时，就会生成30天的时间差，再用当前日期减去delta，可以得到30天前的日期，将该日期保存为startday，即开始进行统计的日期。不然计算时间差需要自行考虑跨年闰年等因素，要通过一个较为复杂的函数才可以完成。

today = datetime.datetime.now()

delta = datetime.timedelta(days=30)

i = "%s" %(today - delta)

startday = i.split(' ')[0]

today = "%s" %today

today = today.split(' ')[0]

在获得开始日期与结束日期后，由于依然需要记录每一天每个人的讨论数，根据这两个日期生成两个字典，分别为actor1_dict与actor2_dict。字典以日期为key，以当日讨论数目作为value，便于每次新增查找记录时更新对应的value值。

strptime, strftime = datetime.datetime.strptime, datetime.datetime.strftime

days = (strptime(today, "%Y-%m-%d") - strptime(startday, "%Y-%m-%d")).days

for i in range(days+1):

temp = strftime(strptime(startday, "%Y-%m-%d") + datetime.timedelta(i), "%Y-%m-%d")

actor1_dict[temp] = 0

actor2_dict[temp] = 0

3.记录从第一页往后翻的所有发帖链接

如图1所示，采用发帖顺序排列，可以得到所有的发帖时间(精确到分钟)。右键并点击查看网页源代码，可以发现当前帖子的链接页面，用正则表达式的方式抓取链接。

首先依然是获取30天前的日期，再抓取第i页的源代码，用正则表达式去匹配，获取网页链接和发帖时间。如图2所示：

比较发帖时间，如果小于30天前的日期，则获取发帖链接结束，返回当前拿到的链接数组，代码如下?

def all_movie_post(ori_url):

i= datetime.datetime.now()

delta= datetime.timedelta(days=30)

i= "%s" %(i- delta)

day= i.split(' ')[0]# 获得30天前的日子

print day

user_agent= 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'

headers= {'User-Agent' : user_agent }

post_list= []

for iin range(1,100):

request= urllib2.Request(ori_url+ '-{}'.format(i),headers= headers)

response= urllib2.urlopen(request)

content= response.read().decode('utf-8')

pattern= re.compile('.*?(.*?)', re.S)

items= re.findall(pattern,content)

for itemin items:

if item[1]== '2011-09-16':

continue

if item[1] > day:#如果是30天内的帖子，保存

post_list.append(+ item[0])

else:#如果已经超过30天了，就直接返回

return post_list

def all_movie_post(ori_url):

i = datetime.datetime.now()

delta = datetime.timedelta(days=30)

i = "%s" %(i - delta)

day = i.split(' ')[0] # 获得30天前的日子

print day

user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'

headers = { 'User-Agent' : user_agent }

post_list = []

for i in range(1,100):

request = urllib2.Request(ori_url + '-{}'.format(i),headers = headers)

response = urllib2.urlopen(request)

content = response.read().decode('utf-8')

pattern = re.compile('.*?(.*?)', re.S)

items = re.findall(pattern,content)

for item in items:

if item[1] == '2011-09-16':

continue

if item[1] > day: #如果是30天内的帖子，保存

post_list.append('https://bbs.hupu.com' + item[0])

else: #如果已经超过30天了，就直接返回

return post_list

函数的传参是链接首页，在函数中修改页码，并继续搜索。

从回帖中搜索演员名字：

接下来的步骤也是通过一个函数来解决。函数的传参包括上一步中得到的链接数组，已经想要查询的演员名字(这个功能可以进一步扩展，将演员名字也用列表的形式传输，同时上一步生成的字典也可以多一些)。

由于虎扑论坛会将一些得到认可的回帖摆在前端，即重复出现。如图3所示：

为了避免重复统计，将这些重复先去除，代码如下：?

if i== 0:

index= content.find('更多亮了的回帖')

if index >= 0:

content= content[index:]

else:

index= content.find('我要推荐')

content= content[index:]

if i == 0:

index = content.find('更多亮了的回帖')

if index >= 0:

content = content[index:]

else:

index = content.find('我要推荐')

content = content[index:]

去除的规则其实并不重要，因为每个论坛都有自己的格式，只要能搞清楚源代码中是怎么写的，剩下的操作就可以自己根据规则进行。

每个回帖格式大致如图4，

用对应的正则表达式再去匹配，找到每个帖子每一个回帖的内容，在内容中搜索演员名字，即一开始的actor_1与actor_2，如果搜到，则在对应回帖日期下+1。

最终将两位演员名字出现频率返回，按日期记录的字典由于是全局变量，不需要返回。?

web_str= '(.*?) .*?.*?

[\s]*[\s]*(.*?)
' #找到回帖内容的正则

pattern= re.compile(web_str, re.S)

items= re.findall(pattern,content)

for itemin items:

#if '引用' in item: #如果引用别人的回帖，则去除引用部分

#try:

#item = item.split('')[1]

#except:

#print item

#print item.decode('utf-8')

if actor_1in item[1]:

actor1_dict[item[0]]+= 1

actor_1_freq+= 1

if actor_2in item[1]:

actor2_dict[item[0]]+= 1

actor_2_freq+= 1

web_str = '(.*?) .*?.*?

[\s]*[\s]*(.*?)
' #找到回帖内容的正则

pattern = re.compile(web_str, re.S)

items = re.findall(pattern,content)

for item in items:

#if '引用' in item: #如果引用别人的回帖，则去除引用部分

#try:

#item = item.split('')[1]

#except:

#print item

#print item.decode('utf-8')

if actor_1 in item[1]:

actor1_dict[item[0]] += 1

actor_1_freq += 1

if actor_2 in item[1]:

actor2_dict[item[0]] += 1

actor_2_freq += 1

至此，我们就利用爬虫知识，成功完成对论坛关键字的频率搜索了。

这只是一个例子，关键字可以任意，这也不只是一个针对演员的诞生而写的程序。将演员名字换成其他词，就可以做到类似“您的年度关键字”这样的结果，根据频率大小来显示文字大小。

python爬虫论坛1688_Python爬虫抓取论坛关键字过程解析相关推荐

python协程gevent案例爬取斗鱼图片过程解析 - python
文章来源: 敏而好学论坛嗨学网www.piaodoo.com 欢迎大家相互学习分析分析网站寻找需要的网址用谷歌浏览器摁F12打开开发者工具,然后打开斗鱼颜值分类的页面,如图: 在里面的请求中, ...
爬虫实战，抓取论坛帖子内容
本文主要内容:以最短的时间写一个最简单的爬虫,可以抓取论坛的帖子标题和帖子内容. 本文受众:没写过爬虫的萌新. 入门 0.准备工作需要准备的东西: Python.scrapy.一个IDE或者随便什么 ...
关于Python爬虫原理和数据抓取1.1
为什么要做爬虫? 首先请问:都说现在是"大数据时代",那数据从何而来? 企业产生的用户数据:百度指数.阿里指数.TBI腾讯浏览指数.新浪微博指数数据平台购买数据:数据堂.国云数据 ...
python爬虫百度百科-python爬虫(一)_爬虫原理和数据抓取
本篇将开始介绍Python原理,更多内容请参考:Python学习指南为什么要做爬虫著名的革命家.思想家.政治家.战略家.社会改革的主要领导人物马云曾经在2015年提到由IT转到DT,何谓DT,DT ...
Python爬虫实战六之抓取爱问知识人问题并保存至数据库
大家好,本次为大家带来的是抓取爱问知识人的问题并将问题和答案保存到数据库的方法,涉及的内容包括: Urllib的用法及异常处理 Beautiful Soup的简单应用 MySQLdb的基础用法正则表 ...
python爬虫beautifulsoup爬当当网_Python爬虫包 BeautifulSoup 递归抓取实例详解_python_脚本之家...
Python爬虫包 BeautifulSoup 递归抓取实例详解概要: 爬虫的主要目的就是为了沿着网络抓取需要的内容.它们的本质是一种递归的过程.它们首先需要获得网页的内容,然后分析页面内容并找到 ...
Python爬虫包 BeautifulSoup 递归抓取实例详解
Python爬虫包 BeautifulSoup 递归抓取实例详解概要: 爬虫的主要目的就是为了沿着网络抓取需要的内容.它们的本质是一种递归的过程.它们首先需要获得网页的内容,然后分析页面内容并找到另 ...
[Python爬虫] 三、数据抓取之Requests HTTP 库
往期内容提要: [Python爬虫] 一.爬虫原理之HTTP和HTTPS的请求与响应 [Python爬虫] 二.爬虫原理之定义.分类.流程与编码格式一.urllib 模块所谓网页抓取,就是把URL ...
Python爬虫之gif图片抓取
Python爬虫之gif图片抓取标签:图片爬虫这几天,对于怎么去爬取图片很感兴趣,就研究了一下,图片爬虫可以说是有简单,更有复杂的,今天,我做了一个比较简单的gif的图片爬虫,仅仅学习一下怎么进行 ...
Python，网络爬虫selenium与pyautogui抓取新浪微博用户数据
Python,网络爬虫selenium与pyautogui抓取新浪微博用户数据不需要登陆新浪微博账户,直接运行就可以通过python爬虫爬取新浪微博用户数据.本例selenium与pyautogui ...

python爬虫论坛1688_Python爬虫抓取论坛关键字过程解析

python爬虫论坛1688_Python爬虫抓取论坛关键字过程解析相关推荐

最新文章

热门文章