前言

由于第一问需要频道用户信息，便选择从深圳卫视的微博中爬取其粉丝的信息作为数据。

网站分析

首先分析微博粉丝列表，获取每个粉丝的id，可用地址栏的page参数进行翻页，

在用户信息部分，有两个需要注意的地方：一个是id会拼在一个数字的后面，我这里的id前就有100505，这个数字不固定，大家之后运行的话一定要记得修改；另外一个是有些用户的基本信息不全，爬取的时候需要加上过滤条件。

总的来讲思路就是在微博粉丝列表的界面获取粉丝的id，再根据id来爬取每个粉丝的基本信息。

具体代码

解决登录

def get_userids(targetId, fileName):browser = webdriver.Chrome()browser.get('https://weibo.com')# 先手动登录，保存一下cookiestime.sleep(60)write_cookies(browser.get_cookies())browser.delete_all_cookies()# 获取保存的cookiescookies = get_cookies_list()# 设置cookie再打开首页可以看到是已登录状态for item in cookies:browser.add_cookie(item)browser.get('https://weibo.com')

其中用到两个我以前封装的工具方法

def write_cookies(cookies):cookiesJson = json.dumps(cookies)with open('taobao.json', 'w') as f:f.write(cookiesJson)
def get_cookies_list():with open('taobao.json', 'r', encoding='utf-8') as f:cookiesList = json.loads(f.read())return cookiesList

获取id

def get_userids(targetId, fileName):''':param userids: 我这里采取的是根据id，来确定需要爬取的微博对象，简单修改一下代码也可以直接写链接。:param fileName: 直接将id写入文件保存下来:return: 没有返回值'''browser = webdriver.Chrome()browser.get('https://weibo.com')browser.delete_all_cookies()# 获取保存的cookiescookies = get_cookies_list()for item in cookies:browser.add_cookie(item)for i in range(1, 6):# url = 'https://weibo.com/p/100106'+str(targetId)+'/follow?relate=fans&page='+str(i)+'#Pl_Official_HisRelation__47'url = 'https://weibo.com/p/100606'+str(targetId)+'/follow?relate=fans&page='+str(i)+'#Pl_Official_HisRelation__47'# url = 'https://weibo.com/p/100206'+str(targetId)+'/follow?pids=Pl_Official_HisRelation__50&relate=fans&page='+str(i)+'#Pl_Official_HisRelation__50'browser.get(url)html = browser.page_sourcedoc = pq(html)userlist = doc.find('.info_name .S_txt1') # CSS选择器，时间长了可能会变for user in userlist.items():item = str(user.attr('href'))userid = re.findall("u/(.+)\?", item)with open('ids/audience/'+fileName, 'a') as f:       # 保存文件的名字if len(userid) > 0:f.write(str(userid[0]) + '\n')

获取信息

def get_info(userids, fileName):'''    :param userids: 之前爬取的用户id:param fileName: 用于存储基本信息的文件，采用csv格式，一个用户一行：用户名，地区，性别、生日:return: 无返回值'''browser = webdriver.Chrome()browser.get('https://weibo.com')browser.delete_all_cookies()cookies = get_cookies_list()# 设置cookie再打开首页可以看到是已登录状态for item in cookies:browser.add_cookie(item)for userid in userids:url = 'https://weibo.com/p/100505'+str(userid)+'/info?mod=pedit_more'browser.get(url)html = browser.page_sourcedoc = pq(html)basic = doc.find('.WB_innerwrap .clearfix .li_1 .pt_detail')           # CSS选择器，时间长了可能会变count = 1line = []for item in basic.items():if count <= 4:                        # 只取前四个line.append(item.text())count = count+1else:breakwrite_info(line, fileName, userid)browser.close()

其中将写信息的操作单独进行了封装

def write_info(line, fileName, userid):with open('infos/product/'+fileName, 'a') as f:if len(line) == 4 and str(line[2]) in '男,女' and '年' in str(line[3]) and '月' in str(line[3]):f.write(str(userid) + ',' + str(line[1]) + ',' + str(line[2]) + ',' + str(line[3]) + '\n')

调用演示

if __name__ == '__main__':names = ['深圳卫视诗意中国栏目', '深圳卫视探秘时刻栏目', '深圳卫视微博发布厅', '深圳卫视温暖在身边栏目', '深圳卫视正午三十分栏目', '深圳卫视直播港澳台栏目']for name in names:ids = read_ids(name+'粉丝id列表.txt')get_info(ids, name+'粉丝信息列表.csv')

其中封装了一个读取id的方法

def read_ids(fileName):ids = []with open('ids/product/'+fileName) as f:for line in f:ids.append(line.strip())return ids

19年深圳杯D题之爬取微博粉丝基本信息相关推荐

19年深圳杯D题之爬取电视收视率排行榜
文章目录前言站点分析具体代码前言 D题与地方电视台有关,多年的收视率数据可能有一些用站点分析 http://www.tvtv.hk/archives/category/tv 可以发现每天的排 ...
web scraper 爬取微博粉丝性别以及微博内容
一.粉丝性别两个地方要注意: 1. 翻页,由于查看粉丝数限制,如果一直点下一页,会卡在第5页或者第10页,最后数据无法保存.所以还是在url里写上页数范围,这样最后数据可以保存:比如第一页网址:是 ...
# 深圳杯D题爬取电视收视率排行榜
目录深圳杯D题爬取电视收视率排行榜站点分析代码实现深圳杯D题爬取电视收视率排行榜站点分析 http://www.tvtv.hk/archives/category/tv 每天的排行版通过静态 ...
2022年深圳杯A题破除“尖叫效应”与“回声室效应”走出“信息茧房”
2022年深圳杯A题破除"尖叫效应"与"回声室效应"走出"信息茧房" 为了防止更多的人走弯路,对于此题,数据随便找,数据自己造然后文档写 ...
2020深圳杯B题论文
2020深圳杯B题论文问题1: 在给定的信噪比(SNR)信道中,为了达到更高的频谱效率,很多新型的星座图技术,例如几何成型(GeometricShaping,GS)和概率成型(Probalisiti ...
2020年深圳杯C题
C题:无线可充电传感器网络充电路线规划摘要物联网的快速发展带动了无线传感器网络WSN在生活中的广泛运用.无线传感器网络中包括若干传感器以及一个数据中心,这些传感器的电池均需要移动充电器提供能量来维 ...
c语言开发深圳,2020年深圳杯C题
C题:无线可充电传感器网络充电路线规划摘要物联网的快速发展带动了无线传感器网络WSN在生活中的广泛运用.无线传感器网络中包括若干传感器以及一个数据中心,这些传感器的电池均需要移动充电器提供能量来维 ...
2021年深圳杯A题火星探测器着陆控制方案
2021年深圳杯A题火星探测器着陆控制方案本题聚焦于探测器从火星同步轨道出发到探测器在火星地表上方悬停的过程(以下简称着陆过程),要求参赛队收集有关天问一号探测器的音像和文字等公开资料,建立数学模型 ...
【Python爬虫】2022年数学建模美赛B题数据爬取
2022年数学建模美赛B题数据爬取背景 2022年的美赛刚刚落下帷幕,该题的一个主要难点在于数据的获取.很多人无法找到有效的数据,或者是无法获取数据. 比如找到了如下米德湖的水文数据,但是发现并没有 ...

19年深圳杯D题之爬取微博粉丝基本信息

文章目录

前言