“希希敬敬对”百度贴吧小爬虫任务计划:

今天的团队讨论照片:

   龙江腾(队长) 201810775001

     完成“爬取发帖主题人的主题回复数据”代码review,明天完成代码,实现“把10个页面的数据整合到一个数据组中,并进行排序”的功能。

   杨希                   201810812008

     完成代码,实现“爬取发帖主题人的主题回复数据”功能,明天完成“把10个页面的数据整合到一个数据组中,并进行排序”的代码review。

   何敬上     201810812004

     完成“爬取发帖主题人的主题回复数据”代码review,明天完成代码,实现“把10个页面的数据整合到一个数据组中,并进行排序”的功能。

遇到的问题:

  暂无

燃尽图:

程序代码(基于昨天代码的基础上的更新):

# 找到数据对应的网页,分析网页结构找到数据所在的标签位置
#模拟HTTP请求,向服务器发送这个请求,获取到服务器返回给我们的HTMLimport re
from urllib import requestclass BDTBCrawler():url = "http://tieba.baidu.com/f?kw=%E4%B8%9C%E5%8D%8E%E7%90%86%E5%B7%A5%E5%A4%A7%E5%AD%A6&ie=utf-8"Name_num_list = []def __init__(self, url):BDTBCrawler.url = url#匹配到包含了主题作者和帖子回复数关键字的标签root_pattern = '<span class="threadlist_rep_num center_text"([\s\S]*?)data-field='# 匹配到对应的帖子回复数num_pattern = 'title="回复">([\s\S]*?)</span>'# 匹配到主题作者name_pattern = 'title="主题作者: ([\s\S]*?)"'#模拟HTTP请求,向服务器发送请求,获取到服务器返回给我们的HTMLdef __fetch_content(self):r = request.urlopen(BDTBCrawler.url)htmls = r.read()# 将服务器返回的字节码转换成字符串格式htmls = str(htmls, encoding='utf-8')return htmlsdef __analysis(self, htmls):#root_html获取包含了主题作者和帖子回复数关键字的标签root_html = re.findall(BDTBCrawler.root_pattern, htmls)# 用anchors这个列表来存放提取出来的主题作者和帖子回复数组成的字典anchors = []for html in root_html:# 提取主题作者(列表类型)name = re.findall(BDTBCrawler.name_pattern, html)# #提取回复数(列表类型)number = re.findall(BDTBCrawler.num_pattern, html)anchor = {'name': name, 'number': number}anchors.append(anchor)# print(anchors)return anchorsdef go(self):#使用for循环爬取前10页htmls = ''for i in range(0, 10):pn = i * 50#page记录当前爬取页面需要在URL上添加的字符串page = '&pn=' + str(pn)BDTBCrawler.url += pagehtmls += self.__fetch_content()anchors = self.__analysis(htmls)for i in anchors:print(i)crawler = BDTBCrawler(BDTBCrawler.url)
crawler.go()

程序运行结果部分截图:

转载于:https://www.cnblogs.com/dyls/p/10019355.html

“希希敬敬对”团队作业——敏捷冲刺4相关推荐

  1. “希希敬敬对”团队作业-敏捷冲刺1

    "希希敬敬对"百度贴吧小爬虫任务计划 Alpha任务分配计划: 百度贴吧小爬虫项目一共分成10个小的任务,分别分配给不同的同学. 以下是我们的10个任务: 以下是不同的3位组员分别 ...

  2. “希希敬敬对”团队作业——敏捷冲刺5

    "希希敬敬对"百度贴吧小爬虫任务计划:今天的团队讨论照片: 今天讨论照片: 龙江腾(队长) 201810775001 完成"把10个页面的数据整合到一个数据组中,并进行排 ...

  3. “希希敬敬对”团队作业-敏捷冲刺-3

    "希希敬敬对"百度贴吧小爬虫任务计划: 今天的团队讨论照片: 龙江腾(队长) 201810775001 完成任务"对贴吧前10页进行爬取任务",明天将完成&qu ...

  4. “希希敬敬对”团队作业-敏捷冲刺2

    "希希敬敬对"百度贴吧小爬虫任务计划 今天的团队讨论照片: 龙江腾(队长) 201810775001 完成 "贴吧名字关键字与URL关联"代码检查.明天将要完成 ...

  5. “希希敬敬对”团队作业——敏捷冲刺7

    1"希希敬敬对"百度贴吧小爬虫任务计划: 龙江腾(队长) 201810775001 程序生成exe文件遇到了些问题,程序生成apk文件的review,程序贴吧推广使用的review ...

  6. “希希敬敬对”团队作业——敏捷冲刺6

    1"希希敬敬对"百度贴吧小爬虫任务计划: 龙江腾(队长) 201810775001 完成爬下的发帖主题人信息进行图形化显示的review,明天完成程序生成exe文件,程序生成apk ...

  7. 团队作业——Alpha冲刺 6/12

    团队作业--Alpha冲刺 冲刺任务安排 杨光海天 今日任务:编辑界面完成标题栏的开发,以及与已经完成gallery开发的同学,商讨我负责的界面中,图片滑动的具体措施. 明日任务:除了图像识别内容嵌入 ...

  8. 《团队作业第三、第四周》五小福团队作业--Scrum 冲刺阶段--Day6

    <团队作业第三.第四周>五小福团队作业--Scrum 冲刺阶段--Day6 一.项目燃尽图 二.项目进展 [20172301郭恺第六天的进展] 第五天完成的任务: 点击牌会抬起.选中牌的图 ...

  9. 团队作业——Alpha冲刺 4/12

    团队作业--Alpha冲刺 冲刺任务安排 杨光海天 今日任务:着手进行编辑界面的布局,插入控件,并进行参数调整. 明日任务:继续完善编辑界面控件,学习控件交互功能. 郭剑南 今日任务:上网查阅学习了关 ...

最新文章

  1. 影像融合操作的几种途径
  2. java取消_java – 取消之前的请求
  3. SpringBoot开发案例之CountDownLatch多任务并行处理
  4. java虚拟机jvm_java虚拟机jvm - zhuyuansj的个人空间 - OSCHINA - 中文开源技术交流社区...
  5. 自动挡跑高速用S挡还是D挡? 回答
  6. QCA9886降低功耗指令
  7. 统计学-【假设检验】 知识点总结
  8. 统计成绩及格率和优秀率题目
  9. Java实现文件管理系统(附带源码)
  10. 一种快速求解最大团问题的算法
  11. SRB x-sign
  12. 飞控中的IIR二阶滤波器
  13. 自适应二次元紫色luo莉资源网emlog模板
  14. 迈道科技双重预防系统入选《2021年中国石油和化工企业500强发布会化工科技成果汇编》
  15. 项目管理(如何做一个优秀的项目经理)
  16. 农村环境保护之平时作业三
  17. 《GPU高性能编程》——gl_helper.h
  18. 混合面向目标的机器人
  19. 用Python架设大型多人在线游戏服务端
  20. windows环境利用start命令实现微信多开

热门文章

  1. Maven3.5.3下载安装与环境配置
  2. 9位院士及12位专家联合发表长文:人工智能的进展、挑战与未来
  3. Python JS逆向实战项目:某咕视频逆向分析 攻破~~
  4. 啦啦~~~记录江苏省C等级考试相关题目
  5. LeetCode 1091 二进制矩阵中的最短路径问题[BFS 队列] HERODING的LeetCode之路
  6. 入门编程指南:如何从零开始学习编程?
  7. 2022 年 best 大数据认证:康奈尔大学,Intellipaat,SAS, USDI, Cloudera CCA175 Hadoop
  8. SOLIDWORKS会遇到的预览问题
  9. fitbit手表中文说明书_最佳Fitbit:哪一个适合您?
  10. TVS管电路原理图符号及选型举例