需求背景:

日常开发和集成测试期间由于团队的庞大,每天测试新建的Bug和开发关闭的Bug数量也比较多,难免有些测试提Bug时其描述不规范,或者开发关Bug时备注不规范。如果每天投入人力去全部过这些Bug是否规范势必是个繁琐而费时的体力活。因此基于爬虫框架的Bug规范性检查的出现很好的解决上面的问题。

基本流程:

本人以前所在的公司用的bug系统是JIRA,只要是web型的管理系统都是走爬虫,用python语言实现。

基本架构:

模块设计:

BugURL管理器:管理待抓取URL集合和已抓取URL集合(防止重复抓取、防止循环抓取)

URL下载器:是网络爬虫的核心,将JIRA系统中的Bug对应的URL对应的网页下载到本地。采用Requests是第三方库,比Urllib2更为强大。提供一些复杂的接口用于处理: 基本认证,重定向,Cookies等。

URL解析器:从Bug对应的网页中解析出需要检测的内容如Bug状态、Bug描述、Bug附件、Bug备注和嵌套的其他Bug URL等等。采用BeautifulSoupd的Python库来实现(提供结构化解析)。

合法性检查:主要是对测试和开发备注性的东西检查是否规范,每个项目组对测试提bug的规范性和开发关bug时备注的规范性都有不同要求,这些规则可以配置在数据库中或者配置文件中。再根据上面解析出来的备注等来做自然语言处理,判断是否符合规范。判断是否规范主要采用了两种方法,第一种就是专家规则方法,这种方法比较死板不够灵活;第二种采用机器学习的思想引入了Naive Bayes(朴素贝叶斯方法)+Word2Vec(词向量)来处理自然语言中近义词问题(后续出篇文章详细说Naive Bayes和Word2Vec)。

备注:如果是JIRA系统的bug库,可以采用JIRA的第三方python库来实现数据的获取,from jira import JIRA导入即可,很方便,详细使用说明:http://jira.readthedocs.io/en/master/。

【厚积薄发系列】C++项目总结11—基于Python爬虫框架的Bug规范性检查系统相关推荐

  1. 基于Python Flask框架的共享自习室预约系统的设计与实现-计算机毕业设计源码+LW文档

    1.1选题背景 信息技术的发展改变了我们的生活方式,许多行业的管理模式发生了根本性改变,特别是零售业受到电子商务强烈的冲击,越来越多的人参与到网购中.许多传统行业逐渐凋零,蓬勃发展的信息技术带来了大量 ...

  2. 【大数据分析毕设之基于python爬虫的旅游大数据分析可视化系统】

    [大数据分析毕设之基于python爬虫的旅游大数据分析可视化系统-哔哩哔哩] https://b23.tv/z2OUTkp flask web框架,数据使用selenium模块爬取携程网获取数据,使用 ...

  3. 数据采集与存储案例——基于Python爬虫框架Scrapy的爬取网络数据与MySQL数据持久化

    此案例需要预先安装pymsql python3.7.4 scrapy2.7.1 一.安装scrapy框架 1.使用pip命令安装scrapy pip install scrapy 在这里下载太慢可以使 ...

  4. python爬虫项目毕业设计_基于python爬虫的电影推荐网站的设计与实现毕业论文+初稿+项目源码+安装说明+使用说明...

    摘 要 现在电影资源是网络资源的重要组成部分,随着网络上电影资源的数量越来越庞大,设计电影个性化推荐系统迫在眉睫.所以本文旨在为每一个用户推荐与其兴趣爱好契合度较高的电影. 本系统包含电影前端展示界面 ...

  5. 【毕业设计】基于python 爬虫 flask的疫情数据可视化系统

    1 前言

  6. 基于python爬虫数据处理_基于Python爬虫的校园数据获取

    苏艺航 徐海蛟 何佳蕾 杨振宇 王佳鹏 摘要:随着移动时代的到来,只适配了电脑网页.性能羸弱的校园教务系统,已经不能满足学生们的移动查询需求.为此,设计了一种基于网络爬虫的高实用性查询系統.它首先通过 ...

  7. 【项目实战】基于python的 p2p 贷后指标全自动日报制作

    需要数据分析.风控评分卡等相关数据.代码,请添加qq群:102755159,或留言联系笔者邮件发送!!! 如果对金融风控.机器学习.数据科学.大数据分析等感兴趣的小伙伴,可加微信交流(邮件中备注,我会 ...

  8. Python项目----基于Scrapy爬虫框架的豆瓣电影数据采集

    基于Scrapy爬虫框架的豆瓣电影数据采集 项目介绍 项目简介 项目开发环境 项目需求分析 Scrapy框架 Scrapy框架基础知识 Scrapy框架安装 Scrapy框架使用 项目功能实现 爬虫主 ...

  9. 《Python与硬件项目案例》— 基于Python的口罩检测与指纹识别签到系统设计

    <Python与硬件项目案例>- 基于Python的口罩检测与指纹识别签到系统设计 目录 <Python与硬件项目案例>- 基于Python的口罩检测与指纹识别签到系统设计 1 ...

最新文章

  1. 阿里双十一秒杀系统架构设计,有哪些技术关键点?
  2. vue属性_computed(计算属性)methods(方法)
  3. Decorator(装饰)--对象结构型模式
  4. 【51单片机快速入门指南】4.3: I2C读取MPU6050陀螺仪的原始数据
  5. Presto入门介绍
  6. 解决问题:无法对 System程序集 添加Fakes程序集
  7. java 枚举的实现原理
  8. BlueViewer 地图加载分析(C#)
  9. 《Linux内核设计与实现》读书笔记 第一章 Linux内核简介
  10. shell脚本学习指南——好书推荐
  11. matlab自带回归拟合数据,matlab数据拟合与线性回归
  12. 黑马python15期解压密码_2018年传智播客黑马python+人工智能 15期
  13. Ubuntu20.04安装增强功能
  14. Excel如何从单元格中提取数值
  15. SOA面向服务的架构概念梳理
  16. java 去除引号_java如何用replaceAll去除字符串中的引号
  17. EasyUI之Linkbutton按钮
  18. Symbian模拟器启动流程
  19. JD Edwards 演进史
  20. NC65合并报表如何取消上报并退回以及注意事项和相关问题总结

热门文章

  1. 2014,寻找企业信息管理软件的蓝海
  2. HTTPS 方式访问网站
  3. Win11驱动更新 USB-RS232
  4. blogger_如何在博客中添加推文并调试基本JavaScript:为什么Twitter.com/JavaScript/Blogger JSONP Widget停止工作?...
  5. CS5266+MA8621做TYPEC转HDMI+PD+U3+2U+SD/TF七合一拓展坞方案设计|CS5266多口拓展坞PCB+原理图参考
  6. RSA--前端JS加密--后端JAVA解密
  7. wps云文档 wps自动备份怎么设置和取消
  8. shell脚本——文件包含引用的操作使用
  9. 最新安徽安全员B考试选择题预测题库
  10. OpenCV Java入门三 Mat的基本操作