们的生活。

来越多的应用涉及到大数据,而这些大数据的属性、包括数量、速度、多

样性等等都是呈现了大数据不断增长的复杂性。从而,大数据的获取和分析在大数据

领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。

万维网上有着无数的网页,包含着海量的信息,无孔不入、森罗万象。但很多时

候,无论出于数据分析或产品需求,我们需要从某些网站,提取出我们感兴趣、有价

值的内容,但是纵然是进化到

21

世纪的人类,依然只有两只手,一双眼,不可能去每

一个网页去点去看,然后再复制粘贴。所以我们需要一种能自动获取网页内容并可以

按照指定规则提取相应内容的程序,这就是爬虫。爬虫本身不区分到底是运行在

windows

还是

Linux

,又或是

OSX

,但从业务角度讲,我们把运行在服务端

(

后台

)

的,

称之为后台爬虫。而现在,几乎所有的爬虫都是后台爬虫。

而爬虫数据获取的基础,

经过这么多年的发展,

除了面对

surfaceweb

(

即表层

Web

由网页沟通,网页之间通过超链接关联)的常用爬虫,各种面对垂直领域和特定主题

的爬虫(

focusedcrawler)

成为热点。

二、项目解决了什么问题及创新点

本项目解决了数据科学所依赖的数据来源的问题,帮助数据科学工作者获取更多

更有价值的数据。同时,本项目聚焦于新浪微博、拉勾网、房天下等各项极有价值的

数据,利用现有技术在项目中实现了免登陆、多目标爬取数据,同时针对爬取的数据

进行了初步的筛选过滤,去掉多余信息,除了可以节省本地空间之外还方便数据科学

工作者对数据进行二次清洗、提炼,从而得到更有价值的信息。本项目还针对爬虫的

作用机制以及设计模式进行了优化,

采用多线程的技术可以明显提高

I/O

操作的速度,

同时因为采用了合适的设计模式,可以及时地将内存中的数据导入到数据库中,极大

地减少了内存资源的占用,使爬虫程序在运行期间,尽可能少地占用计算机资源。

三、技术路线及执行计划

理论上来说,任何支持网络通信的语言都是可以写爬虫的,爬虫本身虽然语言关

系不大,但是,总有相对顺手、简单的。目前来说,大多数爬虫是用后台脚本类语言

写的,其中

python

无疑是用的最多最广的,并且页诞生了很多优秀的库和框架,如

scrapy

BeautifulSoup

pyquery

Mechanize

等。但是一般来说,搜索引擎的爬虫

对爬虫的效率要求更高,

会选用

C#

C++

Java

Go(

适合高并发

)

本项目将采用

Python

作为爬虫实现语言对爬虫进行编写,同时辅以相关的功能包以及

C#

编写的图形界面。

爬虫的工作流程较为复杂,

需要根据一定的网页分析算法过滤与主题无关的链接,

保留有用的链接并将其放入等待抓取的

URL

队列。然后,它将根据一定的搜索策略从

队列中选择下一步要抓取的网页

URL

并重复上述过程,

直到达到系统的某一条件时停

止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立

索引,以便之后的查询和检索;如果有网站不愿本站数据流出,则会针对爬虫特性进

行识别,将爬虫拒之门外;所以一个完整的爬虫一般会包含如下几个模块:网络请求

模块、爬取流程控制模块、内容分析提取模块、反爬虫对策模块(如果需要)

。同时辅

C#

编写的图形界面,让爬虫变得更加易用,对用户更加友好。

基于python 爬虫的数据库设计开题报告_爬虫开题报告相关推荐

  1. 基于python的汽车销售网站设计与实现-计算机毕业设计源码+LW文档

    本科生毕业论文(设计)开题报告 题 目 基于Python的汽车销售平台设计与实现 学生姓名 学   号 指导教师 学    院 计算机科学与技术 专   业 计算机科学与技术 职 称 助教 选题的意义 ...

  2. Python之GUI:基于Python的GUI界面设计的一套AI课程学习(机器学习、深度学习、大数据、云计算等)推荐系统(包括语音生成、识别等前沿黑科技)

    Python之GUI:基于Python的GUI界面设计的一套AI课程学习(机器学习.深度学习.大数据.云计算等)推荐系统(包括语音生成.识别等前沿黑科技) 导读 基于Python的GUI界面设计的一套 ...

  3. python数据接口设计_基于python的接口测试框架设计(一)连接数据库

    基于python的接口测试框架设计(一)连接数据库 首先是连接数据库的操作,最好是单独写在一个模块里, 然后便于方便的调用,基于把connection连接放在__init__()方法里 然后分别定义D ...

  4. MySQL数据库搜题_智慧树知到_MySQL数据库设计与应用_搜题公众号

    智慧树知到_MySQL数据库设计与应用_搜题公众号 更多相关问题 阅读理解. This is the twin's(双胞胎的) room. It's a nice room. The two beds ...

  5. mysql数据库设计与应用答案智慧树_知到智慧树_MySQL数据库设计与应用_答案完整...

    知到智慧树_MySQL数据库设计与应用_答案完整 更多相关问题 [B11]A.carry onB.linger onC.set inD.log in 数据库的三级模式结构中,模式也称为A.逻辑模式B. ...

  6. his使用mysql_知到智慧树_MySQL数据库设计与应用_答案全部

    知到智慧树_MySQL数据库设计与应用_答案全部 更多相关问题 He was crossing over to _____ side of the road when I saw him. A.oth ...

  7. 基于Python企业公司网站设计与实现 开题报告

      本科生毕业论文 基于Python校园网站系统(Django框架) 开题报告 学    院: 专    业: 计算机科学与技术 年    级: 学生姓名: 指导教师: 黄菊华   XXXX大学本科生 ...

  8. 基于SSM实现的图书管理系统-JAVA【数据库设计、源码、开题报告】

    1绪论 1.1项目研究的背景 随着计算机技术的飞速发展,计算机在企业管理中应用的普及,利用计算机实现图书信息的管理势在必行.目前图书管理的借阅工作部分大多数还是手工管理,工作效率很低,并且不能及时了解 ...

  9. 基于微信小程序的家校通系统-JAVA【数据库设计、源码、开题报告】

    第一章 绪 论 1.1选题背景 随着网络时代的到来,互联网的优势和普及时刻影响并改变着人们的生活方式.在信息技术迅速发展的今天,计算机技术已经遍及全球,使社会发生了巨大的变革. 为了不受时间和地点的限 ...

  10. python房屋租赁系统的设计与实现_基于Django的租房数据展示系统设计与实现开题报告...

    爬虫是指一段自动的向互联网上某些网页发出请求并接收响应,根据一定规则继续爬取链接或从响应中提取出有价值的信息的一段程序,即爬虫是一段完成特定功能的程序.从原理上讲,任何具有网络通信功能的高级程序设计语 ...

最新文章

  1. Trees Made to Order ZOJ - 1062
  2. 字符串hash(一)
  3. 语音识别学习日志 2019-7-14 语音识别基础知识准备3 {Kmean算法分析与HMM(Hidden Markov Model)模型}
  4. 开发springboot项目,遇到的一些问题总结
  5. 安卓案例:列表控件上拉加载更多
  6. JavaScript get set方法 ES5 ES6写法
  7. 计算机术语翻译的最烂,我国计算机名词的翻译现状和建议
  8. android selector的item属性
  9. getchar()细节
  10. CORS跨域资源共享
  11. 在Google工作的十年,也是我开心的十年
  12. 【006】- Django模型数据操作(二)
  13. 2021年度总结—四非计算机保研经历(参营:清华网研院、中科大先研院、华师大数据科学院、厦大计算机系、上科大信息学院)
  14. java中wgs84转高德_2020-06-11关于WGS84 高德坐标 百度坐标的相互转换
  15. 数据离散化之chimerge算法的实现(python版)(以莺尾花数据为例)
  16. 青蛙的约会—POJ1061
  17. 常见浏览器兼容性问题大全
  18. IOS 自定义软键盘功能,修改换行键为发送键
  19. 国外问卷调查详细讲解
  20. Uos统信系统 nginx

热门文章

  1. 2012百度移动开发者大会汇报
  2. KPI and evaluation decouple verification
  3. 【翻译】 Unity3D VR 教程:4.VR中的用户界面
  4. zblog怎么定位html代码,zblog模板修改常用调用标签代码
  5. 如何解决手机retina显示屏下的1px太粗问题
  6. 征文 | 青出于蓝而胜于蓝 国货之光GBase
  7. 微信公众平台开发(111) 现金红包、裂变红包、企业付款
  8. 优动漫PAINT入门宝典(图层篇)——矢量图层
  9. vs2017 开关“/NOENTRY”只与 DLL 兼容;链接时不使用“/NOENTRY”
  10. mac画图工具 OmniGraffle (四)化繁为简