摘  要

本课题的主要目的是设计面向定向网站的网络爬虫程序,同时需要满足不同的性能要求,详细涉及到定向网络爬虫的各个细节与应用环节。

搜索引擎作为一个辅助人们检索信息的工具。但是,这些通用性搜索引擎也存在着一定的局限性。不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。为了解决这个问题,一个灵活的爬虫有着无可替代的重要意义。

网络爬虫应用智能自构造技术,随着不同主题的网站,可以自动分析构造URL,去重。网络爬虫使用多线程技术,让爬虫具备更强大的抓取能力。对网络爬虫的连接网络设置连接及读取时间,避免无限制的等待。为了适应不同需求,使网络爬虫可以根据预先设定的主题实现对特定主题的爬取。研究网络爬虫的原理并实现爬虫的相关功能,并将爬去的数据清洗之后存入数据库,后期可视化显示。

关键词:网络爬虫,定向爬取,多线程,Mongodb

ABSTRACT
The main purpose of this project is to design subject-oriented web crawler process, which   require to meet different performance and related to the various details of the targeted web crawler and application in detail.

Search engine is a tool to help people retrieve information. However, these general search engines also have some limitations. Users in different fields and backgrounds tend to have different purposes and needs, and the results returned by general search engines contain a large number of web pages that users don't care about. In order to solve this problem, it is of great significance for a flexible crawler.

Web crawler application of intelligent self construction technology, with the different themes of the site, you can automatically analyze the structure of URL, and cancel duplicate part. Web crawler use multi-threading technology, so that the crawler has a more powerful ability to grab. Setting connection and reading time of the network crawler is to avoid unlimited waiting. In order to adapt to the different needs, the web crawler can base on the preset themes to realize to filch the specific topics. What’s more, we should study the principle of the web crawler ,realize the relevant functions of reptiles, save the stolen data to the database after cleaning and in late achieve the visual display.

Keywords:Web crawler,Directional climb,multi-threading,mongodb

目  录

第一章  概述 1

1.1 课题背景 1

1.2 网络爬虫的历史和分类 1

第二章    文献综述 7

2.1 网络爬虫理论概述 7

2.2 网络爬虫框架介绍 8

第三章    研究方案 16

3.1 网络爬虫的模型分析 16

3.2 URL构造策略 19

3.3 数据提取与存储分析 19

第四章    网络爬虫模型的设计和实现 21

4.1 网络爬虫总体设计 21

4.2 网络爬虫具体设计 21

第五章  实验与结果分析 39

5.2 结果分析 42

参考文献 36

致谢 37

附录1 38

附录2 47

1)爬虫代码文件构成如图:

基于Python网络爬虫的设计与实现毕业设计相关推荐

  1. 基于python网络爬虫的设计和思考

    1.爬虫技术 网 络 爬 虫, 又 称 网 页 蜘 蛛(webspider),是一个功能强大的能够自动提取网页信息的程序,它模仿浏览器访问网络资源,从而获取用户需要的信息,它可以为搜索引擎从万维网上下 ...

  2. python网络爬虫课程设计题目_山东建筑大学计算机网络课程设计《基于Python的网络爬虫设计》...

    山东建筑大学计算机网络课程设计<基于Python的网络爬虫设计> 山东建筑大学 课 程 设 计 成 果 报 告 题 目: 基于Python的网络爬虫设计 课 程: 计算机网络A 院 (部) ...

  3. 基于python网络爬虫的个性化音乐播放器

    前言 当前很多人在闲暇时喜欢听音乐,那么基于这种现象,我也是肝了几个小时完成了基于python的个性化音乐播放器,现在分享给你们. 开发组件 python3.5 以上版本就行 tkinter (pyt ...

  4. 基于python网络爬虫天气_Python网络爬虫之中国天气网

    大家好,今天我们来讲讲怎么用python对中国天气网进行爬取并且对爬取到的数据进行数据可视化的显示 这就是我们今天要爬取的内容,将中国天气网上的华北.东北等地区七天内的天气数据进行一个爬取,并且对最高 ...

  5. python爬虫网络安全的_基于Python网络爬虫实战 - 安全牛课堂 - 领先的信息安全在线教育平台...

    { "i18nChapterName": "章", "i18nUnitName": "节", "i18nLes ...

  6. python爬虫教程视频下载-利用Python网络爬虫获取电影天堂视频下载链接【详细教程】...

    相信大家都有一种头疼的体验,要下载电影特别费劲,对吧?要一部一部的下载,而且不能直观的知道最近电影更新的状态. 今天以电影天堂为例,带大家更直观的去看自己喜欢的电影,并且下载下来. [二.项目准备] ...

  7. 如何利用python在一个wen'dang'li_如何利用Python网络爬虫给自己跟朋友来一份穷游攻略!走到哪里穷到哪里的哦!...

    [一.项目背景] 穷游网提供原创实用的出境游旅行指南.攻略,旅行社区和问答交流平台,以及智能的旅行规划解决方案,同时提供签证.保险.机票.酒店预订.租车等在线增值服务.穷游"鼓励和帮助中国旅 ...

  8. python网络爬虫_一篇文章教会你利用Python网络爬虫获取穷游攻略

    点击上方"IT共享之家",进行关注 回复"资料"可获赠Python学习福利 [一.项目背景] 穷游网提供原创实用的出境游旅行指南.攻略,旅行社区和问答交流平台, ...

  9. python3爬虫有道翻译_一篇文章教会你利用Python网络爬虫获取有道翻译手机版的翻译接口...

    [一.项目背景] 有道翻译作为国内最大的翻译软件之一,用户量巨大.在学习时遇到不会的英语词汇,会第一时间找翻译,有道翻译就是首选.今天教大家如何去获取有道翻译手机版的翻译接口. ![image](ht ...

  10. 实战python网络爬虫豆瓣_三分钟教会你利用Python爬虫实现豆瓣电影采集(实战篇)...

    一.项目背景 豆瓣电影提供最新的电影介绍及评论包括上映影片的影讯查询及购票服务.可以记录想看.在看和看过的电影电视剧 .顺便打分.写影评.极大地方便了人们的生活. 今天小编以电视剧(美剧)为例,批量爬 ...

最新文章

  1. AI指数评论:提防“路灯谬误”,开启全球多方对话
  2. 2017-7-6日记
  3. 总分第一!阿里云数据库应用迁移解决方案通过信通院首批最高级评测
  4. 前端学习(2716):重读vue电商网站36之slot插槽使用
  5. Hadoop优势,生态圈
  6. 基于LINQ to SQL的WEB开发三层架构(2)
  7. 012、JVM实战总结:案例实战:每日百万交易的支付系统,JVM栈内存与永久代大小又该如何设置?
  8. 百度地图Map属性和方法
  9. sqlserver 当月、 时间_sqlserver 获取时间年月日时分秒
  10. python雷达图的相似度_Python教程:matplotlib实现雷达图和柱状图
  11. web项目移动端在线预览(excel在线预览)
  12. ExeScope辅助测试工具简介
  13. java图书借阅系统java图书管理系统java书籍借阅系统
  14. IT 必备电脑快捷键
  15. C++中的各种进制转换函数汇总
  16. 爬虫-爬取中国诗歌网中中国好诗栏目 - 统计词汇出现频数 - 副本
  17. 私人问卷收集系统-Surveyking问卷收集系统
  18. Spring Boot的启动流程
  19. php 汉王云名片_利用PHP自动生成印有用户信息的名片
  20. 明明在内网,做种的人很多,为什么在transmission里bt下载速度仅10kb/s

热门文章

  1. java-多线程编程
  2. MS word自带公式编辑器、MathType、AxMath三种公式编辑器的比较
  3. html实现“设为首页”加入收藏”代码
  4. 用matlab来计算函数,Matlab函数求导教程
  5. SQL Server 2005 彻底卸载、重装问题
  6. 阿里与百度的网盘中场大战
  7. CCF-CSP/202206-2—寻宝!大冒险!c++解题思路
  8. AndroidHttpClient详解
  9. 筛数方法相关系数_相关系数的检验方法.ppt
  10. 自然科学与军事技术史