网络爬虫技术是指按照一定的规则,自动地抓取万维网信息的技术。网络爬虫又称为网页蜘蛛、网络机器人,在FOAF社区中间,更经常的称为网页追逐者;另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

网络爬虫技术是指按照一定的规则,自动地抓取万维网信息的技术

网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

抓取目标的描述和定义是决定网页分析算法与URL搜索策略如何制订的基础。而网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在。这两个部分的算法又是紧密相关的。

现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念3种。

基于目标网页特征

基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。根据种子样本获取方式可分为:

(1) 预先给定的初始抓取种子样本;

(2) 预先给定的网页分类目录和与分类目录对应的种子样本,如Yahoo!分类结构等;

(3) 通过用户行为确定的抓取目标样例,分为:

(a) 用户浏览过程中显示标注的抓取样本;

(b) 通过用户日志挖掘得到访问模式及相关样本。

其中,网页特征可以是网页的内容特征,也可以是网页的链接结构特征,等等。

基于目标数据模式

基于目标数据模式的爬虫针对的是网页上的数据,所抓取的数据一般要符合一定的模式,或者可以转化或映射为目标数据模式。

基于领域概念

另一种描述方式是建立目标领域的本体或词典,用于从语义角度分析不同特征在某一主题中的重要程度。

更多相关知识,请访问 PHP中文网!!

爬虫php1论坛,网络爬虫技术是什么意思?相关推荐

  1. java爬虫学习_java网络爬虫基础学习(一)

    刚开始接触java爬虫,在这里是搜索网上做一些理论知识的总结 主要参考文章:gitchat 的java 网络爬虫基础入门,好像要付费,也不贵,感觉内容对新手很友好. 一.爬虫介绍 网络爬虫是一个自动提 ...

  2. python爬虫程序-Python网络爬虫实战(一)快速入门

    本系列从零开始阐述如何编写Python网络爬虫,以及网络爬虫中容易遇到的问题,比如具有反爬,加密的网站,还有爬虫拿不到数据,以及登录验证等问题,会伴随大量网站的爬虫实战来进行. 我们编写网络爬虫最主要 ...

  3. 精通python网络爬虫-精通Python网络爬虫:核心技术、框架与项目实战

    -- 目录 -- 前言 第一篇 理论基础篇 第1章 什么是网络爬虫 1.1 初识网络爬虫 1.2 为什么要学网络爬虫 1.3 网络爬虫的组成 1.4 网络爬虫的类型 1.5 爬虫扩展--聚焦爬虫 1. ...

  4. Python 网络爬虫 001 (科普) 网络爬虫简介

    Python 网络爬虫 001 (科普) 网络爬虫简介 1. 网络爬虫是干什么的 我举几个生活中的例子: 例子一: 我平时会将 学到的知识 和 积累的经验 写成博客发送到CSDN博客网站上,那么对于我 ...

  5. 爬虫分类——通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫

    爬虫分类 网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫.聚焦网络爬虫.增量式网络爬虫.深层网络爬虫. 实际的网络爬虫系统通常是几种爬虫技术相结合实现的 通用网络爬虫 通用网络 ...

  6. python3.6网络爬虫_python3.6网络爬虫

    <精通Python网络爬虫:核心技术.框架与项目实战>--导读 前 言 为什么写这本书 网络爬虫其实很早就出现了,最开始网络爬虫主要应用在各种搜索引擎中.在搜索引擎中,主要使用通用网络爬虫 ...

  7. python爬虫什么意思-网络爬虫是什么(python爬虫有什么用)

    在这个谈论数据的时代,数据是一件极其重要的事情.我们如何获取完整而全面的数据?这不是一项容易的任务. 如果你想做好大数据分析,光靠自己的努力或外围数据是远远不够的,你需要依靠"神秘的外力&q ...

  8. Python网络爬虫——1、网络爬虫简介

    什么是网络爬虫 网络爬虫又称网络蜘蛛.网络蚂蚁.网络机器人,它可以自动化浏览网络中的信息,当然浏览信息的时候需要按照我们制定的规则进行,这些规则我们称之为网络爬虫算法.使用Python可以方便的编写出 ...

  9. 【Python】猎聘网招聘数据爬虫(Python网络爬虫课设简要)

    [Python]猎聘网招聘数据爬虫(Python网络爬虫课设简要) 注: 本文仅供学习交流使用! 合肥学院-20信管-20302211009 项目文件可自行前往博客主页下载或联系作者qq(341625 ...

最新文章

  1. 前沿视频教室——《C#图解教程》是本好书,强烈推荐!
  2. Caffe学习笔记2
  3. 未封装的扩展程序是什么意思_Android漏洞挖掘第三期:客户端完整性未校验
  4. linux 压缩成bz2,linux 将文件压缩成bz2格式 命令:bzip2
  5. MAC查找JDK的路径
  6. 【MarkDown】转义字符
  7. Django简介与基本命令
  8. 扩展Email系统,成就分布式协同
  9. wordpress建立二级导航菜单
  10. CDR插件开发之GMS插件001 - 什么是GMS插件
  11. WEB应用组合——LAMP软件源码编译安装
  12. JavaScript轻应用网络模块介绍
  13. 环境工程微生物学练习题
  14. 如何批量一键下单寄快递
  15. 删除按升序排列的单链表中的所有重复元素
  16. 【春招实习秋招】前端学习の优质资料整理心路历程(已上岸)
  17. excel求方差和标准差的函数_Excel标准差计算函数Stdev和StdevP的用法与区别,包含4个实例...
  18. 在Xcode下执行C/C++程序
  19. 2016年 团体程序设计天梯赛——题解集
  20. MAC必装软件之HomeBrew、HomeBrew-Cask

热门文章

  1. 【Creator Kit - RPG 代码分析】(1)-核心框架、单例、定时事件
  2. 实现 WOW 插件的简单步骤
  3. “保姆级”车载CAN总线教程(四)-堪称全网“最细”系列
  4. Lily无人机获新生,Mota Group为其增加4K拍摄功能
  5. win10窗口移动快捷键
  6. SSTI/沙盒逃逸详细总结
  7. 第七篇:文件和文件夹得权限
  8. 朱大鸣:中国金融危机到底有多严重
  9. matlab 数值积分 奇点,一类含奇点函数的数值积分方法
  10. God is a 程序猿