1.什么是爬虫

爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。

比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据。这样,整个连在一起的大网对这之蜘蛛来说触手可及,分分钟爬下来不是事儿。

2.浏览网页的过程

在用户浏览网页的过程中,我们可能会看到许多好看的图片,比如 http://image.baidu.com/ ,我们会看到几张的图片以及百度搜索框,这个过程其实就是用户输入网址之后,经过DNS服务器,找到服务器主机,向服务器发出一个请求,服务器经过解析之后,发送给用户的浏览器 HTML、JS、CSS 等文件,浏览器解析出来,用户便可以看到形形色色的图片了。

因此,用户看到的网页实质是由 HTML 代码构成的,爬虫爬来的便是这些内容,通过分析和过滤这些 HTML 代码,实现对图片、文字等资源的获取。

3.URL的含义

URL,即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。

URL的格式由三部分组成:①第一部分是协议(或称为服务方式)。②第二部分是存有该资源的主机IP地址(有时也包括端口号)。③第三部分是主机资源的具体地址&#

python获取url文件名_Python实现从URL地址提取文件名的方法相关推荐

  1. python 分隔符截取字符串_python针对不定分隔符切割提取字符串的方法

    python针对不定分隔符切割提取字符串的方法 更新时间:2018年10月26日 14:55:06 作者:nudt_qxx 今天小编就为大家分享一篇python针对不定分隔符切割提取字符串的方法,具有 ...

  2. python获取数组长度_Python返回数组(List)长度的方法

    原博文 2016-03-16 11:53 − 其实很简单,用len函数: >>> array = [0,1,2,3,4,5]>>> print len(array) ...

  3. python获取指定目录下的所有指定后缀的文件名

    python获取指定目录下的所有指定后缀的文件名 使用到的函数有: os.path.splitext():分离文件名与扩展名 代码如下: #! /usr/bin/python # -*- coding ...

  4. python url解析_Python中实现URL的解析

    在Python中的urlparse模块主要是用于解析url中的参数  对url按照一定格式进行 拆分或拼接 1.urlparse.urlparse 将url分为6个部分,返回一个包含6个字符串项目的元 ...

  5. python获取文件路径名_python文件名获取文件路径

    如何使用Python获取文件所在目录和文件名 python中如何根据文件名找他的路径.现在我遍历到怎么才能将某一个文件对应的路径找到呢? 遍历用os.walk: import osfrom os.pa ...

  6. python获取网页图片_python抓取网页中的图片示例

    python抓取网页中的图片示例 代码如下: #coding:utf8 import re import urllib def getHTML(url): page = urllib.urlopen( ...

  7. python获取股票数据_python根据股票代码获取当前数据

    1.[代码][Python]代码 #!/usr/bin/env python # -*- coding: utf-8 -*- import urllib2 import re import datet ...

  8. python获取网站代码_python爬虫1——获取网站源代码(豆瓣图书top250信息)

    # -*- coding: utf-8 -*- import requests import re import sys reload(sys) sys.setdefaultencoding('utf ...

  9. python获取当前股票价格_python根据股票代码获取当前数据

    下面是编程之家 jb51.cc 通过网络收集整理的代码片段. 编程之家小编现在分享给大家,也给大家做个参考. 上班时间通过浏览器打开股票网站怕会被别人看到,没关系,试试在命令行下执行代码看数据就行了. ...

  10. python获取登录按钮_Python:Selenium模拟Chrome浏览器抓取淘宝商品信息

    对于采用异步加载技术的网页,有时候想通过逆向工程的方式来设计爬虫进行爬取会比较困难,因此,要想通过python获取异步加载数据往往可以使用Selenium模拟浏览器的方式来获取. Selenium是一 ...

最新文章

  1. 理解 Activity.runOnUiThread
  2. getRectSubPix函数
  3. 趣学python3(32)-enumerate,zip
  4. linux/unix 段错误捕获【续】
  5. 所有的面试问题都可以归结为这三类(附回答套路)
  6. 【SpringCloud】Spring cloud Alibaba Sentinel 系统规则
  7. 【React框架-1】React概览
  8. 1. 第一个lavarel 项目
  9. 06-移位寄存器74HC595芯片编程
  10. 人大金仓数据库高可用集群部署教程
  11. [收藏]VUE优秀UI组件库合集
  12. c语言中可以使用setw函数吗,string和stringstream+setw()用法总结
  13. 芯片尺寸越做越小,晶圆划片刀的选择至关重要
  14. FNDLOAD命令整合
  15. missing Change-Id in message footer
  16. 道指mt4代码_MT4产品代码
  17. FreeRTOS任务优先级和系统心跳Tick
  18. [立业]想做老板?先做10道题!
  19. linux网卡混杂模式和监听模式
  20. 提取lbp特征java代码_LBP特征提取原理及代码实现

热门文章

  1. nginx 错误日志分析
  2. 华为OD机试真题- 不含101的数【2023Q2】【JAVA、Python、C++】
  3. NBUT - 1723 有多少三元组
  4. 【Java项目】——基于SpringBoot的用户信息管理系统
  5. 小码哥-斗鱼直播APP之内容简介
  6. python 矩阵向量乘积整理
  7. AqseMarkets,您身边最专业的理财专家
  8. 使用华为eNSP网络模拟器搭建小型WLAN局域网
  9. 捣鼓Gem5——ISA进行曲
  10. 5.28 综合案例2.0-简易起夜灯