第三百三十六节,web爬虫讲解2—urllib库中使用xpath表达式—BeautifulSoup基础

在urllib中,我们一样可以使用xpath表达式进行信息提取,此时,你需要首先安装lxml模块,然后将网页数据通过lxml下的etree转化为treedata的形式

urllib库中使用xpath表达式

etree.HTML()将获取到的html字符串,转换成树形结构,也就是xpath表达式可以获取的格式


#!/usr/bin/env python
# -*- coding:utf8 -*-
import urllib.request
from lxml import etree  #导入html树形结构转换模块wye = urllib.request.urlopen('http://sh.qihoo.com/pc/home').read().decode("utf-8",'ignore')
zhuanh = etree.HTML(wye)  #将获取到的html字符串,转换成树形结构,也就是xpath表达式可以获取的格式
print(zhuanh)
hqq = zhuanh.xpath('/html/head/title/text()') #通过xpath表达式获取标题#注意,xpath表达式获取到数据,有时候是列表,有时候不是列表所以要做如下处理
if str(type(hqq)) == "<class 'list'>":  #判断获取到的是否是列表print(hqq)
else:xh_hqq = [i for i in hqq]       #如果不是列表,循环数据组合成列表print(xh_hqq)#返回 :['【今日爆点】你的专属资讯平台']

BeautifulSoup基础

BeautifulSoup是获取thml元素的模块

BeautifulSoup-3.2.1版本

学习python-day01-13---转自Python分布式爬虫打造搜索引擎Scrapy精讲相关推荐

  1. 学习python-day02-24---转自Python分布式爬虫打造搜索引擎Scrapy精讲

    第三百六十八节,Python分布式爬虫打造搜索引擎Scrapy精讲-用Django实现搜索的自动补全功能 elasticsearch(搜索引擎)提供了自动补全接口 官方说明:https://www.e ...

  2. 学习python-day02-25---转自Python分布式爬虫打造搜索引擎Scrapy精讲

    第三百六十九节,Python分布式爬虫打造搜索引擎Scrapy精讲-elasticsearch(搜索引擎)用Django实现搜索功能 Django实现搜索功能 1.在Django配置搜索结果页的路由映 ...

  3. 第三百三十八节,Python分布式爬虫打造搜索引擎Scrapy精讲—深度优先与广度优先原理...

    第三百三十八节,Python分布式爬虫打造搜索引擎Scrapy精讲-深度优先与广度优先原理 网站树形结构 深度优先 是从左到右深度进行爬取的,以深度为准则从左到右的执行(递归方式实现)Scrapy默认 ...

  4. 第三百六十二节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)基本的索引和文档CRUD操作、增、删、改、查...

    第三百六十二节,Python分布式爬虫打造搜索引擎Scrapy精讲-elasticsearch(搜索引擎)基本的索引和文档CRUD操作.增.删.改.查 elasticsearch(搜索引擎)基本的索引 ...

  5. 三十七 Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中...

    Python分布式爬虫打造搜索引擎Scrapy精讲-将bloomfilter(布隆过滤器)集成到scrapy-redis中,判断URL是否重复 布隆过滤器(Bloom Filter)详解 基本概念 如 ...

  6. 第三百六十节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的基本概念...

    第三百六十节,Python分布式爬虫打造搜索引擎Scrapy精讲-elasticsearch(搜索引擎)的基本概念 elasticsearch的基本概念 1.集群:一个或者多个节点组织在一起 2.节点 ...

  7. 第三百四十五节,Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫和反爬的对抗过程以及策略—scrapy架构源码分析图...

    第三百四十五节,Python分布式爬虫打造搜索引擎Scrapy精讲-爬虫和反爬的对抗过程以及策略-scrapy架构源码分析图 1.基本概念 2.反爬虫的目的 3.爬虫和反爬的对抗过程以及策略 scra ...

  8. 三十五 Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy分布式爬虫要点

    1.分布式爬虫原理 2.分布式爬虫优点 3.分布式爬虫需要解决的问题 转载于:https://www.cnblogs.com/meng-wei-zhi/p/8182813.html

  9. 学习python-day01-01---转自Python分布式爬虫打造搜索引擎Scrapy精讲

    第三百二十四节,web爬虫,scrapy模块介绍与使用 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中. 其最初是为 ...

最新文章

  1. [BZOJ3337] ORZJRY I --块状链表大毒瘤
  2. 如何应对一直变化的搜索引擎算法?
  3. 如何在电脑上使用python-如何在Windows上使用Python进行开发
  4. 深圳 | PMCAFF 产品经理第一课,面向3-5年产品经理,全面提升产品战略能力
  5. 动态规划之状态机模型
  6. 建议 Solr 用户更新 Apache POI
  7. 第1章:认识Java
  8. Halcon视觉框架+车牌识别+汉字识别+颜色识别+20200930
  9. 为什么-关于因果关系的新科学 | 导言
  10. 养猫日记之如何获得一只喵
  11. 科学养生:揭秘世界上最健康的作息时间表
  12. CocoaPods的spec
  13. unity游戏开发为什么工作这么难找
  14. 第3期——WLAN标准协议
  15. 索尼a5100_女生适合的入门微单—索尼a5100,强推。
  16. Yansongda\Pay 支付宝返回值封装
  17. [sd card] sd card初始化流程
  18. java调用银海社保接口_[开源] C# 封装 银海医保的接口
  19. 102_Hadoop常用命令
  20. 推荐个免费开源的截图软件Greenshot

热门文章

  1. Android 使用三种方式缓存加载 倒影图片
  2. 网站前端联系我们之点击自动打开qq/Tim对话窗口
  3. 以下python扩展库_以下对Python常用扩展库的描述错误的是哪一个选项?
  4. 用Python的matplotlib绘制残差分析散点误差棒图
  5. 2022年电工(初级)操作证考试题库及模拟考试
  6. ESP8266+电能计量芯片
  7. java中的正则matches方法和find方法的区别
  8. 字节跳动 文林福_AI实力赋能,让汽车营销玩出抖音范
  9. matlab获取ipv4地址,【MATLAB】从 IP camera 撷取影像
  10. 一只青蛙一次可以跳上1级台阶,也可以跳上2级……它也可以跳上n级。求该青蛙跳上一个n级的台阶(n为正整数)总共有多少种跳法。