都说python爬网页数据方便,我们今天就来试试,python爬取数据到底有多方便

简介

爬取数据,基本都是通过网页的URL得到这个网页的源代码,根据源代码筛选出需要的信息

准备

IDE:PyCharm
库:requests、lxml

注:
requests:获取网页源代码
lxml:得到网页源代码中的指定数据

搭建环境

这里的搭建环境,可不是搭建python的开发环境,这里的搭建环境是指,我们使用pycharm新建一个python项目,然后弄好requests和lxml
新建一个项目:

依赖库导入

由于我们使用的是pycharm,所以我们导入这两个库就会显的格外简单

import requests

这个时候,requests会报红线,这时候,我们将光标对准requests,按快捷键:alt + enter,pycharm会给出解决之道,这时候,选择install package requests,pycharm就会自动为我们安装了,我们只需要稍等片刻,这个库就安装好了。lxml的安装方式同理.

获取网页源代码

之前我就说过,requests可以很方便的让我们得到网页的源代码
网页就拿我的博客地址举例好了:https://coder-lida.github.io/

获取源码:

# 获取源码html = requests.get("https://coder-lida.github.io/")# 打印源码print html.text

代码就是这么简单,这个html.text便是这个URL的源码

完整代码:

import  requestsimport lxml

html = requests.get("https://coder-lida.github.io/")print (html.text)

打印:

获取指定数据

现在我们已经得到网页源码了,这时就需要用到lxml来来筛选出我们所需要的信息
这里我就以得到我博客列表为例,可以找到原网页通过F12查看XPath,如图

通过XPath的语法获得网页的内容。

查看第一篇文章标题

//*[@id="layout-cart"]/div[1]/a/@title

// 定位根节点
/ 往下层寻找
提取文本内容:/text()
提取属性内容:/@xxxx

import  requestsfrom lxml import etree

html = requests.get("https://coder-lida.github.io/")#print (html.text)etree_html = etree.HTML(html.text)content = etree_html.xpath('//*[@id="layout-cart"]/div[1]/a/@title')print(content)

查看所有文章标题

//*[@id="layout-cart"]/div/a/@title

代码:

import  requestsfrom lxml import etree

html = requests.get("https://coder-lida.github.io/")#print (html.text)etree_html = etree.HTML(html.text)content = etree_html.xpath('//*[@id="layout-cart"]/div/a/@title')print(content)

输出:

[' springboot逆向工程 ', ' 自己实现一个简单版的HashMap ', ' 开发中常用的 25 个JavaScript 单行代码 ', ' shiro 加密登录 密码加盐处理 ', ' Spring Boot构建RESTful API与单元测试  ', ' 记一次jsoup的使用 ']

hbuilderx简单网页代码_Python爬取网页数据相关推荐

  1. python爬取网页新闻_Python爬取新闻网数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 基本开发环境 Pyth ...

  2. python爬取一张图片并保存_python爬取网页图片并保存到本地

    先把原理梳理一下:首先我们要爬取网页的代码,然后从中提取图片的地址,通过获取到的地址来下载数据,并保存在文件中,完成. 下面是具体步骤: 先确定目标,我挑选的是国服守望先锋的官网的英雄页面,我的目标是 ...

  3. python网页爬取方法_Python爬取网页的三种方法

    # Python爬取网页的三种方法之一:  使用urllib或者urllib2模块的getparam方法 import urllib fopen1 = urllib.urlopen('http://w ...

  4. python爬取豆瓣代码_python爬取豆瓣

    在上课时,有时需要显示一个倒计时时钟,让学生做题. PPT 没有简单有效的方法实现倒计时时钟,参考了多个方案,最终决定采用 GIF 动画来实现. 这样使用起来很简单,只要把事先做好的各个时长的倒计时动 ...

  5. python爬取json简单吗_Python爬取Json数据的示例

    Python教程栏目介绍爬取Json数据实例 相关免费学习推荐:python教程(视频) 本文中以爬取其中的AI流转率数据为例. 该地址返回的响应内容为Json类型,其中红框标记的项即为AI流转率值: ...

  6. python写彩票抓取_Python|爬取彩票数据

    pyhton|爬取彩票数据 背景:作者之前看到过不少朋友介绍利用python环境来爬取彩票数据的文章,方法大致都很类似,今天我也讲一下关于传统方法解析网页获得数据,同时给大家介绍一种可能被大家忽略的方 ...

  7. python爬取虎扑评论_python爬取网站数据

    编码问题 因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲起.原本的英文编码只有0~255,刚好是8位1个字节.为了表示各种不同的语言,自然要进行 ...

  8. python爬取微博数据存入数据库_Python爬取微博数据并存入mysql,excel中

    寒假期间做微博数据统计,由于是部门要求,也没办法,自己又是一个懒人,直接用python实现吧.写的很粗糙,也很差,请大家别介意. 总的来说分成两个模块:一个爬取微博数据存入数据库,一个从数据库调取数据 ...

  9. python爬取网页书籍名称代码_python爬取亚马逊书籍信息代码分享

    我有个需求就是抓取一些简单的书籍信息存储到mysql数据库,例如,封面图片,书名,类型,作者,简历,出版社,语种. 我比较之后,决定在亚马逊来实现我的需求. 我分析网站后发现,亚马逊有个高级搜索的功能 ...

最新文章

  1. R 语言排名破纪录,一不小心把 PHP 比下去了 | 7月编程语言排行
  2. 学习python装饰器_Python装饰器学习(九步入门)
  3. 田志刚:为什么要尊重老师?
  4. Python 装饰器原理和基本实现
  5. Java黑皮书课后题第7章:*7.13(随机数选择器)编写一个方法,返回1到54之间的随机数,但不能是传递到实参中的数。指定如下方法头
  6. 日期范围 java_JavaJoDA时间-实现日期范围迭代器
  7. zigbee上位机通过vs2019的mfc实现
  8. php 环状,CSS3能写出这种环状吗,不是环形进度条?
  9. 如何将MySQL卸载干净?
  10. vmware虚拟机复制文件后空间不足删除.cache文件夹
  11. 小觅深度相机标准版 ROS使用
  12. A股市场,价投者眼中的10大金股,值得收藏(名单)
  13. 用计算机怎么谈黑人团队,光遇黑人抬棺乐谱怎么弹奏 计算机演奏乐谱16
  14. python制作表白软件手机版_Python制作表白小助手
  15. 知否为何要用李清照如梦令诗词当片名?这个解释,无力反驳
  16. yolov3损失函数改进_基于改进损失函数的YOLOv3网络
  17. VBA开发:设置单元格数据有效性
  18. 将中文转换成URL编码
  19. YOLOV5 模型和代码修改——针对小目标识别(红外小目标)
  20. python unicode转中文_Python将Unicode代码转换为中文字符的几种方法,python,unicode,编码,汉字...

热门文章

  1. MySQL的user表
  2. CSS控制鼠标的箭头
  3. hibernate教程--关联关系的映射
  4. 蓝桥杯-最小乘积(java)
  5. 算法--2016搜狐面试:搜狐员工放假了,都玩什么?
  6. MapReduce进阶:多MapReduce的链式模式
  7. SpringMVC中@ResponseBody和@RequestBody的使用
  8. python 鱼c工作室作业_鱼C工作室Python作业
  9. 霍夫曼树(最优二叉树)的实现
  10. java 知乎面试题_面试题|Java基础17道常见面试题