hbuilderx简单网页代码_Python爬取网页数据
都说python爬网页数据方便,我们今天就来试试,python爬取数据到底有多方便
简介
爬取数据,基本都是通过网页的URL得到这个网页的源代码,根据源代码筛选出需要的信息
准备
IDE:PyCharm
库:requests、lxml
注:
requests:获取网页源代码
lxml:得到网页源代码中的指定数据
搭建环境
这里的搭建环境,可不是搭建python的开发环境,这里的搭建环境是指,我们使用pycharm新建一个python项目,然后弄好requests和lxml
新建一个项目:
依赖库导入
由于我们使用的是pycharm,所以我们导入这两个库就会显的格外简单
import requests
这个时候,requests
会报红线,这时候,我们将光标对准requests
,按快捷键:alt + enter
,pycharm会给出解决之道,这时候,选择install package requests
,pycharm就会自动为我们安装了,我们只需要稍等片刻,这个库就安装好了。lxml
的安装方式同理.
获取网页源代码
之前我就说过,requests可以很方便的让我们得到网页的源代码
网页就拿我的博客地址举例好了:https://coder-lida.github.io/
获取源码:
# 获取源码html = requests.get("https://coder-lida.github.io/")# 打印源码print html.text
代码就是这么简单,这个html.text便是这个URL的源码
完整代码:
import requestsimport lxml
html = requests.get("https://coder-lida.github.io/")print (html.text)
打印:
获取指定数据
现在我们已经得到网页源码了,这时就需要用到lxml来来筛选出我们所需要的信息
这里我就以得到我博客列表为例,可以找到原网页通过F12查看XPath,如图
通过XPath的语法获得网页的内容。
查看第一篇文章标题
//*[@id="layout-cart"]/div[1]/a/@title
// 定位根节点
/ 往下层寻找
提取文本内容:/text()
提取属性内容:/@xxxx
import requestsfrom lxml import etree
html = requests.get("https://coder-lida.github.io/")#print (html.text)etree_html = etree.HTML(html.text)content = etree_html.xpath('//*[@id="layout-cart"]/div[1]/a/@title')print(content)
查看所有文章标题
//*[@id="layout-cart"]/div/a/@title
代码:
import requestsfrom lxml import etree
html = requests.get("https://coder-lida.github.io/")#print (html.text)etree_html = etree.HTML(html.text)content = etree_html.xpath('//*[@id="layout-cart"]/div/a/@title')print(content)
输出:
[' springboot逆向工程 ', ' 自己实现一个简单版的HashMap ', ' 开发中常用的 25 个JavaScript 单行代码 ', ' shiro 加密登录 密码加盐处理 ', ' Spring Boot构建RESTful API与单元测试 ', ' 记一次jsoup的使用 ']
hbuilderx简单网页代码_Python爬取网页数据相关推荐
- python爬取网页新闻_Python爬取新闻网数据
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 基本开发环境 Pyth ...
- python爬取一张图片并保存_python爬取网页图片并保存到本地
先把原理梳理一下:首先我们要爬取网页的代码,然后从中提取图片的地址,通过获取到的地址来下载数据,并保存在文件中,完成. 下面是具体步骤: 先确定目标,我挑选的是国服守望先锋的官网的英雄页面,我的目标是 ...
- python网页爬取方法_Python爬取网页的三种方法
# Python爬取网页的三种方法之一: 使用urllib或者urllib2模块的getparam方法 import urllib fopen1 = urllib.urlopen('http://w ...
- python爬取豆瓣代码_python爬取豆瓣
在上课时,有时需要显示一个倒计时时钟,让学生做题. PPT 没有简单有效的方法实现倒计时时钟,参考了多个方案,最终决定采用 GIF 动画来实现. 这样使用起来很简单,只要把事先做好的各个时长的倒计时动 ...
- python爬取json简单吗_Python爬取Json数据的示例
Python教程栏目介绍爬取Json数据实例 相关免费学习推荐:python教程(视频) 本文中以爬取其中的AI流转率数据为例. 该地址返回的响应内容为Json类型,其中红框标记的项即为AI流转率值: ...
- python写彩票抓取_Python|爬取彩票数据
pyhton|爬取彩票数据 背景:作者之前看到过不少朋友介绍利用python环境来爬取彩票数据的文章,方法大致都很类似,今天我也讲一下关于传统方法解析网页获得数据,同时给大家介绍一种可能被大家忽略的方 ...
- python爬取虎扑评论_python爬取网站数据
编码问题 因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲起.原本的英文编码只有0~255,刚好是8位1个字节.为了表示各种不同的语言,自然要进行 ...
- python爬取微博数据存入数据库_Python爬取微博数据并存入mysql,excel中
寒假期间做微博数据统计,由于是部门要求,也没办法,自己又是一个懒人,直接用python实现吧.写的很粗糙,也很差,请大家别介意. 总的来说分成两个模块:一个爬取微博数据存入数据库,一个从数据库调取数据 ...
- python爬取网页书籍名称代码_python爬取亚马逊书籍信息代码分享
我有个需求就是抓取一些简单的书籍信息存储到mysql数据库,例如,封面图片,书名,类型,作者,简历,出版社,语种. 我比较之后,决定在亚马逊来实现我的需求. 我分析网站后发现,亚马逊有个高级搜索的功能 ...
最新文章
- R 语言排名破纪录,一不小心把 PHP 比下去了 | 7月编程语言排行
- 学习python装饰器_Python装饰器学习(九步入门)
- 田志刚:为什么要尊重老师?
- Python 装饰器原理和基本实现
- Java黑皮书课后题第7章:*7.13(随机数选择器)编写一个方法,返回1到54之间的随机数,但不能是传递到实参中的数。指定如下方法头
- 日期范围 java_JavaJoDA时间-实现日期范围迭代器
- zigbee上位机通过vs2019的mfc实现
- php 环状,CSS3能写出这种环状吗,不是环形进度条?
- 如何将MySQL卸载干净?
- vmware虚拟机复制文件后空间不足删除.cache文件夹
- 小觅深度相机标准版 ROS使用
- A股市场,价投者眼中的10大金股,值得收藏(名单)
- 用计算机怎么谈黑人团队,光遇黑人抬棺乐谱怎么弹奏 计算机演奏乐谱16
- python制作表白软件手机版_Python制作表白小助手
- 知否为何要用李清照如梦令诗词当片名?这个解释,无力反驳
- yolov3损失函数改进_基于改进损失函数的YOLOv3网络
- VBA开发:设置单元格数据有效性
- 将中文转换成URL编码
- YOLOV5 模型和代码修改——针对小目标识别(红外小目标)
- python unicode转中文_Python将Unicode代码转换为中文字符的几种方法,python,unicode,编码,汉字...