Beautiful Soup的简介

简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下:

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。

下面是代码:

import requests
from bs4 import BeautifulSoupurl = 'http://news.sina.com.cn/china/'
res = requests.get(url)
# 使用UTF-8编码
res.encoding = 'UTF-8'# 使用剖析器为html.parser
soup = BeautifulSoup(res.text, 'html.parser')# 遍历每一个class=news-item的节点
for news in soup.select('.news-item'):h2 = news.select('h2')# 只选择长度大于0的结果if len(h2) > 0:time = news.select('.time')[0].texttitle = h2[0].texthref = h2[0].select('a')[0]['href']print(time, title, href)

更多Python内容访问omegaxyz.com

Python利用Beautiful Soup抓取新闻标题相关推荐

  1. python beautifulsoup抓取网页内容_利用Python和Beautiful Soup抓取网页内容

    利用Python和Beautiful Soup抓取网页内容 Posted on 2012-08-09 00:08 SamWei 阅读(381) 评论(1) 编辑 收藏 Python 3中提供了url打 ...

  2. python爬取新闻网站内容findall函数_Python正则抓取新闻标题和链接的方法示例

    本文实例讲述了Python正则抓取新闻标题和链接的方法.分享给大家供大家参考,具体如下: #-*-coding:utf-8-*- import re from urllib import urlret ...

  3. Python利用bs4批量抓取网页图片并下载保存至本地

    Python利用bs4批量抓取网页图片并下载保存至本地 使用bs4抓取网页图片,bs4解析比较简单,需要预先了解一些html知识,bs4的逻辑简单,编写难度较低.本例以抓取某壁纸网站中的壁纸为例.(b ...

  4. python修改html内容_详解Python利用Beautiful Soup模块修改内容示例代码

    Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python 库.它能够通过你喜欢的转换器实现惯用的文档导航.查找.修改文档的方式.他还能够修改HTML/XML文档的内容.这篇 ...

  5. python抓取网页文章_使用Python从公共API抓取新闻和文章

    python抓取网页文章 Whether you are data scientist, programmer or AI specialist, you surely can put huge nu ...

  6. 【Node.js】爬虫--抓取新闻标题、图片、文字描述,支持QQ、iFeng

    Sodino 文章目录 1. app.js 2. img-spider.js 3. img.gallery.js 4. ifengImgs.js 5. ifengPictures.js 6. qqIm ...

  7. python 利用requests库抓取网站图片

    截图放在下方: 我们来看下我们要的图片都在哪 框起来这些图就是我要的,数量多的不得了,看来这个网站积累了很久了,现在我们要用5分钟时间来拿到所有图片 接下来让我们看下源代码来解析一下这些图片的地址吧. ...

  8. python-代码实战-爬取新闻标题

    近期开始学习python,目前以爬虫方向为主,打算在这个过程中通过代码的实践来记录学习过程,顺带当成笔记. 我的第一个完全由自己编写的爬虫代码产生啦! 主要是抓取新闻标题.时间等 本次写代码代码用到的 ...

  9. python 利用火狐浏览器爬取内容

    python 利用火狐浏览器抓取 from selenium import webdriver from selenium.webdriver.firefox.firefox_binary impor ...

  10. 通过Python爬虫按关键词抓取相关的新闻

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途 如今各大网站的反爬机制已经可以说是到了丧心病狂的程度,比如大众点评的字符加密.微博的登录验证等.相比较而言,新闻网站的反爬机制 ...

最新文章

  1. webstorm中配置vue代码片段
  2. 【转】Pycharm创建py文件时自定义头部模板
  3. Android下载apk异常java.net.SocketTimeoutException: timeout解决办法
  4. [剑指offer]面试题31:连续子数组的最大和
  5. Python | 如何使用pip升级所有Python软件包?
  6. Ubuntu编译开源卡丁车(supertuxkart)项目
  7. 在MySQL中当有多个索引时 你知道MySQL是如何选择索引的吗 ???
  8. 老代码多=过度耦合=if else?阿里巴巴工程师这样捋直老代码 | 技术头条
  9. pytest学习(1)
  10. Jmeter-【JSON Extractor】-响应结果中一级key取值
  11. 模拟电路和数字电路区别
  12. 漏洞payload 靶机_以DVRF(路由器漏洞靶机)为例解读JEB固件漏洞利用-阿里云开发者社区...
  13. Unity Panel 控件
  14. Unity Shader 假光源效果
  15. debian10杀毒软件安装和使用
  16. hotmail邮箱pop3server设置方法
  17. 啊哈 , 算法 !--深度优先搜索( C语言版 )
  18. 为何敢称万物追焦?小米12 系列CyberFocus技术详解
  19. android手机变微软手机号码,微软Your Phone未来将能让你用电脑远程控制拨打Android手机电话...
  20. 2020-10 补丁日:Oracle多个产品高危漏洞安全风险通告

热门文章

  1. 05. 区间成员函数优先于与之对应的单元素成员函数
  2. MySQL视图一次踩坑经历
  3. SpringCloud和AlibabaCloud区别
  4. python aes加密对于长字符数据丢失_Python 3中AES加密和解密的字符串字节数
  5. 红帽linux进阶,Linux进阶第二天
  6. Java进阶:SpringMVC
  7. Cesium:点击实体后在实体上方添加div,并随地球转动不断更新位置
  8. angular新建组件_精美Angular后台管理模板分享-前后端分离(含所有代码)
  9. 高等数学复习笔记(一)- 高等数学基础知识、数列与函数的极限
  10. 图像语义分割(13)-OCNet: 用于场景解析的目标语义网络