Python利用Beautiful Soup抓取新闻标题

Beautiful Soup的简介

简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。官方解释如下：

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml、html6lib一样出色的python解释器，为用户灵活地提供不同的解析策略或强劲的速度。

下面是代码：

import requests
from bs4 import BeautifulSoupurl = 'http://news.sina.com.cn/china/'
res = requests.get(url)
# 使用UTF-8编码
res.encoding = 'UTF-8'# 使用剖析器为html.parser
soup = BeautifulSoup(res.text, 'html.parser')# 遍历每一个class=news-item的节点
for news in soup.select('.news-item'):h2 = news.select('h2')# 只选择长度大于0的结果if len(h2) > 0:time = news.select('.time')[0].texttitle = h2[0].texthref = h2[0].select('a')[0]['href']print(time, title, href)

更多Python内容访问omegaxyz.com

Python利用Beautiful Soup抓取新闻标题相关推荐

python beautifulsoup抓取网页内容_利用Python和Beautiful Soup抓取网页内容
利用Python和Beautiful Soup抓取网页内容 Posted on 2012-08-09 00:08 SamWei 阅读(381) 评论(1) 编辑收藏 Python 3中提供了url打 ...
python爬取新闻网站内容findall函数_Python正则抓取新闻标题和链接的方法示例
本文实例讲述了Python正则抓取新闻标题和链接的方法.分享给大家供大家参考,具体如下: #-*-coding:utf-8-*- import re from urllib import urlret ...
Python利用bs4批量抓取网页图片并下载保存至本地
Python利用bs4批量抓取网页图片并下载保存至本地使用bs4抓取网页图片,bs4解析比较简单,需要预先了解一些html知识,bs4的逻辑简单,编写难度较低.本例以抓取某壁纸网站中的壁纸为例.(b ...
python修改html内容_详解Python利用Beautiful Soup模块修改内容示例代码
Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python 库.它能够通过你喜欢的转换器实现惯用的文档导航.查找.修改文档的方式.他还能够修改HTML/XML文档的内容.这篇 ...
python抓取网页文章_使用Python从公共API抓取新闻和文章
python抓取网页文章 Whether you are data scientist, programmer or AI specialist, you surely can put huge nu ...
【Node.js】爬虫--抓取新闻标题、图片、文字描述，支持QQ、iFeng
Sodino 文章目录 1. app.js 2. img-spider.js 3. img.gallery.js 4. ifengImgs.js 5. ifengPictures.js 6. qqIm ...
python 利用requests库抓取网站图片
截图放在下方: 我们来看下我们要的图片都在哪框起来这些图就是我要的,数量多的不得了,看来这个网站积累了很久了,现在我们要用5分钟时间来拿到所有图片接下来让我们看下源代码来解析一下这些图片的地址吧. ...
python-代码实战-爬取新闻标题
近期开始学习python,目前以爬虫方向为主,打算在这个过程中通过代码的实践来记录学习过程,顺带当成笔记. 我的第一个完全由自己编写的爬虫代码产生啦! 主要是抓取新闻标题.时间等本次写代码代码用到的 ...
python 利用火狐浏览器爬取内容
python 利用火狐浏览器抓取 from selenium import webdriver from selenium.webdriver.firefox.firefox_binary impor ...
通过Python爬虫按关键词抓取相关的新闻
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途如今各大网站的反爬机制已经可以说是到了丧心病狂的程度,比如大众点评的字符加密.微博的登录验证等.相比较而言,新闻网站的反爬机制 ...

Python利用Beautiful Soup抓取新闻标题

Python利用Beautiful Soup抓取新闻标题相关推荐

最新文章

热门文章