python爬虫爬取网页新闻标题方法

1.首先使用浏览自带的工具——检查,查找网页新闻标题对应的元素位置,这里查到的新闻标题是在 h3 标签中

2.然后使用编辑器编写python代码
2.1方法一:

import requests
from bs4 import BeautifulSoupurl = 'http://www.xxx.com/'r = requests.get(url)
r.encoding = 'utf-8'
soup = BeautifulSoup(r.text,'html.parser')  # 'html.parser'这是BeautifulSoup库的HTML解析器的用法,用于解析HTML
#print(r.text)titles = soup.select('h3')
for title in titles:                  # 使用循环输出爬取到的网页上的所有新闻标题print(title.text)

2.2方法二:

#coding = utf-8import requests
from lxml import etreeurl = 'http://www.xxx.com/'r = requests.get(url)
html = etree.HTML(r.text)titles = html.xpath('//div[@class="box-seven"]//h3/text()')
for title in titles:print('Title:', title)

3.总结:
以上两种方法都可以实现爬取网页新闻标题的功能,有用的话可以关注我,有问题可私信留言交流。

python爬虫爬取网页新闻标题-看完保证你会相关推荐

  1. Python爬虫爬取网页数据并存储(一)

    Python爬虫爬取网页数据并存储(一) 环境搭建 爬虫基本原理 urllib库使用 requests库使用 正则表达式 一个示例 环境搭建 1.需要事先安装anaconda(或Python3.7)和 ...

  2. python爬虫--爬取9某1看剧网电视剧

    文章目录 python爬虫--爬取91看剧网电视剧 爬取视频必备知识 思路 代码 合并视频 python爬虫–爬取91看剧网电视剧 爬取视频必备知识 https://www.91kanju.com/v ...

  3. python爬虫爬取网页图片_Python爬虫:爬取网页图片

    先分析查找要爬取图片的路径 在浏览器F12 审查元素 整体实现代码 # -- coding:UTF-8 -- import requests from bs4 import BeautifulSoup ...

  4. 利用Python爬虫爬取网页福利图片

    最近几天,学习了爬虫算法,通过参考书籍,写下自己简单爬虫项目: 爬取某福利网站的影片海报图片 环境:anaconda3.5+spyder3.2.6 目录 1.本节目标 2.准备工作 3.抓取分析 4. ...

  5. python爬取网页代码-python爬虫爬取网页所有数据详细教程

    Python爬虫可通过查找一个或多个域的所有 URL 从 Web 收集数据.Python 有几个流行的网络爬虫库和框架.大家熟知的就是python爬取网页数据,对于没有编程技术的普通人来说,怎么才能快 ...

  6. 上手快!!福利局!新手如何使用python爬虫爬取网页图片(使用正则进行数据解析)当然这个新手是我自己

    作为一个python新入门小白,突然就想发个博客,一方面为了记录学习历程,一方面能分享给新入门的同学经验,更多的是想和大家一起学习和交流.以下是我以小白的角度分享的爬虫的相关知识和一个简单的爬取网页图 ...

  7. 用python爬虫爬取网页壁纸图片(彼岸桌面网唯美图片)

    参考文章:https://www.cnblogs.com/franklv/p/6829387.html 今天想给我的电脑里面多加点壁纸,但是嫌弃一个个保存太慢,于是想着写个爬虫直接批量爬取,因为爬虫只 ...

  8. python唯美壁纸_用python爬虫爬取网页壁纸图片(彼岸桌面网唯美图片)

    参考文章:https://www..com/franklv/p/6829387.html 今天想给我的电脑里面多加点壁纸,但是嫌弃一个个保存太慢,于是想着写个爬虫直接批量爬取,因为爬虫只是很久之前学过 ...

  9. python爬虫爬取网页壁纸图片(《底特律:变人》)

    参考文章:https://www.cnblogs.com/franklv/p/6829387.html 爬虫爬取网址:http://www.gamersky.com/news/201804/10396 ...

最新文章

  1. EntityFramework Code-First 简易教程(三)-------数据库初始化
  2. Missing artifact com.microsoft.sqlserver:sqljdbc4:jar:4.0
  3. 解析css之position
  4. 计算机系统-电路设计01-非门电路
  5. 红警2突然崩溃思考—地图?(最短,最长节点/路径)
  6. 查询软件和硬件列表清单[将文章里代码另存为 list.vbs,双击运行就会出现一个html页面]...
  7. 常遇电脑故障应急处理方法(转)
  8. opencv加载内存中图片
  9. 堆排序算法知识点总结
  10. 飞思卡尔智能车知识总结
  11. 什么是长连接和短连接
  12. 由于找不到 MSVCR120.dll,无法继续执行代码终极解决方法
  13. Java Initialization Order
  14. 多块英伟达K80显卡linux安装,ubuntu14.04下NVIDIA Tesla K80 、GTX1080顯卡驅動以及Tensorflow、Python的安裝教程...
  15. 守望先锋四服务器修改,细思极恐!守望先锋新版本“自定义服务器”背后的巨大野心!...
  16. 微信公众平台nbsp;示例代码nbsp;分析
  17. ALSA-ASOC音频驱动框架简述
  18. 细细探究MySQL Group Replicaiton — 配置维护故障处理全集(转)
  19. Ubuntu16.04 安装WPS(亲测)
  20. anaconda卸载后重装出现了问题

热门文章

  1. 定时关闭进程 linux,linux 定时启动任务
  2. GUN tar for windows Practice
  3. Python进阶(三十七)Windows7使用nginx+apache部署django项目
  4. 杀死当前Excel进程
  5. 改编 秋瑾-满江红
  6. 【题解】POJ 1852 Ants(搜索)
  7. 2014年阿里校招笔试题目
  8. 2017第十五届烟台国际装备制造业博览会会刊(参展商名录)
  9. 结构型 桥模式 -Bridge
  10. Modbus转profinet网关连接Smart PLC与ABB变频器实现Modbus通信