需要导入的库

import requests
from lxml import etree

先用requests.get()方法请求页面

result=requests.get("http://news.qq.com/")
encode=result.encoding
content=result.content
encode
'GB2312'

注意指定解析器的编码格式


selector=etree.HTML(content,parser=etree.HTMLParser(encoding=encode))

腾讯新闻首页上每条新闻的标题以及超链接,对应html源码有如下结构:

<a target="_blank" class="linkto" href="http://news.qq.com/a/20170720/019981.htm">辽宁舰过航台湾海峡遭美军驱逐舰跟踪 国防部回应</a>

用Xpath解析新闻的标题及url

samples=selector.xpath('//a[@class="linkto"]')for sample in samples:title=sample.text.strip()print titleurl=sample.attrib['href']print url
辽宁舰过航台湾海峡遭美军驱逐舰跟踪 国防部回应
http://news.qq.com/a/20170720/019981.htm
“七下八上”主汛期将至:北方多雨 周末华北“退烧”
http://news.qq.com/a/20170720/019390.htm
巴西众院弹劾总统案获通过 罗塞夫政党承认落败
http://news.qq.com/a/20160418/023091.htm
腾讯股价拆股后首次达300港元 今年累计涨幅超55%
http://tech.qq.com/a/20170720/016568.htm
美国参议员麦凯恩被诊断出脑癌 曾参选美国总统
http://news.qq.com/a/20170720/009125.htm
人社部:36种高价刚需药纳入医保 最高降幅达70%
http://news.qq.com/a/20170720/012923.htm
人民日报海外版:印度推进“大国梦”急不可耐
http://news.qq.com/a/20170720/001930.htm
万达融创富力集体高开 三者签约637亿元并购案
http://stock.qq.com/a/20170720/015276.htm
苹果可能真的在造车,在中国秘密开发动力电池
http://tech.qq.com/a/20170720/010845.htm
开发商毁约夺地 将4S店砸成废墟
http://news.qq.com/a/20170719/058897.htm
苹果股价连涨9天创纪录 iPhone 8延迟上市也挡不住
http://tech.qq.com/a/20170720/016469.htm
印军在克什米尔地区对巴方“无故”开火 巴军方回击
http://news.qq.com/a/20170720/001479.htm
男孩独自乘机出国被逐下航班 航空公司:托管儿童超额
http://news.qq.com/a/20170720/001745.htm
地产三巨头60分钟魔幻剧:富力背景板“进出”大戏
http://finance.qq.com/a/20170719/061523.htm
范冰冰亏4400万又如何?投房地产葡萄酒收获颇丰
http://ent.qq.com/a/20170720/005916.htm
刘亦菲获专人撑伞 长发白裙却穿拖鞋
http://ent.qq.com/a/20170720/005185.htm
袁泉带女儿现身 小姑娘推行李超自立
http://ent.qq.com/a/20170720/007934.htm
美股三大指数齐创收盘纪录新高 纳指九连涨
http://stock.qq.com/a/20170720/001560.htm
神锋驾到!切尔西官方宣布莫拉塔加盟
http://sports.qq.com/a/20170720/001226.htm
京东与唯品会否认合并传闻 周三开盘股价双双上涨
http://tech.qq.com/a/20170719/061676.htm
农业部再发两个进口转基因生物安全证书:均为玉米
http://finance.qq.com/a/20170719/060784.htm
不延迟了!iPhone 8会在9月底推出
http://tech.qq.com/a/20170720/003257.htm
世锦赛-女子10米台中国双保险丢冠 马来西亚夺历史首金
http://sports.qq.com/a/20170720/001150.htm
亚马逊推出自己的社交网络 不过目前只针对iOS用户
http://tech.qq.com/a/20170719/065360.htm
美国宣布对涉伊核中国民企和个人单边制裁 中方回应
http://news.qq.com/a/20170719/052073.htm
IBM连续21季度营收下滑为何仍能实现盈利?
http://stock.qq.com/a/20170719/066938.htm
港媒:菲律宾捣破一以中国人为首绑架匪帮 拘捕45人
http://news.qq.com/a/20170719/061172.htm
环法第17赛段 荷兰乐透车队罗格利奇夺冠
http://sports.qq.com/a/20170719/066844.htm
寒门出贵子!双胞胎兄弟全都考进名校
http://news.qq.com/a/20170719/045395.htm
深圳积分入户放开学历限制 港媒:中小城市或效仿
http://news.qq.com/a/20170720/001173.htm
白银案被告人高承勇庭审鞠躬道歉现场
http://news.qq.com/a/20170719/065456.htm
朴槿惠以健康不佳为理由 再次拒绝为李在
http://news.qq.com/a/20170719/053842.htm

数据采集(三):用XPath爬取腾讯新闻相关推荐

  1. Python+Scrapy爬取腾讯新闻首页所有新闻及评论

    前言 这篇博客写的是实现的一个爬取腾讯新闻首页所有的新闻及其所有评论的爬虫.选用Python的Scrapy框架.这篇文章主要讨论使用Chrome浏览器的开发者工具获取新闻及评论的来源地址. Chrom ...

  2. Python番外篇:爬取腾讯新闻热点内容 并发送新闻提示电子邮件

    hello,大家好,我是wangzirui32,今天来教大家如何爬取爬取腾讯新闻热点内容,并发送新闻提示电子邮件,开始学习吧! 1. HTML解析 腾讯网的首页为https://www.qq.com, ...

  3. 爬取腾讯新闻中省份疫情数据到Mysql数据库

    爬取腾讯新闻中省份疫情数据到Mysql数据库 本人是一个中职学生,第一次发表自己所学到技术-- 本篇文章所用到的语言及工具等: python 3.8 pycharm Mysql Navicat Pre ...

  4. python爬取腾讯新闻_Python 实现腾讯新闻抓取

    原博文 2012-08-14 09:56 − 思路: 1.抓取腾讯新闻列表页面: http://news.qq.com/ 2.提取详细页面的url:http://news.qq.com/a/20120 ...

  5. 用scrapy+selenium+Firefox爬取腾讯新闻

    一.首先配置 1.scrapy 2.selenium 3.webdriver 4.浏览器Firefox 具体的安装可以去这个兄弟的博客看看https://blog.csdn.net/azsx02/ar ...

  6. python爬取腾讯新闻_Python采集腾讯新闻实例

    目标是把腾讯新闻主页上所有新闻爬取下来,获得每一篇新闻的名称.时间.来源以及正文. 接下来分解目标,一步一步地做. 步骤1:将主页上所有链接爬取出来,写到文件里. python在获取html方面十分方 ...

  7. python爬取腾讯新闻_python爬虫实战――爬取腾讯新闻 !

    无论我们通过浏览器打开网站.访问网页,还是通过脚本对URL网址进行访问,本质上都是对HTTP服务器的请求,浏览器上所呈现的.控制台所显示的都是HTTP服务器对我们请求的响应. 以打开腾讯新闻官网为例, ...

  8. java抓取qq消息_Java代码---实现爬取腾讯新闻

    环境准备: com.alibaba druid 1.1.21 com.google.code.gson gson 2.8.5 org.springframework spring-jdbc 5.2.2 ...

  9. 用request爬取腾讯新闻

    import requests import json import xlwt import osheaders = {'referer': 'https://news.qq.com/','user- ...

  10. python 爬虫爬取腾讯新闻科技类的企鹅智酷系列(1)

    废话不多说,直接贴代码,主要采用BeautifulSoup写的 #coding:utf8from bs4 import BeautifulSoup import urllib2 import urll ...

最新文章

  1. 从事JAVA 20年最终却败给了Python,哭了!
  2. 2017年4月25日(日志库glog)
  3. C#异步编程的实现方式(4)——Task任务
  4. boot spring test 文档_SpringBoot入门建站全系列(五)使用Spring-data-jpa操作数据库
  5. Excel中插入VBA宏处理
  6. 【逻辑与计算理论】Lambda 演算的类型与其 Lambda 演算建模
  7. Verilog中parameter(参数)与define(宏定义)的区别
  8. ABBYY FineReader PDF for Mac(PDF转换工具)
  9. dubbo源码分析12——服务暴露3_doExportUrls()方法分析
  10. Python春节特训营03:打倒拦路虎,学会键盘打字
  11. 双操作系统安装(三)Windows及Deepin深度linux双系统安装教程
  12. 网络ip功放连接图_ip网络功放
  13. 一维搜索进退法c语言程序,基于c语言黄金分割法优化设计.doc
  14. TCP端口映射与转发软件(TCP Mapping)简介
  15. 样本方差与总体方差的区别
  16. Unity动画☀️四、动画导入的三种模式:Legacy、Generic 与 Humanoid
  17. ubuntu18.04上使用7z分卷压缩和解压
  18. 一篇很实用的干货!全面屏vivo X20应该这样拍逆光大片
  19. 2022年硕士研究生招生考试初试模拟试题(扬州大学,858程序设计与数据结构)
  20. 如何预约港澳出入通行证

热门文章

  1. wifi信号满格无法连接服务器,wifi正常为什么不能上网_一招解决wifi信号满格不能上网的方法...
  2. 谷歌/FOFA搜索引擎使用
  3. sd卡与FAT32文件系统
  4. 【2023秋招】网易雷火游戏研发工程师笔试
  5. 拿破仑,技术大牛晋级管理之后的困境
  6. python制作音乐相册_用Python制作音乐海报
  7. 《期货大作手风云录》读书笔记
  8. 【视频学习】宋维钢词霸天下38000词汇速记 万法归宗之英语语法速成全集
  9. 解决deep freeze冰点还原软件无法冻结的问题:计算机正在完成Deep Freeze冰点检测到的待定Windows更新
  10. matlab画基尼系数,matlab 拟合洛伦兹曲线求基尼系数