此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出。欢迎各位前来交流。(部分材料来源网络,若有侵权,立即删除)
本人博客所有文章纯属学习之用,不涉及商业利益。不合适引用,自当删除!
若被用于非法行为,与我本人无关

Python爬虫学习|实例练手|爬取新浪新闻搜索指定内容

  • 代码
  • 效果

代码

from lxml import etree
import requestsheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36'
}def get_sina_news_serach():what = input("请输入你想查询的新浪新闻:")for i in range(1):url = 'https://search.sina.com.cn/?q={}&c=news&from=channel&range=all&size=10&dpc=0&ps=0&pf=0&page={}'.format(what,i)rs = requests.session()r = rs.get(url, headers=headers)r.encoding = 'utf-8'trees = etree.HTML(r.text)for j in range(4,22):title1 = trees.xpath('//*[@id="result"]/div[{}]/h2/a/text()[1]'.format(j))title2 = trees.xpath('//*[@id="result"]/div[{}]/h2/a/text()[2]'.format(j))if(title2==[]):print(what+title1[0])else:print(title1[0]+what+title2[0])Link = trees.xpath('//*[@id="result"]/div[{}]/h2/a/@href'.format(j))print(Link)From = trees.xpath('//*[@id="result"]/div[{}]/h2/span/text()'.format(j))print(From)comment = trees.xpath('//*[@id="result"]/div[{}]/div[2]/p/text()'.format(j))print(comment)From=trees.xpath('//*[@id="result"]/div[{}]/h2/span/text()'.format(j))print(' ')get_sina_news_serach()

效果

从入门到入土:Python爬虫学习|实例练手|爬取新浪新闻搜索指定内容|Xpath定位标签爬取|代码注释详解相关推荐

  1. 从入门到入土:Python爬虫学习|实例练手|爬取猫眼榜单|Xpath定位标签爬取|代码

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  2. 从入门到入土:Python爬虫学习|实例练手|爬取百度翻译|Selenium出击|绕过反爬机制|

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  3. 从入门到入土:Python爬虫学习|实例练手|爬取百度产品列表|Xpath定位标签爬取|代码注释详解

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  4. 从入门到入土:Python爬虫学习|实例练手|爬取LOL全英雄信息及技能||异步加载|初级难度反扒处理|寻找消失的API

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  5. 从入门到入土:Python爬虫学习|实例练手|详细讲解|爬取腾讯招聘网|一步一步分析|异步加载|初级难度反扒处理|寻找消失的API来找工作吧

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  6. python爬虫-使用BeautifulSoup爬取新浪新闻标题

    ** python爬虫-使用BeautifulSoup爬取新浪新闻标题 ** 最近在学习爬虫的技巧,首先学习的是较为简单的BeautifulSoup,应用于新浪新闻上. import requests ...

  7. 使用python网络爬虫爬取新浪新闻(一)

    使用python网络爬虫爬取新浪新闻 第一次写博客,感觉有点不太习惯!不知道怎么突然就想学学爬虫了,然后就用了一天的时间,跟着教程写了这个爬虫,!不说废话了,我将我从教程上学习的东西整个写下来吧,从头 ...

  8. 网络爬虫-----python爬取新浪新闻

    思路:先爬取首页,然后通过正则筛选出所有文章url,然后通过循环分别爬取这些url到本地 #python新闻爬虫实战 import urllib.request import re url = 'ht ...

  9. python爬虫scrapy爬取新闻标题及链接_18Python爬虫---CrawlSpider自动爬取新浪新闻网页标题和链接...

    一.爬取新浪新闻思路 1.创建scrapy项目 2.分析新浪新闻网站静态页面代码 3.编写对应的xpath公式 4.写代码 二.项目代码 步骤1.创建scrapy项目 scrapy startproj ...

最新文章

  1. Linux 内核,30 年C 语言将升级至 C11
  2. redis之zskiplist
  3. LED驱动设计及实现
  4. android ripple 大小,Android Ripple 旋钮水波纹效果(一)
  5. boost::posix_time模块用时间构造和计算的一些简单例子
  6. DCMTK:将STL文件封装为DICOM文件
  7. Cisco网络设备搭建×××服务器的全部过程
  8. [Java基础]字符缓冲流
  9. 贪心算法(Greedy Algorithm)之霍夫曼编码
  10. 手机文件传云服务器,手机云服务器传文件
  11. js计算字典的个数_JS数据结构与算法_集合字典
  12. Android开发项目计划书
  13. 关于计算机算法学习路线(持续更新)
  14. [Android]大牛直播SDK基于unity3d平台的rtmp/rtsp直播播放端SDK接口说明...
  15. 正态总体均值的假设检验
  16. 阿里云服务器租用费用
  17. MATLAB代码:考虑退化成本的混合储能微电网双层能源管理系统 可再生能源 (RES) 和储能系统 (ESS) 在微电网中的集成为最终用户和系统运营商提供了潜在的利益
  18. k8s关于Orphaned pod <pod_id> found,volume paths are still present on disk 的解决方法
  19. 程序人生:黑帽seo新手入门基础教程
  20. 国内dns服务器故障致大量网站无法访问,中国电信114.114.114.114DNS故障 大量网站域名无法解析...

热门文章

  1. win10下Redis安装、启动教程
  2. Default process group has not been initialized, please make sure to call init_process_group
  3. Python 中遇到note: see declaration of '_ts'
  4. [查找问题] 例5.1 找x
  5. 彻底理解Python切片
  6. c/c++教程 - 总集1. c基础语法
  7. Mysql通过存储过程批量插入数据
  8. JQuery怎么知道一个元素是否隐藏或显示How do you test if something is hidden in jQuery?
  9. Flume-概述-安装
  10. 【转】去除inline-block元素的间隙