address
使用了requests库以及lxml作为数据提取库
这个网站似乎没有做前后端分离,但是没有做数据加密以及反爬措施,所以可以很简单的爬取


#!usr/bin/python
# -*- coding:utf8 -*-
"""
http://wz.sun0769.com/political/index/politicsNewest?id=1&page=1
"""
import time
import json
import requests
from lxml import etreeclass SunSpider(object):def __init__(self, page_count):self.url = "http://wz.sun0769.com/political/index/politicsNewest?id=1&page={}"self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36"}self.page_count = page_countself.base_topic_url = "http://wz.sun0769.com"def send_request(self, url):response = requests.get(url, headers=self.headers)return response.contentdef parse_data(self, html_str):element = etree.HTML(html_str)li_list = element.xpath("//ul[@class='title-state-ul']/li")content_list = []for li in li_list:item = dict()item['id'] = li.xpath("./span[@class='state1']/text()")[0]item['title'] = li.xpath("./span[@class='state3']/a/text()")[0]item['topic_url'] = self.base_topic_url + li.xpath("./span[@class='state3']/a/@href")[0]item['published_time'] = li.xpath("./span[@class='state5 ']/text()")[0]item['status'] = li.xpath("./span[@class='state2']/text()")[0].strip()item['response_time'] = li.xpath("./span[@class='state4']/text()")[0].strip()content_list.append(item)return content_listdef save_data(self, content_list):with open('sun.json', 'a', encoding="utf8") as f:content = json.dumps(content_list, ensure_ascii=False, indent=1)f.write(content)def run(self):content_list = []for page in range(1, self.page_count + 1):url = self.url.format(page)content = self.send_request(url)content_list += self.parse_data(content)self.save_data(content_list)if __name__ == '__main__':spider = SunSpider(1)spider.run()

python爬取阳光问政相关推荐

  1. 用python爬取阳光电影的链接

    用python爬取阳光电影的链接,并存入文本.把链接直接复制到迅雷软件即可下载电影,方便快捷.python代码如下: # -*- encoding: utf-8 -*- ""&qu ...

  2. Python+Docker+Redis-实现分布式爬取阳光问政

    sun-political 一.编写爬虫代码 1.创建项目 pip install scrapy scrapy-redis -i https://pypi.tuna.tsinghua.edu.cn/s ...

  3. python爬虫——用Scrapy框架爬取阳光电影的所有电影

    python爬虫--用Scrapy框架爬取阳光电影的所有电影 1.附上效果图 2.阳光电影网址http://www.ygdy8.net/index.html 3.先写好开始的网址 name = 'yg ...

  4. python爬取Instagram上偶像的帖子(包括图片和视频)

    python爬取Instagram上偶像的帖子(包括图片和视频) 声明:仅供技术交流,请勿用于非法用途,如有其它非法用途造成损失,和本博客无关 目录 python爬取Instagram上偶像的帖子(包 ...

  5. python爬取电影评分_用Python爬取猫眼上的top100评分电影

    代码如下: # 注意encoding = 'utf-8'和ensure_ascii = False,不写的话不能输出汉字 import requests from requests.exception ...

  6. 用Python爬取好奇心日报

    用Python爬取好奇心日报 本项目最后更新于2018-7-24,可能会因为没有更新而失效.如已失效或需要修正,请联系我! 本项目已授权微信公众号"菜鸟学Python"发表文章 爬 ...

  7. python爬取新闻并归数据库_Python爬取数据并写入MySQL数据库操作示例

    Python爬取数据并写入MySQL数据库的实例 首先我们来爬取 http://html-color-codes.info/color-names/ 的一些数据. 按 F12 或 ctrl+u 审查元 ...

  8. Python 爬取北京二手房数据,分析北漂族买得起房吗?(附完整源码)

    来源:CSDN 本文约3500字,建议阅读9分钟. 本文根据Python爬取了赶集网北京二手房数据,R对爬取的二手房房价做线性回归分析,适合刚刚接触Python&R的同学们学习参考. 房价高是 ...

  9. python爬取天气_python3爬取各类天气信息

    本来是想从网上找找有没有现成的爬取空气质量状况和天气情况的爬虫程序,结果找了一会儿感觉还是自己写一个吧. 主要是爬取北京包括北京周边省会城市的空气质量数据和天气数据. 过程中出现了一个错误:Unico ...

  10. html如何获取请求头变量的值。_如何使用 Python 爬取微信公众号文章

    我比较喜欢看公众号,有时遇到一个感兴趣的公众号时,都会感觉相逢恨晚,想一口气看完所有历史文章.但是微信的阅读体验挺不好的,看历史文章得一页页的往后翻,下一次再看时还得重复操作,很是麻烦. 于是便想着能 ...

最新文章

  1. 大一期末考试,python,测试题,含答案
  2. spacevim 添加自动折行
  3. P2050 [NOI2012]美食节
  4. java finally的作用_java中finally关键字的特点和作用是什么
  5. 区块链的那些事,你知道和不知道的都在这里!
  6. 那些曾经拥有的最大快乐,都是好奇心的结果
  7. mpvue 从零开始 女友的收纳盒 6 mpvue-entry入口管理
  8. PHP类: SEO必备的伪原创工具 (文章重写)
  9. On the Robustness of Semantic Segmentation Models to Adversarial Attacks论文解读
  10. 第四章:mongodb 命令行操作进程控制性能优化
  11. 李克秋 加盟天津大学 计算机学院,天津大学
  12. word使用学习总结
  13. 郑州大学编译原理实验三算符优先分析算法JAVA
  14. 双馈风机DFIG并网(Matlab Simulink) 有详细说明
  15. flutter在导航栏处实现对两个列表的点击事件
  16. Super Res Zoom,借助 Pixel 3 增强图像清晰度和细节
  17. “万金油”的String,为什么不好用了?
  18. js 获取下周一的具体年月日格式为(YYYY-MM-DD)
  19. [2021-09-10] 【入门1】顺序结构——多行字符串的打印
  20. 基于单窗算法的地表温度反演算法

热门文章

  1. 基于USB数据采集卡(DAQ)与IO模块的热电偶温度采集
  2. macOS:删除 MDM 配置描述文件
  3. 检验二元分解是否为无损分解(非加性)
  4. linux设备/dev/dsp,/dev/mixer
  5. JS 动态添加的元素 绑定事件
  6. Java 14中对switch的增强,终于可以不写break了
  7. Mac用VirtualBox虚拟机安装win10教程
  8. React的调和过程(Reconciliation)
  9. 物联网和互联网有什么关系
  10. 记录虚拟机ubuntu 复制粘贴到主机window