目录

  • 使用工具
  • 准备步骤
    • 1. Anaconda Navigator
    • 2. 安装chrome_Xpath_v2.0.2
    • 3. 使用chrome_Xpath_v2.0.2
  • 环境搭建
  • 代码示例
  • 效果展示

使用工具

PyCharm 2018.2.3
Anaconda Navigator
Python 3.6
谷歌浏览器插件:chrome_Xpath_v2.0.2
微云下载链接:https://share.weiyun.com/5iE161Y

准备步骤

1. Anaconda Navigator

打开Anaconda Navigator,创建一个Python 3.6的运行环境



在 Anaconda Navigator中安装 对应的Python库
要 安装 gevent库、 xlwt库、 etree库、requests库
以下是安装库的方法。




安装成功

如果需要使用命令行进行安装
选择Open Terminal
安装方法:pip3 install 模块名

2. 安装chrome_Xpath_v2.0.2

打开谷歌浏览器 找到自定义及控制

选择扩展程序



安装完成

3. 使用chrome_Xpath_v2.0.2

使用F12,打开 谷歌浏览器 开发者工具


选择:Copy XPath

环境搭建

打开PyCharm







代码示例

#_*_coding:utf-8_*_
# @Author: VVcat
# @Time: 2019/9/27 18:54
# @File: Main.py
# @IDE: PyCharm
# @Email: 206647497@qq.com
# @Version: 1.0import gevent
import xlwt as xlwt
from lxml import etree
import requestsdef school():xls = xlwt.Workbook(encoding='utf-8')  # 创建一个工作簿,括号中为编码方式# 创建sheet表# 括号中cell_overwrite_ok=True是为了可以让用户在同一单元格重复写内容,但只保留生效最后一次写入sheet = xls.add_sheet("school", cell_overwrite_ok=True)row = 0for index in range(1, 330):  # 页面有329页if index == 1:url = "http://www.zjitc.net/xwzx/xyxw.htm"  # 第一页的链接else:url = "http://www.zjitc.net/xwzx/xyxw/" + str(index - 1) + ".htm"  # 第一页之后的链接req = requests.get(url)  # 请求获取页面HTML代码resp = req.content.decode("utf-8")  # 设置页面编码格式为utf-8html = etree.HTML(resp)  # 构造了一个XPath解析对象并对HTML文本进行自动修正。uls = html.xpath("/html/body/div[3]/div[8]/div[2]/div/ul/li/a/div[2]/div")  # 对内容进行定位,获取所有的 内容存放在 list集合里for ul in uls:  # 对集合进行遍历title = ul.xpath("h3")  # 获取标题url = str(title[0].xpath("../../../@href")[0])  # 获取新闻链接url = url.replace("../..", "http://www.zjitc.net")  # 对新闻链接进行分割拼接day = ul.xpath("../../div[1]/i")  # 获取天数month = ul.xpath("../../div[1]/em")  # 获取月份sheet.write(row, 0, title[0].text)  # 将标题写入excelsheet.write(row, 1, month[0].text + day[0].text + "日")  # 将日期写入excelsheet.write(row, 2, url)  # 将链接写入excelrow += 1xls.save("school.xls")  # 为excel文件命名if __name__ == '__main__':school = gevent.spawn(school)  # 将函数放入到python协程中school.join()  # 开启协程

效果展示

Python爬虫爬取部分学校的新闻标题、时间、对应的新闻链接相关推荐

  1. Python爬虫:爬取知乎上的视频,并把下载链接保存到md文件中

    Python爬虫:爬取知乎上的视频,并把下载链接保存到md文件中 1.需要的Python模块 主要是requests模块,用于得到的网页的数据 安装命令为:pip install requests 2 ...

  2. python爬虫爬取网页新闻标题-看完保证你会

    python爬虫爬取网页新闻标题方法 1.首先使用浏览自带的工具--检查,查找网页新闻标题对应的元素位置,这里查到的新闻标题是在 h3 标签中 2.然后使用编辑器编写python代码 2.1方法一: ...

  3. Python爬虫爬取网页数据并存储(一)

    Python爬虫爬取网页数据并存储(一) 环境搭建 爬虫基本原理 urllib库使用 requests库使用 正则表达式 一个示例 环境搭建 1.需要事先安装anaconda(或Python3.7)和 ...

  4. python 爬虫 爬取高考录取分数线 信息

    原文链接: python 爬虫 爬取高考录取分数线 信息 上一篇: axios 原生上传xlsx文件 下一篇: pandas 表格 数据补全空值 网页 https://gkcx.eol.cn/scho ...

  5. 在当当买了python怎么下载源代码-python爬虫爬取当当网

    [实例简介]python爬虫爬取当当网 [实例截图] [核心代码] ''' Function: 当当网图书爬虫 Author: Charles 微信公众号: Charles的皮卡丘 ''' impor ...

  6. python爬虫代码实例-Python爬虫爬取百度搜索内容代码实例

    这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 搜索引擎用的很频繁,现在利用Python爬 ...

  7. python爬虫数据分析可以做什么-python爬虫爬取的数据可以做什么

    在Python中连接到多播服务器问题,怎么解决你把redirect关闭就可以了.在send时,加上参数allow_redirects=False 通常每个浏览器都会设置redirect的次数.如果re ...

  8. python爬虫爬取csdn博客专家所有博客内容

    python爬虫爬取csdn博客专家所有博客内容: 全部过程采取自动识别与抓取,抓取结果是将一个博主的所有 文章存放在以其名字命名的文件内,代码如下 #coding:utf-8import urlli ...

  9. python网易云_用python爬虫爬取网易云音乐

    标签: 使用python爬虫爬取网易云音乐 需要使用的模块 只需要requests模块和os模块即可 开始工作 先去网易云音乐网页版找一下你想要听的歌曲点击进去.按键盘F12打开网页调试工具,点击Ne ...

最新文章

  1. (Alex note) Create a oracle database
  2. 虚拟机无法访问主机mysql_解决虚拟机linux端mysql数据库无法远程访问
  3. 函数重写 java_java 函数的重载和重写实例代码
  4. (深入理解计算机系统) bss段,data段、text段、堆(heap)和栈(stack)(C/C++存储类型总结)(内存管理)
  5. 思科与华为生成树协议的对接
  6. 判断textarea是否超过行数限制
  7. java zip压缩_压缩工具
  8. SAP License:发票校验
  9. 最详BF算法和KMP算法
  10. vagrant 强制关机 Warning: Authentication failure. Retrying...
  11. 分布电容和杂散电容_杂散电容概述
  12. 【C++设计模式】Singleton 单例设计模式与线程安全
  13. easyexcel使用问题处理
  14. HTML5触摸事件(多点、单点触控)
  15. Excel匹配两列相同内容到同一行
  16. 链表和线性表的优缺点
  17. Unity 面试题汇总(三)Unity 基础相关
  18. 指定的网络名不再可用的解决方法
  19. 线性表在链式存储结构下的基本操作
  20. sql 查询 aeiou元素

热门文章

  1. Distributed Systems-leader based分布式一致性协议
  2. docker 核心概念整理
  3. Ubuntu下建立Pycharm快捷方式
  4. openwrt开发过程简介
  5. 适用于 IT 专业人员的基本 Windows 部署
  6. 也说c#获取windows特殊路径
  7. 藏在XP中的一个可以完整清除垃圾文件
  8. 南昌大学计算机控制,南昌大学计算机控制实验报告数/模转换实验..doc
  9. 数据列表DataList模板之实例
  10. 使用WindowManager添加View——悬浮窗口的基本原理