import re

import sys
import os
os.chdir('/Users/houzhixian/Desktop')#设置工作目录为桌面,可以直接将目录文件拖入终端,然后复制工作目录路径
#print(sys.path)

from selenium import webdriver#导入爬虫安装包
browser=webdriver.Chrome()#设置爬虫浏览器为chrome
# browser.get('https://www.szlib.org.cn/auth/userLogin')
browser.get('https://www.landchina.com/givingNotice?path=0')#用chrome浏览器自动打开爬取的网页
#2
data=browser.page_source#获得打开网页的源代码
name_p='class="hide">(.*?)</div></td>'
name=re.findall(name_p,data,re.S)
# 3
name_p='<div data-v-5f8a4006="" class="hide">(.*?)号.</div></td>'#提取公告名的正则表达式
name=re.findall(name_p,data,re.S)#正则表达式提取公告名,保存为name列表
# 4
data=[data]#将爬取到的网页源代码字符串转变为一个列表类型,用于后续添加循环爬取到的源代码字符串
for i in range(999):#设置点击翻页次数为999
    browser.find_element_by_css_selector('#appMain > div > div:nth-child(5) > div > div.el-pagination.is-background > button.btn-next > i').click()#点击下一页
    data1=browser.page_source#获得翻页后的源代码
    data.append(data1)#将每一页源代码字符串添加到列表data中
# 5
# print(len(data))
data='\\'.join(data)#将data列表用‘\\’链接所有列表元素,转变为一个字符串
# 6
name_p='<div data-v-5f8a4006="" class="hide">(.*?)号.</div></td>'#提取公告名的正则表达式
name=re.findall(name_p,data,re.S)#正则表达式提取公告名,保存为name列表

for i in range(len(name)):
    print(str(i+1)+'.'+name[i])#循环打印每一条公告名,标明序号
name=name[0:6000] #原网页只有600页,每一页10条公告,取前6000条,后面4000条为重复爬取最后一页公告内容被删除
# 7
import docx#导入word文档创建包
土地公告名称=docx.Document()#创建word文档
for i in range(len(name)):
    土地公告名称.add_paragraph(str(i+1)+'.'+name[i])#将name列表中的公告名循环写入word文档中,每条公告名单独一个段落
from docx.oxml.ns import qn#导入设置中文字体的函数
土地公告名称.styles['Normal'].font.name=u'楷体'#设置字体类型,可换成其它字体
土地公告名称.styles['Normal']._element.rPr.rFonts.set(qn('w:eastAsia'),u'楷体')#可换成其它字体,必须先设置上一句
土地公告名称.save('土地公告名称.docx')#保存文档到设定的工作目录文件夹中
    

用python爬取中国土地市场网上的土地出让公告所有标题相关推荐

  1. 用Python爬取中国各省GDP数据

    介绍 在数据分析和经济研究中,了解中国各省份的GDP数据是非常重要的.然而,手动收集这些数据可能是一项繁琐且费时的任务.幸运的是,Python提供了一些强大的工具和库,使我们能够自动化地从互联网上爬取 ...

  2. python中国最好大学排名_国内大学排名如何?用Python爬取中国大学排名

    国内大学排名如何?用Python爬取中国大学排名准备阶段需要的库robots协议上代码代码框架*获取url信息*解析信息*输出数据*主函数结果 准备阶段 新手入门,不喜勿喷,这篇文章的内容其实也是在中 ...

  3. Python爬取中国知网文献、参考文献、引证文献

    转载自博客园文章作为学习资料,代码及相关介绍非常详细.原文链接见Python爬取 中国知网文献.参考文献.引证文献

  4. python爬取中国天气网天气图标

    python爬取中国天气网天气图标 准备工作 天气预报图例网址:http://www.weather.com.cn/static/html/legend.shtml 安装requests:pip in ...

  5. python爬取中国大学(高校)基本信息

    Python爬取中国大学(高校)基本信息 python爬取中国大学(高校)基本信息 简单的一个小爬虫,获取中国高校基本信息 一.输出到excel表格结果 二.代码 // An highlighted ...

  6. Python爬取中国大学排名,并且保存到excel中

    前言 以下文章来源于数据分析和Python ,作者冈坂日川 今天发的是python爬虫爬取中国大学排名,并且保存到excel中,当然这个代码很简单,我用了半小时就写完了,我的整体框架非常清晰,可以直接 ...

  7. python爬取中国天气网中国全部城市的天气链接

    近期自己尝试用python写一个qqbot实现天气查询功能,现已基本实现 已经基本完成爬取中国天气网的所有城市的天气情况链接 下附中国天气网所有城市的名称及对应链接 {'朝阳': 'http://ww ...

  8. 使用Python爬取中国Mooc网讨论区内所有评论

    最近受朋友委托,写了一个爬取中国Mooc往讨论区所有评论的程序 ,他需要这些数据写论文. 如下: 他需要爬取这些板块里所有的评论. 俗话说的好 六月七月爬虫热 因为这段时间许多的大学生都毕业了 特此写 ...

  9. python爬取中国天气网中城市及其对应编号

    文章目录 一.前言 二.思路 三.程序 四.注意事项 一.前言 为了实现爬取各地城市天气预报及其可视化的需要,爬取中国天气网中城市及其对应编号 . 天气预报可视化文章如下: <python爬虫, ...

最新文章

  1. 什么是C中的“静态”功能?
  2. R语言在图上标出点坐标_从基变换的角度理解旋转矩阵R
  3. python中int函数规则_python数字规则和内建函数
  4. 综合程序设计 7-4 完美的代价 (40分)
  5. VS2010-MFC(文档、视图和框架:分割窗口)
  6. MFC关于JPG图片显示处理的几个方式
  7. 关于服务发现和负载均衡,你想知道的都在这儿
  8. HDU-基础搜索总结
  9. String 创建对象问题
  10. VS F5自动编译 F5不自动编译
  11. 乐高spike python_SPIKE Prime科创套装 篇四:乐高教育SPIKE Prime入门编程和搭建活动教学...
  12. 通用稳定DNS,国际DNS,国内DNS,公共DNS
  13. 对单位cps和单位kc的理解
  14. 提取Redis事件机制源码为我所用
  15. vivox9怎么和计算机共享,vivo手机怎么和笔记本电脑共享文件和网络
  16. 信息系统项目管理师必背核心考点(六十二)项目组合治理主要过程
  17. perf 性能分析实例——使用perf优化cache利用率
  18. 开发一款系统软件大概需要多少钱呢
  19. RabbitMq(二)一文彻底弄懂RabbitMq的四种交换机原理及springboot实战应用
  20. 每天定时采集(当前时间到月底)携程机票数据

热门文章

  1. Matlab中rgb2ind函数用法
  2. Android 启动速度优化
  3. bmp格式图片怎么转成JPG格式?教你一键转格式的方法
  4. 纸上得来终觉浅 绝知此事要躬行
  5. 如何使用web of science查找SCI WOC 号或者EI来查找检索号
  6. obv代码matlab,通达信精进终极obv指标公式,通达信obv指标公式源码
  7. PB数据窗口9种风格
  8. SDNUOJ 1168.FBI树
  9. 2021年山东省安全员B证试题及解析及山东省安全员B证作业模拟考试
  10. 信锐无线控制器短信认证企信通配置