用python爬取中国土地市场网上的土地出让公告所有标题
import re
import sys
import os
os.chdir('/Users/houzhixian/Desktop')#设置工作目录为桌面,可以直接将目录文件拖入终端,然后复制工作目录路径
#print(sys.path)
from selenium import webdriver#导入爬虫安装包
browser=webdriver.Chrome()#设置爬虫浏览器为chrome
# browser.get('https://www.szlib.org.cn/auth/userLogin')
browser.get('https://www.landchina.com/givingNotice?path=0')#用chrome浏览器自动打开爬取的网页
#2
data=browser.page_source#获得打开网页的源代码
name_p='class="hide">(.*?)</div></td>'
name=re.findall(name_p,data,re.S)
# 3
name_p='<div data-v-5f8a4006="" class="hide">(.*?)号.</div></td>'#提取公告名的正则表达式
name=re.findall(name_p,data,re.S)#正则表达式提取公告名,保存为name列表
# 4
data=[data]#将爬取到的网页源代码字符串转变为一个列表类型,用于后续添加循环爬取到的源代码字符串
for i in range(999):#设置点击翻页次数为999
browser.find_element_by_css_selector('#appMain > div > div:nth-child(5) > div > div.el-pagination.is-background > button.btn-next > i').click()#点击下一页
data1=browser.page_source#获得翻页后的源代码
data.append(data1)#将每一页源代码字符串添加到列表data中
# 5
# print(len(data))
data='\\'.join(data)#将data列表用‘\\’链接所有列表元素,转变为一个字符串
# 6
name_p='<div data-v-5f8a4006="" class="hide">(.*?)号.</div></td>'#提取公告名的正则表达式
name=re.findall(name_p,data,re.S)#正则表达式提取公告名,保存为name列表
for i in range(len(name)):
print(str(i+1)+'.'+name[i])#循环打印每一条公告名,标明序号
name=name[0:6000] #原网页只有600页,每一页10条公告,取前6000条,后面4000条为重复爬取最后一页公告内容被删除
# 7
import docx#导入word文档创建包
土地公告名称=docx.Document()#创建word文档
for i in range(len(name)):
土地公告名称.add_paragraph(str(i+1)+'.'+name[i])#将name列表中的公告名循环写入word文档中,每条公告名单独一个段落
from docx.oxml.ns import qn#导入设置中文字体的函数
土地公告名称.styles['Normal'].font.name=u'楷体'#设置字体类型,可换成其它字体
土地公告名称.styles['Normal']._element.rPr.rFonts.set(qn('w:eastAsia'),u'楷体')#可换成其它字体,必须先设置上一句
土地公告名称.save('土地公告名称.docx')#保存文档到设定的工作目录文件夹中
用python爬取中国土地市场网上的土地出让公告所有标题相关推荐
- 用Python爬取中国各省GDP数据
介绍 在数据分析和经济研究中,了解中国各省份的GDP数据是非常重要的.然而,手动收集这些数据可能是一项繁琐且费时的任务.幸运的是,Python提供了一些强大的工具和库,使我们能够自动化地从互联网上爬取 ...
- python中国最好大学排名_国内大学排名如何?用Python爬取中国大学排名
国内大学排名如何?用Python爬取中国大学排名准备阶段需要的库robots协议上代码代码框架*获取url信息*解析信息*输出数据*主函数结果 准备阶段 新手入门,不喜勿喷,这篇文章的内容其实也是在中 ...
- Python爬取中国知网文献、参考文献、引证文献
转载自博客园文章作为学习资料,代码及相关介绍非常详细.原文链接见Python爬取 中国知网文献.参考文献.引证文献
- python爬取中国天气网天气图标
python爬取中国天气网天气图标 准备工作 天气预报图例网址:http://www.weather.com.cn/static/html/legend.shtml 安装requests:pip in ...
- python爬取中国大学(高校)基本信息
Python爬取中国大学(高校)基本信息 python爬取中国大学(高校)基本信息 简单的一个小爬虫,获取中国高校基本信息 一.输出到excel表格结果 二.代码 // An highlighted ...
- Python爬取中国大学排名,并且保存到excel中
前言 以下文章来源于数据分析和Python ,作者冈坂日川 今天发的是python爬虫爬取中国大学排名,并且保存到excel中,当然这个代码很简单,我用了半小时就写完了,我的整体框架非常清晰,可以直接 ...
- python爬取中国天气网中国全部城市的天气链接
近期自己尝试用python写一个qqbot实现天气查询功能,现已基本实现 已经基本完成爬取中国天气网的所有城市的天气情况链接 下附中国天气网所有城市的名称及对应链接 {'朝阳': 'http://ww ...
- 使用Python爬取中国Mooc网讨论区内所有评论
最近受朋友委托,写了一个爬取中国Mooc往讨论区所有评论的程序 ,他需要这些数据写论文. 如下: 他需要爬取这些板块里所有的评论. 俗话说的好 六月七月爬虫热 因为这段时间许多的大学生都毕业了 特此写 ...
- python爬取中国天气网中城市及其对应编号
文章目录 一.前言 二.思路 三.程序 四.注意事项 一.前言 为了实现爬取各地城市天气预报及其可视化的需要,爬取中国天气网中城市及其对应编号 . 天气预报可视化文章如下: <python爬虫, ...
最新文章
- 什么是C中的“静态”功能?
- R语言在图上标出点坐标_从基变换的角度理解旋转矩阵R
- python中int函数规则_python数字规则和内建函数
- 综合程序设计 7-4 完美的代价 (40分)
- VS2010-MFC(文档、视图和框架:分割窗口)
- MFC关于JPG图片显示处理的几个方式
- 关于服务发现和负载均衡,你想知道的都在这儿
- HDU-基础搜索总结
- String 创建对象问题
- VS F5自动编译 F5不自动编译
- 乐高spike python_SPIKE Prime科创套装 篇四:乐高教育SPIKE Prime入门编程和搭建活动教学...
- 通用稳定DNS,国际DNS,国内DNS,公共DNS
- 对单位cps和单位kc的理解
- 提取Redis事件机制源码为我所用
- vivox9怎么和计算机共享,vivo手机怎么和笔记本电脑共享文件和网络
- 信息系统项目管理师必背核心考点(六十二)项目组合治理主要过程
- perf 性能分析实例——使用perf优化cache利用率
- 开发一款系统软件大概需要多少钱呢
- RabbitMq(二)一文彻底弄懂RabbitMq的四种交换机原理及springboot实战应用
- 每天定时采集(当前时间到月底)携程机票数据