python爬虫模板和网页表格生成表格文件
python爬虫模板
首先我们先把网页内容保存下来,之后我们对网页内容进行分析,找到我们想要的,以小米商城官网为例
import urllib3
#首先我们先把网页内容保存下来,之后我们对网页内容进行分析,找到我们想要的
def download_content(url):
res = urllib3.PoolManager().request(‘GET’, url).data.decode()
return res
def save_to_file(filename, content):
file = open(filename, ‘w’, encoding=‘utf-8’)
file.write(content)
file.close()
url = ‘https://www.mi.com/’
res = download_content(url)
save_to_file(‘tips1.html’, res)
import urllib3#首先我们先把网页内容保存下来,之后我们对网页内容进行分析,找到我们想要的
def download_content(url):res = urllib3.PoolManager().request('GET', url).data.decode()return resdef save_to_file(filename, content):file = open(filename, 'w', encoding='utf-8')file.write(content)file.close()url = 'https://www.mi.com/'
res = download_content(url)
save_to_file('tips1.html', res)
如图我们将对应的文件保存下来,命名为tips1.html,假设我们要爬取的内容为首页红框中的文字和链接,假设我们只要第二个小米影像
代码如下
import bs4# 输入参数为要分析的 html 文件名,返回值为对应的 BeautifulSoup 对象
def create_doc_from_filename(filename):fo = open(filename, "r", encoding='utf-8')html_content = fo.read()fo.close()doc = bs4.BeautifulSoup(html_content, "lxml")return docdef parse(doc):post_list = doc.find_all("div", class_="home-page")for post in post_list:link = post.find_all("a")[2]print(link)print(link.text.strip())print(link["href"])def main():doc = create_doc_from_filename("tips1.html")#print(doc)parse(doc)
if __name__ == '__main__':main()
运行之后发现正是我们想要的
在这里doc.find_all(“div”, class_=“home-page”)的含义就是首先找到所有 class 属性是 home-page的 div 标签,然后将这些标签中的 a 标签的文本部分提取出来
两个代码块是两个文件,第二个文件的html文件是从第一个文件获取的,当然我们也可以写在一起,这也是没有问题的,我个人的目录如下,比较随意
python网页表格生成表格文件
研究了下别人的例子,发现只有是table标签才能够很快转换,而且整个数据都需要table标签里面
比如这个地址:https://fx.cmbchina.com/Hq/
标签形式如下
直接上代码吧
import urllib3
import pandas as pd#首先我们先把网页内容保存下来,之后我们对网页内容进行分析,找到我们想要的
def download_content(url):res = urllib3.PoolManager().request('GET', url).data.decode()return resres = download_content('https://fx.cmbchina.com/Hq/')
print(res)
file = pd.read_html(res)
print('---------')
print(file)
file[1].to_excel('tips_file.xlsx')
不过在这个过程中会报好几个库不存在,直接pip安装就可以了
执行后生成结果如下
python爬虫模板和网页表格生成表格文件相关推荐
- 32. Pandas借助Python爬虫读取HTML网页表格存储到Excel文件
Pandas借助Python爬虫读取HTML网页表格存储到Excel文件 实现目标: 网易有道词典可以用于英语单词查询,可以将查询的单词加入到单词本; 当前没有导出全部单词列表的功能.为了复习方便,可 ...
- java抓取页面表格_用java实现爬虫抓取网页中的表格数据功能源码
[实例简介] 使用java代码基于MyEclipse开发环境实现爬虫抓取网页中的表格数据,将抓取到的数据在控制台打印出来,需要后续处理的话可以在打印的地方对数据进行操作.包解压后导入MyEclipse ...
- 如何用python抓取文献_浅谈Python爬虫技术的网页数据抓取与分析
浅谈 Python 爬虫技术的网页数据抓取与分析 吴永聪 [期刊名称] <计算机时代> [年 ( 卷 ), 期] 2019(000)008 [摘要] 近年来 , 随着互联网的发展 , 如何 ...
- Python爬虫爬取网页数据并存储(一)
Python爬虫爬取网页数据并存储(一) 环境搭建 爬虫基本原理 urllib库使用 requests库使用 正则表达式 一个示例 环境搭建 1.需要事先安装anaconda(或Python3.7)和 ...
- python爬虫爬取网页新闻标题-看完保证你会
python爬虫爬取网页新闻标题方法 1.首先使用浏览自带的工具--检查,查找网页新闻标题对应的元素位置,这里查到的新闻标题是在 h3 标签中 2.然后使用编辑器编写python代码 2.1方法一: ...
- python语音合成并播放_使用Python实现文字转语音并生成wav文件的例子
目前手边的一些工作,需要实现声音播放功能,而且仅支持wav声音格式. 现在,一些网站上支持文字转语音功能,但是生成的都是MP3文件,这样还需要额外的软件来转成wav文件,十分麻烦. 后来,研究Pyth ...
- Java读取pdf模板,并动态生成pdf文件,如动态生成准考证
Java读取pdf模板,并动态生成pdf文件,如动态生成准考证 前几天遇到了一个生成准考证的需求,并提供用户下载,然后百度了一圈还是觉得使用itextpdf这个框架好用点.但是还需要找到一个能创建 ...
- 什么是pyc文件,把python的py文件编译成pyc文件,把pyc文件反编译成py文件。以及python编译的如何设置不生成pyc文件
文章目录 1 什么是pyc文件 1.1 什么是pyc文件 1.2 pyc文件是怎么生成的,有什么好处 2 把python的py文件编译成pyc文件 2.1 使用python内置库py_compile把 ...
- 【python爬虫】网贷天眼平台表格数据抓取
一.需求分析 抓取url: http://www.p2peye.com/shuju/ptsj/ 抓取字段: 昨日数据 排序 平台名称 成交额 综合利率 投资人 借款周期 借款人 满标速度 累计贷款余额 ...
最新文章
- 【网摘】GTK中文显示解决方案
- Linux扩展SWAP分区
- Android初学第86天
- 画图调子图间距_好看好用的桥梁工程图,你值得拥有!
- 口腔取模过程及注意事项_取模变形?教你三种方法,轻松防止取模变形!
- Linux——VIM多选缩进及高级命令
- python-if判断的本质
- 应用架构设计“着火”“防火”经验之谈
- 地震勘探专业词汇(3)地震波动力学
- 编程求一个四位自然数ABCD,它乘以A后变成DCBA
- Python人脸识别之——创建csv文件 create_csv.py 代码 Python3.7
- [目标检测系列]ATSS: Bridging the Gap Between Anchor-based and Anchor-free Detection via ATSS(CVPR2020)
- 2020-02-24
- 【sv】 assign force区别
- Ubuntu 商店无法安装应用
- MATLAB中同一路径下同文件的末尾继续写入数据
- 视觉平台Visionpro脚本神器
- VOC2012数据集的探索性数据分析(EDA)
- 行列向量的维数和个数的关系【三秩相等作为桥梁】
- android opengl版本,Android OpenGL ES(一)开发入门
热门文章
- oppovivo会用鸿蒙系统么,鸿蒙系统风头无两,小米、OPPO、vivo会采用吗?
- ACTIVITI 5.22 表结构详情
- 【安路FPGA】从流水灯入门安路开发环境
- 49、SD卡FATFS文件系统实验
- springBoot使用druid不显示SQL监控问题
- 大白话讲解设计模式之中介者模式
- Android——TabLayout设置选中字体变大,加粗,透明度
- oracle_ofsd,Oracle 11.2.0.4 x64 RAC扩展存储空间
- 使用js-audio-recorder插件实现前端的录音功能
- XMLConfiguration用法