python爬虫模板

首先我们先把网页内容保存下来,之后我们对网页内容进行分析,找到我们想要的,以小米商城官网为例
import urllib3

#首先我们先把网页内容保存下来,之后我们对网页内容进行分析,找到我们想要的
def download_content(url):
res = urllib3.PoolManager().request(‘GET’, url).data.decode()
return res

def save_to_file(filename, content):
file = open(filename, ‘w’, encoding=‘utf-8’)
file.write(content)
file.close()

url = ‘https://www.mi.com/’
res = download_content(url)
save_to_file(‘tips1.html’, res)

import urllib3#首先我们先把网页内容保存下来,之后我们对网页内容进行分析,找到我们想要的
def download_content(url):res = urllib3.PoolManager().request('GET', url).data.decode()return resdef save_to_file(filename, content):file = open(filename, 'w', encoding='utf-8')file.write(content)file.close()url = 'https://www.mi.com/'
res = download_content(url)
save_to_file('tips1.html', res)

如图我们将对应的文件保存下来,命名为tips1.html,假设我们要爬取的内容为首页红框中的文字和链接,假设我们只要第二个小米影像

代码如下

import bs4# 输入参数为要分析的 html 文件名,返回值为对应的 BeautifulSoup 对象
def create_doc_from_filename(filename):fo = open(filename, "r", encoding='utf-8')html_content = fo.read()fo.close()doc = bs4.BeautifulSoup(html_content, "lxml")return docdef parse(doc):post_list = doc.find_all("div", class_="home-page")for post in post_list:link = post.find_all("a")[2]print(link)print(link.text.strip())print(link["href"])def main():doc = create_doc_from_filename("tips1.html")#print(doc)parse(doc)
if __name__ == '__main__':main()

运行之后发现正是我们想要的

在这里doc.find_all(“div”, class_=“home-page”)的含义就是首先找到所有 class 属性是 home-page的 div 标签,然后将这些标签中的 a 标签的文本部分提取出来

两个代码块是两个文件,第二个文件的html文件是从第一个文件获取的,当然我们也可以写在一起,这也是没有问题的,我个人的目录如下,比较随意

python网页表格生成表格文件

研究了下别人的例子,发现只有是table标签才能够很快转换,而且整个数据都需要table标签里面
比如这个地址:https://fx.cmbchina.com/Hq/

标签形式如下

直接上代码吧

import urllib3
import pandas as pd#首先我们先把网页内容保存下来,之后我们对网页内容进行分析,找到我们想要的
def download_content(url):res = urllib3.PoolManager().request('GET', url).data.decode()return resres = download_content('https://fx.cmbchina.com/Hq/')
print(res)
file = pd.read_html(res)
print('---------')
print(file)
file[1].to_excel('tips_file.xlsx')

不过在这个过程中会报好几个库不存在,直接pip安装就可以了
执行后生成结果如下

python爬虫模板和网页表格生成表格文件相关推荐

  1. 32. Pandas借助Python爬虫读取HTML网页表格存储到Excel文件

    Pandas借助Python爬虫读取HTML网页表格存储到Excel文件 实现目标: 网易有道词典可以用于英语单词查询,可以将查询的单词加入到单词本; 当前没有导出全部单词列表的功能.为了复习方便,可 ...

  2. java抓取页面表格_用java实现爬虫抓取网页中的表格数据功能源码

    [实例简介] 使用java代码基于MyEclipse开发环境实现爬虫抓取网页中的表格数据,将抓取到的数据在控制台打印出来,需要后续处理的话可以在打印的地方对数据进行操作.包解压后导入MyEclipse ...

  3. 如何用python抓取文献_浅谈Python爬虫技术的网页数据抓取与分析

    浅谈 Python 爬虫技术的网页数据抓取与分析 吴永聪 [期刊名称] <计算机时代> [年 ( 卷 ), 期] 2019(000)008 [摘要] 近年来 , 随着互联网的发展 , 如何 ...

  4. Python爬虫爬取网页数据并存储(一)

    Python爬虫爬取网页数据并存储(一) 环境搭建 爬虫基本原理 urllib库使用 requests库使用 正则表达式 一个示例 环境搭建 1.需要事先安装anaconda(或Python3.7)和 ...

  5. python爬虫爬取网页新闻标题-看完保证你会

    python爬虫爬取网页新闻标题方法 1.首先使用浏览自带的工具--检查,查找网页新闻标题对应的元素位置,这里查到的新闻标题是在 h3 标签中 2.然后使用编辑器编写python代码 2.1方法一: ...

  6. python语音合成并播放_使用Python实现文字转语音并生成wav文件的例子

    目前手边的一些工作,需要实现声音播放功能,而且仅支持wav声音格式. 现在,一些网站上支持文字转语音功能,但是生成的都是MP3文件,这样还需要额外的软件来转成wav文件,十分麻烦. 后来,研究Pyth ...

  7. Java读取pdf模板,并动态生成pdf文件,如动态生成准考证

    Java读取pdf模板,并动态生成pdf文件,如动态生成准考证 ​ 前几天遇到了一个生成准考证的需求,并提供用户下载,然后百度了一圈还是觉得使用itextpdf这个框架好用点.但是还需要找到一个能创建 ...

  8. 什么是pyc文件,把python的py文件编译成pyc文件,把pyc文件反编译成py文件。以及python编译的如何设置不生成pyc文件

    文章目录 1 什么是pyc文件 1.1 什么是pyc文件 1.2 pyc文件是怎么生成的,有什么好处 2 把python的py文件编译成pyc文件 2.1 使用python内置库py_compile把 ...

  9. 【python爬虫】网贷天眼平台表格数据抓取

    一.需求分析 抓取url: http://www.p2peye.com/shuju/ptsj/ 抓取字段: 昨日数据 排序 平台名称 成交额 综合利率 投资人 借款周期 借款人 满标速度 累计贷款余额 ...

最新文章

  1. 【网摘】GTK中文显示解决方案
  2. Linux扩展SWAP分区
  3. Android初学第86天
  4. 画图调子图间距_好看好用的桥梁工程图,你值得拥有!
  5. 口腔取模过程及注意事项_取模变形?教你三种方法,轻松防止取模变形!
  6. Linux——VIM多选缩进及高级命令
  7. python-if判断的本质
  8. 应用架构设计“着火”“防火”经验之谈
  9. 地震勘探专业词汇(3)地震波动力学
  10. 编程求一个四位自然数ABCD,它乘以A后变成DCBA
  11. Python人脸识别之——创建csv文件 create_csv.py 代码 Python3.7
  12. [目标检测系列]ATSS: Bridging the Gap Between Anchor-based and Anchor-free Detection via ATSS(CVPR2020)
  13. 2020-02-24
  14. 【sv】 assign force区别
  15. Ubuntu 商店无法安装应用
  16. MATLAB中同一路径下同文件的末尾继续写入数据
  17. 视觉平台Visionpro脚本神器
  18. VOC2012数据集的探索性数据分析(EDA)
  19. 行列向量的维数和个数的关系【三秩相等作为桥梁】
  20. android opengl版本,Android OpenGL ES(一)开发入门

热门文章

  1. oppovivo会用鸿蒙系统么,鸿蒙系统风头无两,小米、OPPO、vivo会采用吗?
  2. ACTIVITI 5.22 表结构详情
  3. 【安路FPGA】从流水灯入门安路开发环境
  4. 49、SD卡FATFS文件系统实验
  5. springBoot使用druid不显示SQL监控问题
  6. 大白话讲解设计模式之中介者模式
  7. Android——TabLayout设置选中字体变大,加粗,透明度
  8. oracle_ofsd,Oracle 11.2.0.4 x64 RAC扩展存储空间
  9. 使用js-audio-recorder插件实现前端的录音功能
  10. XMLConfiguration用法