背景:实习工作内容,对接业务人员因采购原材料,想要获取铝琔的历史价格

目标网址:江西保太集团-江西保太有色金属集团有限公司

目标字段:品名,日期,价格

目的:爬取ADC12-F的历史价格。

1.调用相关库

import pymysql
import requests
from bs4 import BeautifulSoup

2.设置请求头

headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'
}page = requests.get('http://m.baotaigroup.com.cn/index/offer/hoffer/id/9.html', headers = headers)
page.encoding = 'utf8'#保证不乱码
soup = BeautifulSoup(page.text, "html.parser")

3.解析网页,获取总页数

for num_page in soup.find_all("ul", class_="pagination"):#看下面图片框起来的内容a=num_page.get_text()print("a",a,type(a))#print(a.split()[1])#只取“123456789”部分len_page=len(a.split()[1])#页码数正好和上面字符串的长度一致print('len(a.split()[1])',len_page)

4.解析网页,选取目标字段

num = -1
pageNum = 0for index in range(len_page):#有9页数据,循环获取,pageNum = pageNum+1#更换网址print('http://m.baotaigroup.com.cn/index/offer/hoffer/id/9.html?page='+str(pageNum))pages = requests.get('http://m.baotaigroup.com.cn/index/offer/hoffer/id/9.html?page='+str(pageNum), headers=headers)pages.encoding = 'utf8'#网页编码,有些网页是gb2312 等soups = BeautifulSoup(pages.text, "html.parser")print('1')li_0=[] i=1          for spw140 in soups.find_all("span", class_="w140"):i+=1w140=spw140.get_text()#print('w140_-',w140)#if w140 :if i%5==3:#通过观察索引发现目标字段“价格”的位置        li_0.append(w140)#7121722#print('li_0',li_0)  #li_0_new=pd.DataFrame(li_0)  ##print('li_0_new',li_0_new)      #print()li_1=[]for spw300 in soups.find_all("span", class_="w300"):w300=spw300.get_text()#print('w300_-',w300)li_1.append(w300)#print()#print('li_1',li_1)li_name=[] #增加品名列for j in range(len(li_0)-1):li_name.append('ADC12-F')#更换品名#将上述三列目标字段(列表形式)转换成数据框格式:data=pd.DataFrame({'ITEM_NAME':li_name[:],'DATE_1':li_1[1:],'TJPRICE':li_0[1:]})print('data',data)

5.存储数据

第4步得到的数据为数据框格式,我预计存到数据库里,这里不再详述。

Python爬取多网页表格数据(非table)相关推荐

  1. Python爬取整个网页的数据

    本案例是基于PyCharm开发的,也可以使用idea. 在项目内新建一个python文件Test.py Test.py # 导入urllib下的request模块 import urllib.requ ...

  2. python爬取网页数据流程_基于Python爬取fofa网页端数据过程解析

    FOFA-网络空间安全搜索引擎是网络空间资产检索系统(FOFA)是世界上数据覆盖更完整的IT设备搜索引擎,拥有全球联网IT设备更全的DNA信息.探索全球互联网的资产信息,进行资产及漏洞影响范围分析.应 ...

  3. python爬取整个网页的数据_免费网页数据抓取采集 python实现一个多线程网页下载器...

    #!/usr/bin/envaR.jz7Y^0l#sgL'}0 # -*- coding:utf-8 -*- 51Testing软件测试网!`G2e3a`k2Ovr import urllib, ht ...

  4. 用python爬取基金网信息数据,保存到表格,并做成四种简单可视化。(爬虫之路,永无止境!)

    用python爬取基金网信息数据,保存到表格,并做成四种简单可视化.(爬虫之路,永无止境!) 上次 2021-07-07写的用python爬取腾讯招聘网岗位信息保存到表格,并做成简单可视化. 有的人留 ...

  5. python爬取动态网页_python爬取动态网页数据,详解

    原理:动态网页,即用js代码实现动态加载数据,就是可以根据用户的行为,自动访问服务器请求数据,重点就是:请求数据,那么怎么用python获取这个数据了? 浏览器请求数据方式:浏览器向服务器的api(例 ...

  6. python实战|python爬取58同城租房数据并以Excel文件格式保存到本地

    python实战|python爬取58同城租房数据并以Excel文件格式保存到本地 一.分析目标网站url 目标网站:https://cq.58.com/minsuduanzu/ 让我们看看网站长啥样 ...

  7. python 爬取24小时天气数据

    python 爬取24小时天气数据 1.引入相关库 # -*- coding: utf-8 -*- import requests import numpy as np 关于爬虫,就是在网页上找到自己 ...

  8. Python 爬取起点的小说(非vip)

                      Python 爬取起点的小说(非vip) 起点小说网是一个小说种类比较全面的网站,当然,作为收费类网站,VIP类的小说也很多,章节是VIP的话,有一个动态加载,也就 ...

  9. PYTHON爬取汽车之家数据

    PYTHON爬取汽车之家数据 使用知识 使用BeautifulSoup模块 使用正则表达式 使用到多线程爬取 使用说明 使用前请安装BeauifulSoup 起始页面: https://www.aut ...

最新文章

  1. sqlite3 多线程 c语言,sqlite3 c语言编程 之 三个基本函数
  2. java中final class的一点思考
  3. 028_Alert警告
  4. java ajax搜索框提示,Javaweb-案例练习-2-给搜索框添加提示
  5. 天猫不搞双十一“开玩笑”
  6. Stacked Hourglass Networks 人体姿态检测
  7. 你眼里的废品也许就是别人眼里的宝贝(生意)
  8. vs2015软件系统开源_2015年最佳开源游戏
  9. Win10 Ubuntu16.04 时间同步问题
  10. Adobe Illustrator自制苏大计科院院徽
  11. Android 滑动方向整理
  12. CDC框架之Debezium使用
  13. 计算机维修技术答案,吉大《计算机维护与维修》显示篇练习答案
  14. 【USACO12JAN】视频游戏的连击Video Game Combos
  15. 手机活动轨迹查询,究竟是什么原理?
  16. office提示错误1902该怎么解决
  17. 【转】详解硬盘MBR
  18. 什么是传输层协议TCP/UDP???
  19. 你的996,可能是给公司无能的管理背锅
  20. 【Spring Boot】Spring Boot @EnableOAuth2Sso | 启用 OAuth2 单点登录

热门文章

  1. 关于自己看百度修改c盘下的用户名,更改了注册表里的profilelist文件,重启后恢复原始桌面并提示注销问题与解决方案。
  2. 对ABAP程序调优的学习(一)select 改 read table
  3. 什么是云数据库RDS
  4. win10修复计算机摁什么,编辑告诉你win10修复失败且无法进入系统的详尽处理步骤...
  5. python 抢票_Python3.x:抢票
  6. Hark的数据结构与算法练习之耐心排序
  7. PrecompiledAssemblyException: Multiple precompiled assemblies with the same name websocket-sharp.dll
  8. ZOHO 免费小型企业邮箱和个人邮箱
  9. utc时间 单位换算_日期时间
  10. c语言移动光标到指定坐标,C语言实现光标移动