网络爬虫,又被称为网页蜘蛛,

1、网络机器人,在FOAF社区中间,更经常的称为网页追逐者,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

2、大部分爬虫都是按“发送请求——获得页面——解析页面——抽取并储存内容”这样的流程来进行,这其实也是模拟了我们使用浏...

3、简单来讲,爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。

1.首先进入同花顺网页查看个股详细信息了解HTML结构

1.然后分析HTML结构,看所需要的里面是什么标签

2.简单粗暴抓取结构里面

3.保存本地文件,为数据处理做准备

4.利用代码获取的数据集

5.获取的数据结构

1.运行代表保存名称和代码号

import requests
import re
import csvdef geturl(url):r = requests.get(url, headers={'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36 Edg/100.0.1185.44",})r.encoding = r.apparent_encodingreturn r.textmystockUrl = 'http://data.10jqka.com.cn/funds/ggzjl/'STOCK = '<td class="tc linkToGghq"><a href=".*" target=".*" class=".*">(.*?)</a></td>'if __name__ == '__main__':html = geturl(mystockUrl)reslist = re.findall(STOCK, html)list = [reslist[i:i + 2]for i in range(0, len(reslist), 2)]f = open('C:/Users/admin/PycharmProjects/pythonProject1/myidea/数据/stock.csv', 'w+', encoding='utf-8-sig', newline="")writer = csv.writer(f)writer.writerow(('名称', '代码'))for data in list:writer.writerow((data[0],data[1]))f.close()

2.利用上面保存的股票代码和名称来批量获取股票交易数


import csv
import urllib.request
import threading
import time
def getStockList():stockList = []f = open('C:/Users/admin/PycharmProjects/pythonProject1/myidea/数据/stock.csv', 'r', encoding='utf-8')f.seek(0)reader = csv.reader(f)print(reader)for item in reader:stockList.append(item)f.close()return stockListdef downloadFile(url, filepath):time.sleep(1)try:r.urlretrieve(url, filepath)except Exception as e:print(e)passsem = threading.Semaphore(100)def downloadFileSem(url, filepath):with sem:downloadFile(url, filepath)urlStart = 'http://quotes.money.163.com/service/chddata.html?code='
urlEnd = '&end=20220423&fields=TCLOSE;HIGH;LOW;TOPEN;LCLOSE;CHG;PCHG;VOTURNOVER;VATURNOVER'if __name__ == '__main__':stockList = getStockList()stockList.pop(0)for s in stockList:scode = str(s[0])url = urlStart + ("0" if scode.startswith('6') else "1") + scode + urlEndfilepath = 'C:/Users/admin/PycharmProjects/pythonProject1/myidea/数据/api数据集/' + (str(s[1]) + '_' + scode) + '.csv'threading.Thread(target=downloadFileSem, args=(url, filepath)).start()A

Python练习实战股票网页数据相关推荐

  1. python之批量下载网页数据

    python之批量下载网页数据 要下载如下网页所示数据,一个一个点下载繁琐,我们用python代码来批量下载. python代码: import urllib.request # url reques ...

  2. 如何用python抓取文献_浅谈Python爬虫技术的网页数据抓取与分析

    浅谈 Python 爬虫技术的网页数据抓取与分析 吴永聪 [期刊名称] <计算机时代> [年 ( 卷 ), 期] 2019(000)008 [摘要] 近年来 , 随着互联网的发展 , 如何 ...

  3. python 实时抓取网页数据并进行 筛查

    python 实时抓取网页数据并进行 筛查 爬取数据的两种方法 : 方法 1 : 使用 requests.get() 方法,然后再解码,接着 调用 BeautifulSoup API 首先看 head ...

  4. python初学-爬取网页数据

    python初学-爬取网页数据 1,获取网页源代码 import urllib url = 'http://www.163.com'wp = urllib.urlopen(url) file_cont ...

  5. Python爬虫爬取网页数据并存储(一)

    Python爬虫爬取网页数据并存储(一) 环境搭建 爬虫基本原理 urllib库使用 requests库使用 正则表达式 一个示例 环境搭建 1.需要事先安装anaconda(或Python3.7)和 ...

  6. 实战干货!用 Python 爬取股票实时数据!

    今天我们一起来学习一个 Python 爬虫实战案例,我们的目标网站就是东方财富网,废话不多说,开搞 网站分析 东方财富网地址如下 http://quote.eastmoney.com/center/g ...

  7. 用 Python 爬取股票实时数据

    今天我们一起来学习一个 Python 爬虫实战案例,我们的目标网站就是东方财富网,废话不多说,开搞 网站分析 东方财富网地址如下 http://quote.eastmoney.com/center/g ...

  8. python如何爬虫网页数据-python爬虫——爬取网页数据和解析数据

    1.网络爬虫的基本概念 网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序. 只要浏览器能够做的事情,原则上,爬虫都能够做到. ...

  9. python抓取股票竞价数据_Python 抓取新浪财经股票数据

    新浪并未提供 API,但我们可以通过抓包来获取实时或历史行情数据. 实时行情 比如我们可以通过浏览器访问: http://hq.sinajs.cn/?format=text&list=sh60 ...

  10. python爬虫获取的网页数据为什么要加[0-Python爬虫实战1-解决需要爬取网页N秒后的内容的需求...

    -------谢谢您的参考,如有疑问,欢迎交流 前引: 当你需要爬取的页面内容在访问页面5秒后才会出现, 这时使用python的requests模块就很难爬取到你想要的内容了. requests和se ...

最新文章

  1. dos命令关闭所有dos窗口
  2. win7系统自带截图工具快捷键是什么?怎么设置快捷键
  3. 书评:精通Lambda:多核世界中的Java编程
  4. 鸿蒙os下载到电脑上,鸿蒙系统pc版下载2.0
  5. SQL Server2012 安装方法
  6. python字典属于无序序列_Python序列结构--字典
  7. Java基础--多态
  8. AI版“大家来找茬”上线,究竟谁是真人,谁是GAN生成的假脸?
  9. 利用Swipejs轻松实现手机上的图片手势切换
  10. Android系统在新进程中启动自定义服务过程(startService)的原理分析
  11. css怎么查找,查找CSS样式
  12. 解决:在ubuntu下安装R语言ks包时的error:configuration failed for package ‘rgl’
  13. 软件开发人员如何自我学习?
  14. 基于人脸识别的考勤系统
  15. 传统安防互联网化无插件直播分析及解决方案
  16. c语言梅森素数求完数,梅森素数与完全数.doc
  17. 怎样训练左右手协调_教你克服学钢琴时左右手协调的问题
  18. 基于Vue+SpringBoot智慧校园疫情防控系统(PC端、手机端)--附源码
  19. matlab批量处理文件夹中的csv文件(读取、处理、输出)
  20. 《Adobe Acrobat DC经典教程》—第1章1.7节使用工具栏

热门文章

  1. 行政执法岗、基层岗申论必背
  2. 【SpringCloud 2021.0.0】12、路由网关Gateway之简介 (spring-boot 2.6.3)
  3. 启用计算机上的无线,如何使用命令提示符打开或关闭计算机上的wifi
  4. Windows Server 2019 配置DHCP
  5. access汇总含义_access的用法总结大全
  6. Spring注解开发
  7. vs code语言模式自动检测设置
  8. 贪吃蛇项目难还是2048难c语言,贪吃蛇大战2048好玩吗 贪吃蛇大战2048玩法简介
  9. 新闻稿标题写作中的五大技巧
  10. WAMP 建立配置自己的网站