教你用python实现34行代码爬取东方财富网信息,爬虫之路,永无止境!!

代码展示:


开发环境
windows10
python3.6
开发工具
pycharm
weddriver

selenium、lxml、openpyxl、time

安装webdriver

首先要安装webdriver插件,本文以谷歌浏览器为例,点开谷歌浏览器,点击右上角三个点,然后点击帮助,然后点击关于Google Chrome,查看浏览器的版本,然后点击网址http://npm.taobao.org/mirrors/chromedriver寻找自己浏览器对应的版本进行下载,下载之后将chromedriver.exe的文件最好放在你python解释器的同级目录下

进行标签定位


数据都在tbody标签里,tr代表一行的数据,有20个tr标签

构造一下网页翻页

dirver.find_element_by_xpath(r’//*[@id=“main-table_paginate”]/a[2]’).click()

开发思路:

1.自动化获取源码
2.xpath获取标签信息
3.将信息添加到表格
4.自动化翻页
5.循环上述操作

源码展示

import time
from openpyxl import Workbook
from lxml import etree
from selenium import webdriverdef main():url = r'http://quote.eastmoney.com/center/gridlist.html#hs_a_board'wb = Workbook()sheet = wb.activesheet.append(['序号','代码','名称','最新价','涨跌幅','涨跌额','成交量(手)','成交额','振幅','最高','最低','今开','昨收','量比','换手率','市盈率(动态)','市净率'])dirver = webdriver.Chrome(executable_path=r'D:\python\chromedriver.exe')dirver.get(url)count = 1while True:response = dirver.page_sourcehtml_str = etree.HTML(response)for i in range(1,21):odd = html_str.xpath(r'//*[@id="table_wrapper-table"]/tbody/tr[{}]//text()'.format(i))del odd[3:8]sheet.append(odd)print('******正在下载{}页数据******'.format(count))time.sleep(5)dirver.find_element_by_xpath(r'//*[@id="main-table_paginate"]/a[2]').click()count += 1time.sleep(5)if count == 4:breakwb.save('东方财富网信息采集.xlsx')print('****全部数据下载完成****')if __name__ == '__main__':main()

大家还可以继续开发

比如沪深A股的网址http://quote.eastmoney.com/center/gridlist.html#hs_a_board
上证A股的网址http://quote.eastmoney.com/center/gridlist.html#sh_a_board
区别是后面不一样
只要将url地址变一下就可以爬取其他股票信息
自动化还是很好用的,缺点有点慢,爬取所有股票信息只是时间问题了



代码仅供学习!

祝大家学习python顺利!

教你用python实现34行代码爬取东方财富网信息,爬虫之路,永无止境!!相关推荐

  1. 真厉害用python只要50行代码爬取黑丝美眉纯欲高清图

    要说最美好的欲望莫过于看黑丝美眉. 一.技术路线 requests:网页请求 BeautifulSoup:解析html网页 re:正则表达式,提取html网页信息 os:保存文件 import re ...

  2. 用python爬虫爬取东方财富网信息网页信息_爬取东方财富网数据的网页分析

    自学Python已有3个月之多,浏览无数大神的佳作,收获颇丰.当初自学python就是为了学习爬虫,爬取网站上好看妹子的图片--[流口水][流口水] 言归正传,近期学习量化交易知识,发现东方财富网(e ...

  3. Python用10行代码爬取大批美女图片

    说到美女,第一个想到的就是美女云集的相亲网站了.所以今天也是选取某个相亲网站作为素材,爬取美女图片. 1.准备工作 首先需要一个相亲网站的账号,我这里选取的是"我主良缘".注册登陆 ...

  4. Python爬虫利用18行代码爬取虎牙上百张小姐姐图片

    Python爬虫利用18行代码爬取虎牙上百张小姐姐图片 下面开始上代码 需要用到的库 import request #页面请求 import time #用于时间延迟 import re #正则表达式 ...

  5. python爬上市公司信息_实战项目 1:5 行代码爬取国内所有上市公司信息

    实战项目 1:5 行代码爬取国内所有上市公司信息 Python入门爬虫与数据分析 在正式开始这门专栏课的学习之前,我们先来看一个简单的爬虫案例.兴趣是最好的老师,当你对爬虫产生兴趣的时候,才会更有动力 ...

  6. python:利用20行代码爬取网络小说

    文章目录 前言 一.爬虫是什么? 二.实现过程 总结 提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 前言 今天,来给大家一个分享一下如何使用20爬虫行代码爬取网络小说(这里我们以龙 ...

  7. python pyquery不规则数据的抓取_爬虫神器之PyQuery实用教程(二),50行代码爬取穷游网...

    爬虫神器之PyQuery实用教程(二),50行代码爬取穷游网 前言 上篇文章 PyQuery (一) 回顾.今天来介绍具体 PyQuery 的使用方法. 穷游网目标与分析 开始之前,按照之前的套路一步 ...

  8. Python25行代码爬取豆瓣排行榜数据

    Python25行代码爬取豆瓣排行榜数据 只需要用到requests, re ,csv 三个库即可. code import re import requests import csv url = ' ...

  9. pyquery获取不到网页完整源代码_爬虫神器之PyQuery实用教程(二),50行代码爬取穷游网...

    爬虫神器之PyQuery实用教程(二),50行代码爬取穷游网 前言 上篇文章 PyQuery (一) 回顾.今天来介绍具体 PyQuery 的使用方法. 穷游网目标与分析 开始之前,按照之前的套路一步 ...

最新文章

  1. Linux下redis安装部署
  2. YESLAB的数据中心课程介绍
  3. PowerShell图形化编程1-原理
  4. 服务器更换硬盘+内存
  5. C# FTP下载文件
  6. Cell子刊:MRI有助于揭示睡眠之谜
  7. pytorch 安装方法
  8. java堆外内存6_Java堆外内存排查小结
  9. Mac MongoDB未正常关闭导致重启失败
  10. 这些面试中经常被问到的线程池问题,你都能回答的上来吗?
  11. m3u8手机批量转码_手机怎么把m3u8格式转换成mp4格式?
  12. mysql in 索引_关于MySQL种的in函数到底走不走索引、我和同事差点大打出手!
  13. 图解LDO电路和DC-DC电路,掌握芯片选型
  14. Comsumer的一些解释
  15. pymilvus基操
  16. 《金融时报》:技术的“可为”与“不可为”
  17. 上海滩玩起了黑科技,苏宁Biu店带你刷脸扫货
  18. Google Map开发之实战
  19. C语言判断完全平方数(经典代码)
  20. 涉及 GitHub、GitLab,研究人员发现 70 个 Web 缓存中毒漏洞;微软:许多攻击者仍对 Log4j 漏洞加以利用;VS 2022 新版发布 | 开源日报

热门文章

  1. 笔记:指数函数的瞬时效用函数的情况
  2. 从第三方网站获取K线
  3. ztree中获取某节点的所有叶子节点
  4. C语言编写strcpy函数
  5. vue x 兼容iphone_H5移动端适配IphoneX等机型
  6. Jetty是什么?Jetty介绍以及配置
  7. Dojo Learning: Dojo.data
  8. arcgis墨卡托与经纬度之间的互相转换
  9. 基于php民宿管理系统,基于php的某民宿在线管理平台的设计与实现-软件工程专业论文.docx...
  10. (毕老师)html视频笔记