简述

前几天在网上看了一份代码,非常认真地学习了一波。
对于一些瑕疵做了修改。

旧版本的问题

  • 下载下来的文件每隔20行就出现一个column
  • 然后下载次数较多的话,会被别人给禁一会
  • 之前的代码真的是10行。。

新版本中修复了这样的bug

import pandas as pd
import requests
import randomurl = 'http://s.askci.com/stock/a/?reportTime=2017-12-31&pageNum=%d'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36','Referer': 'http://s.askci.com/stock/a/?reportTime=2017-12-31&pageNum=178'
}
IPs = [{'HTTP': 'HTTP://118.190.95.35:9001'},{'HTTP': 'HTTP://61.135.217.7:80'},{'HTTP': 'HTTP://116.1.11.19:80'}]
for i in range(1, 179):# 返回整个网页中的表格列表dflist = pd.read_html(requests.get(url % i, headers=headers, proxies=random.choice(IPs)).text)# 经观察可以发现是第四个就是我们想要的表格df = dflist[3]df.to_csv('askci.csv', mode='a', header=1 if i == 1 else None, index=0, encoding='utf_8_sig')

【修改版】10行代码爬取A股上市公司信息相关推荐

  1. python爬上市公司信息_实战项目 1:5 行代码爬取国内所有上市公司信息

    实战项目 1:5 行代码爬取国内所有上市公司信息 Python入门爬虫与数据分析 在正式开始这门专栏课的学习之前,我们先来看一个简单的爬虫案例.兴趣是最好的老师,当你对爬虫产生兴趣的时候,才会更有动力 ...

  2. 10行代码爬取全国所有A股/港股/新三板上市公司信息

    参加 2018 AI开发者大会,请点击 ↑↑↑ 作者 | 高级农民工 本文已获原作者授权,如需转载,请联系原作者. 摘要: 我们平常在浏览网页中会遇到一些表格型的数据信息,除了表格本身体现的内容以外, ...

  3. 10行代码爬取英雄联盟皮肤全套。6不6?

    引言    王者荣耀大家都玩过吧,没玩过的也应该听说过,作为时下最火的手机MOBA游戏,咳咳,好像跑题了.我们今天的重点是爬取王者荣耀所有英雄的所有皮肤,而且仅仅使用20行Python代码即可完成. ...

  4. Python用10行代码爬取大批美女图片

    说到美女,第一个想到的就是美女云集的相亲网站了.所以今天也是选取某个相亲网站作为素材,爬取美女图片. 1.准备工作 首先需要一个相亲网站的账号,我这里选取的是"我主良缘".注册登陆 ...

  5. 50 行代码爬取链家租房信息

    最近自己开始学习数据分析的技术,但数据分析最重要的就是数据.没有数据怎么办?那就自己爬一些数据.大家一定要记得爬虫只是获取数据的一种手段,但如果不用一系列科学的方式去分析这些数据,那么爬去下来的数据是 ...

  6. Python爬虫利用18行代码爬取虎牙上百张小姐姐图片

    Python爬虫利用18行代码爬取虎牙上百张小姐姐图片 下面开始上代码 需要用到的库 import request #页面请求 import time #用于时间延迟 import re #正则表达式 ...

  7. 简单20行代码爬取王者荣耀官网1080p壁纸

    简单20行代码爬取王者荣耀官网1080p壁纸 # -*- coding: utf-8 -*- # @Time : 2020/12/13 18:08 # @Author : ningfangcong i ...

  8. Python25行代码爬取豆瓣排行榜数据

    Python25行代码爬取豆瓣排行榜数据 只需要用到requests, re ,csv 三个库即可. code import re import requests import csv url = ' ...

  9. python:利用20行代码爬取网络小说

    文章目录 前言 一.爬虫是什么? 二.实现过程 总结 提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 前言 今天,来给大家一个分享一下如何使用20爬虫行代码爬取网络小说(这里我们以龙 ...

最新文章

  1. jquery添加的html元素按钮为什么不执行类样式绑定的click事件
  2. JavaScript类型判断
  3. 自己写的TimeHelper javal时间工具
  4. VHDL编码器和译码器的设计
  5. 本地方法(JNI)——访问数组元素+错误处理
  6. c语言循环10次代码,C语言教学(七-上)for循环
  7. 嵌入式Linux交叉开发环境建立-NFS【ZT】
  8. 修改 decimal 默认值为0.00 sql_书写高性能SQL语句技巧,网友都说好
  9. maven项目pom中scope类型
  10. 6.微服务:从设计到部署 --- 选择部署策略
  11. 从零基础入门Tensorflow2.0 ----二、4.3 wide deep 模型(多输入)
  12. Navicat Premium 12.0.29中文版64位+破解补丁
  13. 关闭chrome 的内置PDF 查看器
  14. layer弹出层不居中
  15. 如何用友远程到服务器,怎么安装用友T3远程通
  16. 【小编教你有效的保护视力】
  17. 阿里云企业邮箱2019
  18. 19.flowable 任务委派
  19. 夜天之书 #19 The ZeroMQ Community
  20. 小女子做销售 四大温柔手段

热门文章

  1. 大数据人力资源服务平台正式上线
  2. Axis,axis2,Xfire以及cxf对比 (转)
  3. 【转】Android Studio系列教程一--下载与安装
  4. 修改文档框架:word-多级列表与标题样式相结合
  5. C#操作mysql中临时表不自动删除
  6. 自动装箱与自动拆箱的一些问题
  7. Grad-CAM (CNN可视化) Python示例
  8. Eclipse分栏显示同一个代码文件的设置
  9. (转载)机器学习知识点(二十九)LDA入门级学习笔记
  10. 1.9 函数-C++编程模块