3.业绩排行        4.基金评级        5.基金经理        6.基金公司

@@@@关于这几部分数据下面用两种方案进行详细解析,先不讲解 直接上代码 有需要的朋友可以详细聊聊

第一种方案

# 开放基金排行from selenium.webdriver.chrome.options import Options
from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
import pandas as pd
from bs4 import BeautifulSoup
import time
import datetime
url_dict = {"全部":"http://fund.eastmoney.com/data/fundranking.html#tall;c0;r;szzf;pn10000;ddesc;qsd20191227;qed20201227;qdii;zq;gg;gzbd;gzfs;bbzt;sfbb","股票型": "http://fund.eastmoney.com/data/fundranking.html#tgp;c0;r;szzf;pn10000;ddesc;qsd20191227;qed20201227;qdii;zq;gg;gzbd;gzfs;bbzt;sfbb","混合型": "http://fund.eastmoney.com/data/fundranking.html#thh;c0;r;szzf;pn10000;ddesc;qsd20191227;qed20201227;qdii;zq;gg;gzbd;gzfs;bbzt;sfbb","债券型": "http://fund.eastmoney.com/data/fundranking.html#tzq;c0;r;szzf;pn10000;ddesc;qsd20191227;qed20201227;qdii;zq;gg;gzbd;gzfs;bbzt;sfbb","指数型": "http://fund.eastmoney.com/data/fundranking.html#tzs;c0;r;szzf;pn10000;ddesc;qsd20191227;qed20201227;qdii;zq;gg;gzbd;gzfs;bbzt;sfbb","QDII":"http://fund.eastmoney.com/data/fundranking.html#tqdii;c0;r;s6yzf;pn10000;ddesc;qsd20191227;qed20201227;qdii;zq;gg;gzbd;gzfs;bbzt;sfbb","LOF":"http://fund.eastmoney.com/data/fundranking.html#tlof;c0;r;s6yzf;pn10000;ddesc;qsd20191227;qed20201227;qdii;zq;gg;gzbd;gzfs;bbzt;sfbb","FOF":"http://fund.eastmoney.com/data/fundranking.html#tfof;c0;r;s6yzf;pn10000;ddesc;qsd20191227;qed20201227;qdii;zq;gg;gzbd;gzfs;bbzt;sfbb"
}thead = ["基金代码", "基金简称", "日期", "单位净值", "累计净值", "日增长率", "近1周", "近1月","近3月", "近6月", "近1年", "近2年", "近3年", "今年来", "成立来", "自定义", "手续费"]def getData(key, url, xlsWriter):chrome_options = webdriver.ChromeOptions()chrome_options.add_argument('--headless') chrome_options.add_argument('--disable-gpu')chrome_options.add_argument('user-agent= {}'.format('Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 \(KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36'))driver = webdriver.Chrome(options=chrome_options,executable_path="C:/Users/LENOVO/AppData/Local/Google/Chrome/Application/chromedriver.exe") driver.get(url)time.sleep(10)soup = BeautifulSoup(driver.page_source)dbtable = soup.findAll(name="table", attrs={"id": "dbtable"})all_dict = {}for i in range(len(thead)):all_dict[thead[i]] = []trs_item = dbtable[0].tbody.findAll(name="tr")for tr_item in trs_item:ids = tr_item.findAll(name="td")for i in range(len(thead)):all_dict[thead[i]].append(ids[i + 2].text)pd.DataFrame(all_dict).to_excel(excel_writer=xlsWriter, sheet_name=key,index=None)print("%s,nums=%d,%s" % (key, len(all_dict[thead[i]]), url))driver.close()if __name__ == "__main__":today = datetime.datetime.now().strftime('%Y%m%d')xlsWriter = pd.ExcelWriter("wealth%s.xls"%today)  # xlsfor key, url in url_dict.items():getData(key, url, xlsWriter)xlsWriter.close()

第二种方案

import os
import re
import sys
import time
import random
import datetime
import pandas as pdimport urllib.request
import requests
from bs4 import BeautifulSoup
from pyquery import PyQueryfrom selenium import webdriver
from selenium.webdriver.chrome.options import Options
from lxml import etree
import pymysql
from sqlalchemy import create_engine# 基金经理
url_list = []
for i in range(1,57):url_list.append("https://fund.eastmoney.com/Data/FundDataPortfolio_Interface.aspx?dt=14&mc=returnjson&ft=all&pn=50&pi={}&sc=abbname&st=asc".format(i))def find_manager(url):page = urllib.request.urlopen(url)   contents = page.read()   soup = BeautifulSoup(contents,"html.parser")  # soup.text.find("data")find_manager_info1 = []find_manager_info2 = []find_manager_info3 = []find_manager_info4 = []find_manager_info5 = []find_manager_info6 = []find_manager_info7 = []find_manager_info8 = []find_manager_info9 = []find_manager_info10 = []find_manager_info11 = []find_manager_info12 = []for find_manager_info in json.loads(soup.text[soup.text.find("{data:")+6:soup.text.find("]],")+2]):find_manager_info1.append(find_manager_info[0])find_manager_info2.append(find_manager_info[1])find_manager_info3.append(find_manager_info[2])find_manager_info4.append(find_manager_info[3])find_manager_info5.append(find_manager_info[4])find_manager_info6.append(find_manager_info[5])find_manager_info7.append(find_manager_info[6])try:find_manager_info8.append(find_manager_info[7])except:find_manager_info8.append(" ")try:find_manager_info9.append(find_manager_info[8])except:find_manager_info9.append(" ")try:find_manager_info10.append(find_manager_info[9])except:find_manager_info10.append(" ")try:find_manager_info11.append(find_manager_info[10])except:find_manager_info11.append(" ")try:find_manager_info12.append(find_manager_info[11])except:find_manager_info12.append(" ")find_manager_info = pd.DataFrame([find_manager_info1,find_manager_info2,find_manager_info3,find_manager_info4,find_manager_info5,find_manager_info6,find_manager_info7,find_manager_info8,find_manager_info9,find_manager_info10,find_manager_info11,find_manager_info12]).Tfind_manager_info.columns = ['find_manager_info1','find_manager_info2','find_manager_info3','find_manager_info4','find_manager_info5','find_manager_info6','find_manager_info7','find_manager_info8','find_manager_info9','find_manager_info10','find_manager_info11','find_manager_info12']return find_manager_infofind_manager_base = pd.DataFrame()
find_manager_data = pd.DataFrame()
for urli in url_list:time.sleep(2)try:find_manager_data = find_manager(url=urli)except:passfind_manager_base = pd.concat([find_manager_data,find_manager_base])find_manager_base = find_manager_base.drop_duplicates(subset=['find_manager_info1', 'find_manager_info2','find_manager_info3','find_manager_info4'], keep='first')find_manager_base = find_manager_base.reset_index(drop=True)
find_manager_base = find_manager_base.astype(object).where(pd.notnull(find_manager_base), None)

Python 爬虫 基金排行 基金评级 基金经理 等核心基金数据爬虫相关推荐

  1. python如何设计爬虫界面软件_Python+PyQt5设计B站视频数据爬虫小程序

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于菜J学Python ,作者J哥 前言 目前,市场上有大量 Python图形用户界面( ...

  2. python 汽车行业数据库_python 实现汽车之家车型数据爬虫

    爬虫保存数据库的样子: 详细数据在json_text字段里面 安装使用方法:git clone https://github.com/shancang/spider.git pip install - ...

  3. LYVC揭秘硅谷核心基金圈投资游戏规则

    本文讲的是LYVC揭秘硅谷核心基金圈投资游戏规则[IT168 资讯]从最早期的半导体企业,到Intel.苹果等巨头首次展露锋芒,再到2000年的互联网泡沫破灭,随着经济与科技形势不断起伏,硅谷风险投资 ...

  4. 网易微专业python数据分析统计服_40套大数据云计算高级实战精品,数据分析,数据仓库,数据爬虫,项目实战,用户画像, ......

    40套大数据云计算高级实战精品,数据分析,数据仓库,数据爬虫,项目实战,用户画像,日志分析,Hadoop,Flink,Spark,Kafka,Storm,Docker,ElaticStack等视频教程 ...

  5. Python爬虫-2019年我破解了商标网数据爬虫-破解反爬技术那些事情

    Python爬虫-2019年我破解了商标网!数据爬虫-破解反爬技术那些事情 由于自己一直做Python大数据挖掘技术开发,最近有不少的朋友要做大数据分析,找我帮忙商标网的数据挖掘,实现爬取中国商标网全 ...

  6. python爬虫爬取雪球网_Python爬虫爬取天天基金网基金排行

    本文以天天基金网为例,爬取网站上的基金排行并存储在本地记事本中和MongoDB数据库中. 打开网页我们看到每页最多显示50个基金信息,在源代码中,我们发现其他页码没有跳转链接.但是我们选择右下角不分页 ...

  7. python获取实时基金数据由银河证券提供_我用Python写了个金融数据爬虫,半小时干了组里实习生一周的工作量...

    原标题:我用Python写了个金融数据爬虫,半小时干了组里实习生一周的工作量 最近,越来越多的研究员.基金经理甚至财务会计领域的朋友,向小编咨询:金融人需要学Python么? 事实上在2019年,这已 ...

  8. 4.4 基金排行数据(Python)

    获取基金排行数据(Python) 目录 一.分析网站 1. 确定要获取的数据 点击<基金排行> 此页数据是要获取的 2. 确定数据来源 打开网页开发者工具 点击 < Network ...

  9. Python获取2021 获取全部基金信息 天天基金网 东方财富 基金排行

    Python获取 2021获取全部基金信息 天天基金网 东方财富 基金排行 通过URL获取基金信息,然后切割成list的list,然后转换成表 def get_fund_data():"&q ...

最新文章

  1. 美法加三位科学家获2018诺贝尔物理学奖
  2. C Primer Plus 第10章 数组和指针 10.5 指针操作
  3. Openstack Restful API 开发框架 Paste + PasteDeploy + Routes + WebOb
  4. 【转】MySQL分库分表环境下全局ID生成方案
  5. 通信原理-随相数字信号的最佳接收
  6. 避免出现anr的方法_ANR原因及解决方法
  7. 线程池原理与自定义线程池
  8. vue项目职责_进大厂兼职的机会来了!腾讯微校项目招人了!
  9. Unknown encoder ‘libx264‘的解决方法
  10. 开源硬件基金是如何运作的_如何在没有任何风险投资资金的情况下通过开源硬件赚钱
  11. 【重点】程序员面试金典——番外篇之数组中的逆序对
  12. mysql如何进行数据透视,mysql-如何优化数据透视表的条件检查?
  13. JS中的数组排序函数sort()
  14. 开发人员系统功能设计常用办公软件分享
  15. 智慧社区解决方案_智慧社区建设方案——汇新云
  16. php eregi 返回值含义,Deprecated: Function eregi() is deprecated php5.3开始不支持eregi()函数...
  17. Tesseract-OCR识别中文与训练字库
  18. 2款 新版月老在线牵盲盒+交友盲盒+小纸条盲盒+交友匹配+同城交友小程序源学习
  19. Tomcat 如何生成SSL安全证书(拜读、学习、记录) and 如何用OpenSSl生成服务端证书 other 简述cer和crt后缀的证书的区别
  20. Android Pitfall - 扒一扒RadioGroup 和 RadioButton

热门文章

  1. MySQL卸载不干净回不到初始安装页面(MySQL Connector Net卸载不了),重装报错Database initialization failed等问题解决办法
  2. Javascript中的恒等运算符与等于运算符的区别
  3. 质量管理体系认证的标准
  4. 揭秘:特步集团副总裁肖利华的亲笔签名感言
  5. Python pytest main.py文件报错main.py: error: unrecognized arguments: --html=./test_report.html问题解决
  6. 电子科技大学随机过程和电子科技大学矩阵理论矩阵理论总结
  7. python存储mp3信息_【Python】 获取MP3信息replica
  8. 将yyyyMMdd格式化为yyyy-MM-dd日期格式及DateFormateUtils、DateUtils的使用
  9. 论文,罗马符,阿拉伯数字,页码设置
  10. layui富文本编辑器(layedit)的使用