利用国庆8天假期,从头开始学爬虫,现在分享一下自己项目过程。

技术思路:

1,使用scrapy爬去证监会反馈意见

  • 分析网址特点,并利用scrapy shell测试选择器
  • 加载代理服务器:IP池
  • 模拟浏览器:user-agent
  • 编写pipeitem,将数据写入数据库中

2,安装并配置mysql

  • 安装pymysql
  • 参考mysql手册,建立数据库以及表格

3,利用进行数据分析

  • 使用对反馈意见进行整理
  • 利用jieba库进行分析,制作财务报表专用字典,获取词汇以及其频率
  • 使用pandas分析数据并作图
  • 使用tableau作图

分析思路:

  • 分析公司名字是否含有地域信息
  • 分析反馈意见的主要焦点:财务与法律

核心代码:

  • 爬虫核心代码
# -*- coding: utf-8 -*-
import scrapy
from scrapy.selector import Selector
from fkyj.items import  FkyjItem
import  urllib.request
from scrapy.http import HtmlResponse
from scrapy.selector import HtmlXPathSelectordef gen_url_indexpage():  #证监会的网站是通过javascript生成的,因此网址无法提取,必须是自己生成pre = "http://www.csrc.gov.cn/pub/newsite/fxjgb/scgkfxfkyj/index"url_list = []for i in range(25):if i ==0:url = pre+".html"url_list.append(url)else:url = pre+"_"+str(i)+".html"url_list.append(url)return url_listclass Spider1Spider(scrapy.Spider):name = 'spider1'allowed_domains = ['http://www.csrc.gov.cn']start_urls = gen_url_indexpage()def parse(self, response):item = FkyjItem()page_lst  = response.xpath('//ul[@id="myul"]/li/a/@href').extract()name_lst =  response.xpath('//ul[@id="myul"]/li/a/@title').extract()date_lst= response.xpath('//ul[@id="myul"]/li/span/text()').extract()for i in range(len(name_lst)):item["name"] = name_lst[i]item["date"] = date_lst[i]url_page = "http://www.csrc.gov.cn/pub/newsite/fxjgb/scgkfxfkyj" +page_lst[i]pre_final = "http://www.csrc.gov.cn/pub/newsite/fxjgb/scgkfxfkyj/" + page_lst[i].split("/")[1]res =  Selector(text= urllib.request.urlopen(url_page).read().decode("utf-8"))#给res装上HtmlXPathSelectorurl_extract = res.xpath("//script").re(r'<a href="(\./P\d+?\.docx?)">|<a href="(\./P\d+?\.pdf)">')[0][1:]url_final = pre_final+ url_extractprint ("-"*10,url_final,"-"*10)item["content"] = ""try:file =urllib.request.urlopen(url_final).read()filepath = r"C:\\Users\\tc\\fkyj\\fkyj\\files\\"filetype = url_extract.split(".")[1]with open(filepath+item["name"]+"."+filetype,'wb') as f:f.write(file)except urllib.request.HTTPError:item["content"] = "wrong:HTTPERROR"yield item这里不足之处在于没有体现针对不同网站书写不同代码,建议建立不同callback函数建议思路:parse():正对初始网址parse_page:针对导航页parse_item:提取公司名称与日期parse_doc:提取doc文档

---------------------------------------------------------------------pipeitem代码-------------------------------------------------------------
import pymysql

class FkyjPipeline(object):    def __init__(self):        #连接数据库        self.con = pymysql.connect(host='localhost', port=3306, user='root', passwd="密码",db="数据库名字")    def process_item(self, item, spider):        name = item["name"]        date = item["date"]        content = item["content"]        self.con.query("Insert Into zjh_fkyj.fkyj(name,date_fk,content) Values('" + name + "','" + date + "','"+content+"')")        #必须要提交,否则没用        self.con.commit()        return item

    def close_spider(self):        #在运行时关闭数据库        self.con.close()

2,分析用代码--主要部分

一下代码在jupyter notebook上运行

In [9]:
import pandas as pd

In [10]:
data =pd.read_csv(r"C:\\Users\\tc\\fkyj\\fkyj.csv")

In [11]:
data.columns

Out[11]:
Index(['Unnamed: 0', 'id', 'name', 'date', 'content'], dtype='object')

In [11]:
data.drop(["Unnamed: 0",'id'],axis=1,inplace = True)

In [12]:
def get_year_month(datetime):return "-".join(datetime.split("-")[:2])

In [13]:
group_month_data = data.groupby(data["date"].apply(get_year_month)).count()

In [25]:
get_year_month("2017-2-1")

Out[25]:
'2017-2'

In [6]:
%matplotlib

Using matplotlib backend: Qt5Agg

In [49]:
group_month_data["name"].plot(kind="bar")

Out[49]:
<matplotlib.axes._subplots.AxesSubplot at 0x14babc679b0>

In [36]:
import matplotlib.pyplot as plt

In [38]:
from matplotlib import font_manager
zh_font = font_manager.FontProperties(fname=r'c:\windows\fonts\simsun.ttc', size=14)

In [66]:
fig, ax = plt.subplots()
width  =0.35
ax.set_xticks(ticks=range(len(group_month_data)))
plt.xticks(rotation=20)
res = ax.bar(left = range(len(group_month_data)),height=group_month_data["name"])
ax.set_title("证监会反馈意见",fontproperties=zh_font)
ax.set_ylabel("数量",fontproperties=zh_font)
ax.set_xticklabels( i for i in  (group_month_data.index.values))
plt.show()

In [47]:
ax.set_xticklabels(group_month_data.index.values)
plt.show()

In [50]:
group_month_data.index.values

Out[50]:
array(['2016-10', '2016-11', '2016-12', '2017-01', '2017-02', '2017-03','2017-04', '2017-05', '2017-06', '2017-07', '2017-08', '2017-09'], dtype=object)

In [8]:
china_map = [("北京","|东城|西城|崇文|宣武|朝阳|丰台|石景山|海淀|门头沟|房山|通州|顺义|昌平|大兴|平谷|怀柔|密云|延庆"),
("上海","|黄浦|卢湾|徐汇|长宁|静安|普陀|闸北|虹口|杨浦|闵行|宝山|嘉定|浦东|金山|松江|青浦|南汇|奉贤|崇明"),
("天津","|和平|东丽|河东|西青|河西|津南|南开|北辰|河北|武清|红挢|塘沽|汉沽|大港|宁河|静海|宝坻|蓟县"),
("重庆","|万州|涪陵|渝中|大渡口|江北|沙坪坝|九龙坡|南岸|北碚|万盛|双挢|渝北|巴南|黔江|长寿|綦江|潼南|铜梁|大足|荣昌|壁山|梁平|城口|丰都|垫江|武隆|忠县|开县|云阳|奉节|巫山|巫溪|石柱|秀山|酉阳|彭水|江津|合川|永川|南川"),
("河北","|石家庄|邯郸|邢台|保定|张家口|承德|廊坊|唐山|秦皇岛|沧州|衡水"),
("山西","|太原|大同|阳泉|长治|晋城|朔州|吕梁|忻州|晋中|临汾|运城"),
("内蒙古","|呼和浩特|包头|乌海|赤峰|呼伦贝尔盟|阿拉善盟|哲里木盟|兴安盟|乌兰察布盟|锡林郭勒盟|巴彦淖尔盟|伊克昭盟"),
("辽宁","|沈阳|大连|鞍山|抚顺|本溪|丹东|锦州|营口|阜新|辽阳|盘锦|铁岭|朝阳|葫芦岛"),
("吉林","|长春|吉林|四平|辽源|通化|白山|松原|白城|延边"),
("黑龙江","|哈尔滨|齐齐哈尔|牡丹江|佳木斯|大庆|绥化|鹤岗|鸡西|黑河|双鸭山|伊春|七台河|大兴安岭"),
("江苏","|南京|镇江|苏州|南通|扬州|盐城|徐州|连云港|常州|无锡|宿迁|泰州|淮安"),
("浙江","|杭州|宁波|温州|嘉兴|湖州|绍兴|金华|衢州|舟山|台州|丽水"),
("安徽","|合肥|芜湖|蚌埠|马鞍山|淮北|铜陵|安庆|黄山|滁州|宿州|池州|淮南|巢湖|阜阳|六安|宣城|亳州"),
("福建","|福州|厦门|莆田|三明|泉州|漳州|南平|龙岩|宁德"),
("江西","|南昌市|景德镇|九江|鹰潭|萍乡|新馀|赣州|吉安|宜春|抚州|上饶"),
("山东","|济南|青岛|淄博|枣庄|东营|烟台|潍坊|济宁|泰安|威海|日照|莱芜|临沂|德州|聊城|滨州|菏泽"),
("河南","|郑州|开封|洛阳|平顶山|安阳|鹤壁|新乡|焦作|濮阳|许昌|漯河|三门峡|南阳|商丘|信阳|周口|驻马店|济源"),
("湖北","|武汉|宜昌|荆州|襄樊|黄石|荆门|黄冈|十堰|恩施|潜江|天门|仙桃|随州|咸宁|孝感|鄂州"),
("湖南","|长沙|常德|株洲|湘潭|衡阳|岳阳|邵阳|益阳|娄底|怀化|郴州|永州|湘西|张家界"),
("广东","|广州|深圳|珠海|汕头|东莞|中山|佛山|韶关|江门|湛江|茂名|肇庆|惠州|梅州|汕尾|河源|阳江|清远|潮州|揭阳|云浮"),
("广西","|南宁|柳州|桂林|梧州|北海|防城港|钦州|贵港|玉林|南宁地区|柳州地区|贺州|百色|河池"),
("海南","|海口|三亚"),
("四川","|成都|绵阳|德阳|自贡|攀枝花|广元|内江|乐山|南充|宜宾|广安|达川|雅安|眉山|甘孜|凉山|泸州"),
("贵州","|贵阳|六盘水|遵义|安顺|铜仁|黔西南|毕节|黔东南|黔南"),
("云南","|昆明|大理|曲靖|玉溪|昭通|楚雄|红河|文山|思茅|西双版纳|保山|德宏|丽江|怒江|迪庆|临沧"),
("西藏","|拉萨|日喀则|山南|林芝|昌都|阿里|那曲"),
("陕西","|西安|宝鸡|咸阳|铜川|渭南|延安|榆林|汉中|安康|商洛"),
("甘肃","|兰州|嘉峪关|金昌|白银|天水|酒泉|张掖|武威|定西|陇南|平凉|庆阳|临夏|甘南"),
("宁夏","|银川|石嘴山|吴忠|固原"),
("青海","|西宁|海东|海南|海北|黄南|玉树|果洛|海西"),
("新疆","|乌鲁木齐|石河子|克拉玛依|伊犁|巴音郭勒|昌吉|克孜勒苏柯尔克孜|博尔塔拉|吐鲁番|哈密|喀什|和田|阿克苏"),
("香港",""),
("澳门",""),
("台湾","|台北|高雄|台中|台南|屏东|南投|云林|新竹|彰化|苗栗|嘉义|花莲|桃园|宜兰|基隆|台东|金门|马祖|澎湖")]city_map = {}
for i in china_map:if i != "澳门" or i != "香港":city_map[i[0]] = i[1].split("|")[1:]elif i == "澳门" or i == "香港":city_map[i[0]] = ""

In [27]:
def get_province(name,con_loc = False):keys = city_map.keys()for j in keys:if j in name:province = jlocation  = "province"breakelse:for k in city_map[j]:if k in name:province = jlocation = "city"breakelse:province = "unknow"location = "unknow"if con_loc:return (province,location)else:return province
#count the name that contain the location

In [31]:
data["province"] = data["name"].apply(get_province)

In [13]:
data["name"][:5]

Out[13]:
0         名臣健康用品股份有限公司首次公开发行股票申请文件反馈意见
1         浙江捷众科技股份有限公司首次公开发行股票申请文件反馈意见
2    江苏天智互联科技股份有限公司创业板首次公开发行股票申请文件反馈意见
3     云南神农农业产业集团股份有限公司首次公开发行股票申请文件反馈意见
4        浙江台华新材料股份有限公司首次公开发行股票申请文件反馈意见
Name: name, dtype: object

In [32]:
data["province"][:20]

Out[32]:
0     unknow
1         浙江
2         江苏
3         云南
4         浙江
5         浙江
6     unknow
7     unknow
8         北京
9     unknow
10        江苏
11    unknow
12        北京
13    unknow
14    unknow
15        四川
16        江苏
17    unknow
18    unknow
19    unknow
Name: province, dtype: object

In [44]:
name_data = data.groupby(data["province"]).count()["name"]
fig, ax = plt.subplots()
width  =0.35
ax.set_xticks(ticks=range(len(name_data)))
plt.xticks(rotation=60)
res = ax.bar(left = range(len(name_data)),height= name_data)
ax.set_title("反馈意见--公司名称是否含有地域信息",fontproperties=zh_font)
ax.set_ylabel("数量",fontproperties=zh_font)
ax.set_xticklabels( [i for i in name_data.index.values],fontproperties=zh_font)
plt.show()

In [15]:
import jieba

In [16]:
jieba.load_userdict(r"C:\\ProgramData\\Anaconda3\\Lib\\site-packages\\jieba\\userdict.txt")

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\tc\AppData\Local\Temp\jieba.cache
Loading model cost 1.158 seconds.
Prefix dict has been built succesfully.

In [17]:
import re
def remove_rn(data):return re.sub("[\\n\\r]+","",data)
remove_rn("\r\n\r")

Out[17]:
''

In [18]:
data["content"] = data["content"].apply(remove_rn)

In [11]:
data["content"][:1]

Out[11]:
0    名臣健康用品股份有限公司首次公开发行股票申请文件反馈意见\r\r\n\r\r\n\r\r\n...
Name: content, dtype: object

In [17]:
remove_rn("\r\n\r45463")

Out[17]:
'45463'

In [14]:
data["content"] = data["content"].astype(str)

In [16]:
f1 = open(r"C:\Users\tc\Desktop\user_dict.txt",encoding ="utf-8")
f2 = open(r"C:\Users\tc\Desktop\userdict.txt","w")
for  i in f1.readlines():f2.write(i[:-1] + " 5 n\n")
f1.close()
f2.close()

In [23]:
list(jieba.cut("hellotc") )

Out[23]:
['hellotc']

In [19]:
type(pd.Series(list( jieba.cut(data["content"][1]))).value_counts())

Out[19]:
pandas.core.series.Series

In [ ]:
s = pd.Series([0 for i in len(data["content"])],index = )
for i in data["content"]:pd.Series(list( jieba.cut(data["content"][1]))).value_counts()

In [7]:
s1 = pd.Series(range(3),index = ["a","b","c"])
s2  = pd.Series(range(3),index = ["d","b","c"])
s1.add(s2,fill_value=0)

Out[7]:
a    0.0
b    2.0
c    4.0
d    0.0
dtype: float64

In [8]:
def add_series(s1,s2):r = {}s1 = s1.to_dict()s2 = s2.to_dict()common = set(s1.keys()).intersection(s2.keys())for i  in common:r[i] = s1[i]+s2[i]for j in set(s1.keys()).difference(s2.keys()):r[j] = s1[j]for k in set(s2.keys()).difference(s1.keys()):r[k] = s2[k]return pd.Series(r)

In [21]:
series_list = []
for   i  in data["content"]:series_list.append(pd.Series(list( jieba.cut(i))).value_counts())

In [23]:
start = pd.Series([0,0],index = ['a','b'])
for i in series_list:start = add_series(start,i)

In [26]:
start.sort_values()
start.to_csv(r"C:\\Users\\tc\\fkyj\\rank_word.csv")

3,分析结果--部分
(1)证监会财务关注要点

转载于:https://www.cnblogs.com/run-tc/p/7641474.html

爬去证件会的首次公开发行反馈意见并做词频分析相关推荐

  1. python爬取微博评论并做词频分析_爬取李子柒微博评论并分析

    爬取李子柒微博评论并分析 微博主要分为网页端.手机端和移动端.微博网页版反爬太厉害,因此选择爬取手机端. 1 需求 爬取李子柒微博中视频的评论信息,并做词频分析. 2 方法 2.1 运行环境 运行平台 ...

  2. python爬去segementfault上的博客文章

    利用Scray框架爬去segementfault上的保存到数据库然后发送到自己的邮箱 先显示部分源码: coding:utf-8 ! /usr/bin/python ''' Author fiz Da ...

  3. 爬去动态网站今日头条图片集

    如何爬去爬去今日头条动态数据, 网上有很多教程,我就不在啰嗦了 第一步如何分析得到存储数据的真实url 首先打开https://www.toutiao.com/,搜索街拍,会跳转https://www ...

  4. web展示爬去知乎、微博文章和图片

    之前使用python3抓取的一些知乎.微博的文章和图片数据想立体化展示出来 web展示爬去知乎.微博文章和图片.论坛主要是展示爬去的数据 使用技术: Springboot Mybatis MySQL8 ...

  5. 科沃斯机器人招股_科沃斯机器人首次公开发行A股股票的初步询价公告

    随着科沃斯机器人公开发行A股股票,朋友圈都有谈论它的声音.那么小编就跟一跟风来给各位详细介绍一下目前科沃斯机器人首次公开发行A股股票的价格有关内容.希望下文能过给你们带来更多的收获哦. 首次公开发行A ...

  6. 【Ajax+】爬去今日头条图片

    文章目录 使用Ajax爬去今日头条街拍图片 Ajax背景了解 目的:爬去今日头条街拍图片 思路分析 F12获取相关数据 代码 结果 使用Ajax爬去今日头条街拍图片 Ajax背景了解 Ajax ,全称 ...

  7. python爬去起点小说名以及评分

    起点的排序眼花缭乱,什么点击量,收藏量,月票量什么的,唯独没有按评分的排序.我觉得挺奇怪的,评分是个很值得参考的标准,起点居然不做???既然他不做,那我自己做吧. 大体思路:先写个爬虫把书籍信息爬下来 ...

  8. 爬去豆瓣IP被封,用IP代理解决

    import requests import random #用不同IP去访问要爬去的网站 #在https://proxy.coderbusy.com/找到的IP地址(不停刷新即可) pro=['12 ...

  9. 简单的从中国植物志爬去植物拉丁文名的代码(PHP)

    大致构思就是通过get提交数据,爬去网页信息进行解析得到该植物的拉丁文名字,并输出信息 以上代码可以进行进一步的完善,博主只是做了一个简单的获取原理,可以通过Excel表中的数据复制到信息提交框进行循 ...

最新文章

  1. 不同php怎么传递参数,php – 将所有参数传递给另一个函数
  2. 【Hadoop 分布式部署 五:分布式部署之分发、基本测试及监控】
  3. Error:Unable to capture view hierarchy
  4. PHP从零开始--错误处理函数
  5. 企业信息安全建设要点梳理
  6. Direct3D提高篇:HLSL编程实现PhotoShop滤镜效果 - 锐化模糊
  7. 欧拉函数之和(51nod 1239)
  8. linux环境下VSCode的C++环境搭建
  9. Element 表单样式调整
  10. Eplan教程——项目检查错误 005013/005014:连接点类型不同
  11. 如何利用Python分离文件中的英文和中文?
  12. 科学计算机使用的软件,科学计算器软件有哪些?2020好用的科学计算器推荐
  13. esp8266_deauther第四篇
  14. python生成可执行文强案文件
  15. 数模电路基础知识 —— 5. 常见电路符号说明(三极管)
  16. 无人机飞控平台ArduPilot源码入门教程 — 简介
  17. 《Head First 设计模式》笔记
  18. C语言解决百钱百鸡问题
  19. 无线通信模块定点传输-点对多点的具体传输应用
  20. 聊聊那些年做过的接口测试

热门文章

  1. 什么是量化交易接口?跟量化平台是一个意思吗?
  2. bookstrap能编辑css吗,bootstrap的定制和修改
  3. java构造器(构造方法)用private和public修饰的区别
  4. 成语猜猜看小游戏(二)
  5. matlab符号代入subs运算慢加速——使用matlabFunction函数
  6. led数码显示控制plc实验_三菱PLC数码管显示及按键控制实验
  7. linux用命令开触摸板,使用shell脚本实现控制触摸板关闭和开启(Ubuntu Linux、Deepin Linux系列)...
  8. PMP考试成绩查询、证书下载流程
  9. 基于PaddlePaddle框架实现桃子分类
  10. 亿万富豪发家致富七种武器