雪球网爬取数据并存入数据库
创建数据库连接
from urllib import request
import json
import pymysqlclass mysql_connect(object):# 初始化的构造函数def __init__(self):self.db = pymysql.connect(host='127.0.0.1',user='root',password='yao123',port=3306,database='pachong')self.cursor = self.db.cursor()# 执行修改操作def mysql_do(self,sql):self.cursor.execute(sql)self.db.commit()# 结束函数def __del__(self):self.cursor.close()self.db.close()
获取并存储数据
url = 'https://xueqiu.com/v4/statuses/public_timeline_by_category.json?since_id=-1&max_id={}&count={}&category=111'
# 默认从第一页开始爬取
def xueqiu(number=1,max_id=None,count=None):if max_id is None:full_url = url.format(-1,10)else:full_url = url.format(max_id,count)count = 15headers = {'Accept': '*/*',# 'Accept-Encoding': 'gzip, deflate, br',# 'Accept-Language': 'zh-CN,zh;q=0.9','Connection': 'keep-alive','Cookie': 'device_id=3049fba19293376977728a287084d21f; _ga=GA1.2.780783310.1531212991; s=e212ctwtfc; __utmz=1.1531213044.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __utma=1.780783310.1531212991.1531213044.1531220599.2; aliyungf_tc=AQAAADtGMFhh1gsAUhVFeSfUZkqI1Vuj; xq_a_token=584d0cf8d5a5a9809761f2244d8d272bac729ed4; xq_a_token.sig=x0gT9jm6qnwd-ddLu66T3A8KiVA; xq_r_token=98f278457fc4e1e5eb0846e36a7296e642b8138a; xq_r_token.sig=2Uxv_DgYTcCjz7qx4j570JpNHIs; _gid=GA1.2.1152894742.1534296305; _gat_gtag_UA_16079156_4=1; Hm_lvt_1db88642e346389874251b5a1eded6e3=1534296305; Hm_lpvt_1db88642e346389874251b5a1eded6e3=1534296305; u=211534296306130','Host': 'xueqiu.com','Referer': 'https://xueqiu.com/','User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36','X-Requested-With': 'XMLHttpRequest',}# 最大页码数if number<=4:print('第%d页:'%number)number += 1req = request.Request(full_url,headers=headers)response = request.urlopen(req)result = response.read().decode('utf-8')# json处理j = json.loads(result)m = mysql_connect()for i in j['list']:detail = json.loads(i['data'])print(i['id'],detail['title'])description = detail['description']# 此处sql语句description有特殊字符会转义sql语句,只能传入前几条语句,所以进行为None处理sql = 'insert into snowball values ("{}","{}","{}","{}");'.format(detail['id'],detail['title'],None,detail['target'])m.mysql_do(sql)print(j['list'][0])xueqiu(number,j['list'][-1]['id'],count)if __name__ == '__main__':xueqiu(1,-1,10)
雪球网爬取数据并存入数据库相关推荐
- python爬虫开发数据库设计入门经典_Python3实现的爬虫爬取数据并存入mysql数据库操作示例...
本文实例讲述了Python3实现的爬虫爬取数据并存入mysql数据库操作.分享给大家供大家参考,具体如下: 爬一个电脑客户端的订单.罗总推荐,抓包工具用的是HttpAnalyzerStdV7,与chr ...
- Python网络爬虫使用BeautifulSoup爬取网页内容并存入数据库案例
使用BeautifulSoup爬取网页内容并存入数据库案例 学习了Python网络爬虫,完成里一个比较完整的爬虫案例与大家分享 爬取地址:http://www.tipdm.com/cpzx/index ...
- 雪球网爬取上市公司信息(一):爬取上市公司代号
条件:有一批5g相关公司,只知道公司名字或是简称,不知道公司是否上市以及股票代码,需要爬取公司信息. 网站:雪球网 思路:上传关键字,爬取搜索结果网页,将有结果的公司信息抓取下来并存入数据库 1.在雪 ...
- python爬取微博数据存入数据库_python爬取微博并且存入数据库
由于平时喜欢刷微博,追星,所以写了想要写一个爬取微博的爬虫,在老师的建议下选择从移动端爬取,因为移动端页面元素简洁,易于爬取.在看微博时发现有比移动端更加简单的一个版本....老年机版?就是分页式的. ...
- 实战爬虫-爬取红袖添香并存入数据库
看了很多爬虫视频的视频,最近找了个小说网站练练手 ####目标:红袖添香前20页小说,包括小说名字,作者,类别,状态,字数,以及基本介绍 ####网址在这儿: https://www.hongxiu. ...
- 【爬虫+数据库操作】用pandas将爬取的股票信息存入数据库!
以下内容为本人原创,欢迎大家观看学习,禁止用于商业用途谢谢合作! ·作者:@Yhen ·原文网站:CSDN ·原文链接:https://blog.csdn.net/Yhen1/article/deta ...
- 当当网 用什么数据库 mysql_当当网爬取数据到MySQL数据库,没有信息。
使用scrapy框架写的当当网数据爬取,数据能爬下来,但是导入不进去数据库中 大神,又来打扰你了 1.数据库名称: dd:数据库名 ddw 表名 2.问题报错 3.代码: 3.1 items文件代码: ...
- Python爬虫爬取数据到sqlite数据库实例
萌新:使用xpath和正则表达式解析网页内容 代码如下: import sqlite3 import re import requests from lxml import htmlfindlink ...
- yspider爬取数据导入mysql_爬虫实战四、PyCharm+Scrapy爬取数据并存入MySQL
一.创建爬虫项目 注意:不能直接使用PyCharm创建Scrapy项目,所以需要在爬虫实战三.PyCharm搭建Scrapy开发调试环境的基础(PyCharm配置完Scrapy)之上,选中mySpid ...
最新文章
- 路由器(结构、分组转发流程、路由选择协议(RIP、OSPF、BGP))
- linux git gui使用教程,跨平台最好用的Git GUI工具gitkraken
- WebBrowser内核指定
- 【620】【信息管理学基础】【真题背诵】
- c语言自学手册百度云,C语言新手入门自学零基础通俗易懂教程百度云
- FTL 算法之Arbiter
- xcode打包cordova项目生成ipa
- Matlab TreeBagger随机森林回归实例
- 2019春第四次课程设计实验报告
- 英特尔第二代神经计算棒(Intel Neural Compute Stick 2)相关测试
- 笔记本如何解除锁定计算机,笔记本键盘锁定解锁方法教程
- 智能电子后视镜MFC01-LCD 高配版规格书(AI-CMS)
- Low-poly低面建模(低像素多边形)
- 准程序猿的创意(二)
- 单片机通过mqtt联网(51单片机和esp01s)
- MySql(九)连接查询
- java时间戳与LocalDateTime常用转换方式
- 8. Spring Security 5.1之 OAuth 2.0 Login
- 四五六年级计算机教学计划,三至六年级信息技术教学计划
- html 圆型围绕效果,css – 围绕圆形图像分割的圆形边框