python爬取微博热搜并存入表格_python爬虫进阶之爬取微博热搜存入Mysql
在编程中,我们如果想要把数据转入数据库中,首先会选择 MySQL数据库。因为MySQL数据库体积小、速度快、总体拥有成本低、开放源代码,其有着广泛的应用,例如我们使用python爬虫微博热搜,就可以使用selenium爬取微博热搜存入Mysql。本文介绍使用python爬虫将爬取微博热搜存入Mysql的过程。
一、爬取微博热搜存入Mysql思路
1、使用selenium对目标网页进行请求;
2、使用xpath对网页元素进行定位,遍历获得所有数据;
3、使用pandas生成一个Dataframe对像,直接存入数据库。
二、爬取微博热搜存入Mysql实现
1、获取微博热搜链接和标题内容all = browser.find_elements_by_xpath('//*[@id="pl_top_realtimehot"]/table/tbody/tr/td[2]/a') #得到所有数据
context = [i.text for i in c] # 得到标题内容
links = [i.get_attribute('href') for i in c] # 得到link
2、使用zip函数,将date,context,links合并
zip函数是将几个列表合成一个列表,并且按index对分列表的数据合并成一个元组,这个可以生产pandas对象。dc = zip(dates, context, links)
pdf = pd.DataFrame(dc, columns=['date', 'hotsearch', 'link'])
3、链接到数据库enging = create_engine("mysql+pymysql://root:123456@localhost:3306/webo?charset=utf8")
pdf.to_sql(name='infromation', con=enging, if_exists="append")
实现总代码from selenium.webdriver import Chrome, ChromeOptions
import time
from sqlalchemy import create_engine
import pandas as pd
def get_data():
url = r"https://s.weibo.com/top/summary" # 微博的地址
option = ChromeOptions()
option.add_argument('--headless')
option.add_argument("--no-sandbox")
browser = Chrome(options=option)
browser.get(url)
all = browser.find_elements_by_xpath('//*[@id="pl_top_realtimehot"]/table/tbody/tr/td[2]/a')
context = [i.text for i in all]
links = [i.get_attribute('href') for i in all]
date = time.strftime("%Y-%m-%d-%H_%M_%S", time.localtime())
dates = []
for i in range(len(context)):
dates.append(date)
# print(len(dates),len(context),dates,context)
dc = zip(dates, context, links)
pdf = pd.DataFrame(dc, columns=['date', 'hotsearch', 'link'])
# pdf.to_sql(name=in, con=enging, if_exists="append")
return pdf
def w_mysql(pdf):
try:
enging = create_engine("mysql+pymysql://root:123456@localhost:3306/webo?charset=utf8")
pdf.to_sql(name='infromation', con=enging, if_exists="append")
except:
print('出错了')
if __name__ == '__main__':
xx = get_data()
w_mysql(xx)
以上就是python使用selenium爬取微博热搜存入Mysql的过程,希望能对你有所帮助哦~更多python爬虫学习推荐:python爬虫教程。
python爬取微博热搜并存入表格_python爬虫进阶之爬取微博热搜存入Mysql相关推荐
- python 爬视频下载_Python爬虫进阶之爬取某视频并下载的实现
这篇文章我们来讲一下在网站建设中,Python爬虫进阶之爬取某视频并下载的实现.本文对大家进行网站开发设计工作或者学习都有一定帮助,下面让我们进入正文. 这几天在家闲得无聊,意外的挖掘到了一个资源网站 ...
- monthy python爬虫_Python爬虫DOTA排行榜爬取实例(分享)
Python爬虫DOTA排行榜爬取实例(分享) 1.分析网站 打开开发者工具,我们观察到排行榜的数据并没有在doc里 doc文档 在Javascript里我么可以看到下面代码: ajax的post方法 ...
- python爬虫scrapy爬取新闻标题及链接_python爬虫框架scrapy爬取梅花网资讯信息
原标题:python爬虫框架scrapy爬取梅花网资讯信息 一.介绍 本例子用scrapy-splash爬取梅花网(http://www.meihua.info/a/list/today)的资讯信息, ...
- Python爬虫进阶之爬取篮球赛数据
相信很多人都喜欢打篮球, 并且对自己喜欢的球星的比赛数据都很关注,于是我就想着去爬取篮球网站的数据.但是相对来说爬取一个数据也没啥挑战性,于是我又赶着学习了xlsxwriter模块,将爬取的的数据放入 ...
- python爬虫-爬妹子图_Python 爬虫入门之爬取妹子图
Python 爬虫入门之爬取妹子图 来源:李英杰 链接: https://segmentfault.com/a/1190000015798452 听说你写代码没动力?本文就给你动力,爬取妹子图.如果 ...
- python爬取电影网站存储于数据库_python爬虫 猫眼电影和电影天堂数据csv和mysql存储过程解析...
字符串常用方法 # 去掉左右空格 'hello world'.strip() # 'hello world' # 按指定字符切割 'hello world'.split(' ') # ['hello' ...
- python爬虫可以爬什么山好_Python爬虫示例:爬取 13 个旅游城市,看看大家放假了都爱去哪玩...
距上次假期端午结束已经47天过去了...依然还是没有假期,想出去好多地方玩啊.你们是不是也在期待着假期呀,不过夏天也热,下次的假期大概就是中秋国庆了,那会儿还算是比较凉爽.心血来潮,就想爬一下大家假期 ...
- python爬虫经典段子_Python爬虫实战之爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示 糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
- python cookie池_Python爬虫scrapy框架Cookie池(微博Cookie池)的使用
下载代码Cookie池(这里主要是微博登录,也可以自己配置置其他的站点网址) 下载代码GitHub:https://github.com/Python3WebSpider/CookiesPool 下载 ...
最新文章
- 不能交换到解决jenkins用户的问题
- OpenCV4中的非典型深度学习模型
- 第二章 在HTML中使用JavaScript
- 数据存储介质销毁:护航数据安全的最后一公里
- php dechex 补零,PHP dechex()函数
- Python 的 requests 库的用法
- python 之禅_Python 之禅
- 2.替换空格JAVA
- c#基础传智播客学习截图
- 手机聊天记录怎么备份技巧分享,再也不用担心数据丢失了
- CCA分析图如何解读_微生物群落与环境因子关联:全自动的CCA/RDA分析流程!!...
- rt 野火imx_server: 野火IM是一套跨平台、核心功能开源的即时通讯解决方案
- electron-vue中调用系统屏幕键盘(linux与windows)
- 华为HCIP-DATACOM(821)411-440
- 如何查看当前分支从哪个支线创建而来
- 任正非的“先僵化、后优化、再固化”方针
- 《寂静之声》口琴版,惊艳,有链接
- 组策略 控制台登录计算机用用户,更方便的管理计算机!Windows组策略应用全攻略一...
- 2021-6-28 项目实训-研究生管理系统
- Linux命令:Nginx的启动、停止与重启
热门文章
- Delphi关于记录文件的操作-转
- 关闭vue中的eslint校验
- Spring Boot系列教程八: Mybatis使用分页插件PageHelper
- 解决spring boot1.5以上版本@ConfigurationProperties提示“Spring Boot Configuration Annotation Processor not..
- 离子量子计算机 寻址,量子计算机的硬件进展
- Python常用小技巧(五)——批量读取json文件
- Java面向对象知识总结
- SpringMVC之源码分析--ThemeResolver(三)
- UEditor 1.36 版本 jsp版上传图片自定义路劲配置
- bootloader 简介