在编程中,我们如果想要把数据转入数据库中,首先会选择 MySQL数据库。因为MySQL数据库体积小、速度快、总体拥有成本低、开放源代码,其有着广泛的应用,例如我们使用python爬虫微博热搜,就可以使用selenium爬取微博热搜存入Mysql。本文介绍使用python爬虫将爬取微博热搜存入Mysql的过程。

一、爬取微博热搜存入Mysql思路

1、使用selenium对目标网页进行请求;

2、使用xpath对网页元素进行定位,遍历获得所有数据;

3、使用pandas生成一个Dataframe对像,直接存入数据库。

二、爬取微博热搜存入Mysql实现

1、获取微博热搜链接和标题内容all = browser.find_elements_by_xpath('//*[@id="pl_top_realtimehot"]/table/tbody/tr/td[2]/a')  #得到所有数据

context = [i.text for i in c]  # 得到标题内容

links = [i.get_attribute('href') for i in c]  # 得到link

2、使用zip函数,将date,context,links合并

zip函数是将几个列表合成一个列表,并且按index对分列表的数据合并成一个元组,这个可以生产pandas对象。dc = zip(dates, context, links)

pdf = pd.DataFrame(dc, columns=['date', 'hotsearch', 'link'])

3、链接到数据库enging = create_engine("mysql+pymysql://root:123456@localhost:3306/webo?charset=utf8")

pdf.to_sql(name='infromation', con=enging, if_exists="append")

实现总代码from selenium.webdriver import Chrome, ChromeOptions

import time

from sqlalchemy import create_engine

import pandas as pd

def get_data():

url = r"https://s.weibo.com/top/summary"  # 微博的地址

option = ChromeOptions()

option.add_argument('--headless')

option.add_argument("--no-sandbox")

browser = Chrome(options=option)

browser.get(url)

all = browser.find_elements_by_xpath('//*[@id="pl_top_realtimehot"]/table/tbody/tr/td[2]/a')

context = [i.text for i in all]

links = [i.get_attribute('href') for i in all]

date = time.strftime("%Y-%m-%d-%H_%M_%S", time.localtime())

dates = []

for i in range(len(context)):

dates.append(date)

# print(len(dates),len(context),dates,context)

dc = zip(dates, context, links)

pdf = pd.DataFrame(dc, columns=['date', 'hotsearch', 'link'])

# pdf.to_sql(name=in, con=enging, if_exists="append")

return pdf

def w_mysql(pdf):

try:

enging = create_engine("mysql+pymysql://root:123456@localhost:3306/webo?charset=utf8")

pdf.to_sql(name='infromation', con=enging, if_exists="append")

except:

print('出错了')

if __name__ == '__main__':

xx = get_data()

w_mysql(xx)

以上就是python使用selenium爬取微博热搜存入Mysql的过程,希望能对你有所帮助哦~更多python爬虫学习推荐:python爬虫教程。

python爬取微博热搜并存入表格_python爬虫进阶之爬取微博热搜存入Mysql相关推荐

  1. python 爬视频下载_Python爬虫进阶之爬取某视频并下载的实现

    这篇文章我们来讲一下在网站建设中,Python爬虫进阶之爬取某视频并下载的实现.本文对大家进行网站开发设计工作或者学习都有一定帮助,下面让我们进入正文. 这几天在家闲得无聊,意外的挖掘到了一个资源网站 ...

  2. monthy python爬虫_Python爬虫DOTA排行榜爬取实例(分享)

    Python爬虫DOTA排行榜爬取实例(分享) 1.分析网站 打开开发者工具,我们观察到排行榜的数据并没有在doc里 doc文档 在Javascript里我么可以看到下面代码: ajax的post方法 ...

  3. python爬虫scrapy爬取新闻标题及链接_python爬虫框架scrapy爬取梅花网资讯信息

    原标题:python爬虫框架scrapy爬取梅花网资讯信息 一.介绍 本例子用scrapy-splash爬取梅花网(http://www.meihua.info/a/list/today)的资讯信息, ...

  4. Python爬虫进阶之爬取篮球赛数据

    相信很多人都喜欢打篮球, 并且对自己喜欢的球星的比赛数据都很关注,于是我就想着去爬取篮球网站的数据.但是相对来说爬取一个数据也没啥挑战性,于是我又赶着学习了xlsxwriter模块,将爬取的的数据放入 ...

  5. python爬虫-爬妹子图_Python 爬虫入门之爬取妹子图

    Python 爬虫入门之爬取妹子图 来源:李英杰  链接: https://segmentfault.com/a/1190000015798452 听说你写代码没动力?本文就给你动力,爬取妹子图.如果 ...

  6. python爬取电影网站存储于数据库_python爬虫 猫眼电影和电影天堂数据csv和mysql存储过程解析...

    字符串常用方法 # 去掉左右空格 'hello world'.strip() # 'hello world' # 按指定字符切割 'hello world'.split(' ') # ['hello' ...

  7. python爬虫可以爬什么山好_Python爬虫示例:爬取 13 个旅游城市,看看大家放假了都爱去哪玩...

    距上次假期端午结束已经47天过去了...依然还是没有假期,想出去好多地方玩啊.你们是不是也在期待着假期呀,不过夏天也热,下次的假期大概就是中秋国庆了,那会儿还算是比较凉爽.心血来潮,就想爬一下大家假期 ...

  8. python爬虫经典段子_Python爬虫实战之爬取糗事百科段子

    首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示 糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...

  9. python cookie池_Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

    下载代码Cookie池(这里主要是微博登录,也可以自己配置置其他的站点网址) 下载代码GitHub:https://github.com/Python3WebSpider/CookiesPool 下载 ...

最新文章

  1. 不能交换到解决jenkins用户的问题
  2. OpenCV4中的非典型深度学习模型
  3. 第二章 在HTML中使用JavaScript
  4. 数据存储介质销毁:护航数据安全的最后一公里
  5. php dechex 补零,PHP dechex()函数
  6. Python 的 requests 库的用法
  7. python 之禅_Python 之禅
  8. 2.替换空格JAVA
  9. c#基础传智播客学习截图
  10. 手机聊天记录怎么备份技巧分享,再也不用担心数据丢失了
  11. CCA分析图如何解读_微生物群落与环境因子关联:全自动的CCA/RDA分析流程!!...
  12. rt 野火imx_server: 野火IM是一套跨平台、核心功能开源的即时通讯解决方案
  13. electron-vue中调用系统屏幕键盘(linux与windows)
  14. 华为HCIP-DATACOM(821)411-440
  15. 如何查看当前分支从哪个支线创建而来
  16. 任正非的“先僵化、后优化、再固化”方针
  17. 《寂静之声》口琴版,惊艳,有链接
  18. 组策略 控制台登录计算机用用户,更方便的管理计算机!Windows组策略应用全攻略一...
  19. 2021-6-28 项目实训-研究生管理系统
  20. Linux命令:Nginx的启动、停止与重启

热门文章

  1. Delphi关于记录文件的操作-转
  2. 关闭vue中的eslint校验
  3. Spring Boot系列教程八: Mybatis使用分页插件PageHelper
  4. 解决spring boot1.5以上版本@ConfigurationProperties提示“Spring Boot Configuration Annotation Processor not..
  5. 离子量子计算机 寻址,量子计算机的硬件进展
  6. Python常用小技巧(五)——批量读取json文件
  7. Java面向对象知识总结
  8. SpringMVC之源码分析--ThemeResolver(三)
  9. UEditor 1.36 版本 jsp版上传图片自定义路劲配置
  10. bootloader 简介