python-爬虫,实现输入关键字,然后爬取关键字主页代码并存储到mysql数据库

实现代码如下:
代码是可以实现的,有问题可以私聊我

import os
import sys
import base64
import pymysql
import requests
import chardetdb = pymysql.connect(host='localhost',user='root',password='a134679258',database='webbase',charset='utf8')# 使用 cursor() 方法创建一个游标对象 cursor
cursor = db.cursor()# 使用 execute()  方法执行 SQL 查询
cursor.execute("SELECT VERSION()")
def create_table():conmmand="create table if not exists data(keyword varchar(50),html longtext);"cursor.execute(conmmand)#create_table()print ("数据库连接成功!")# 关闭数据库连接def get_data():#输入搜索关键字keyword = input("keyword:")# keyword='汉语'# print(keyword)url = "https://www.baidu.com/baidu?tn=34046034_10_dg&ie=utf-8&wd=" #需要爬虫的地址headers = { 'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:104.0) Gecko/20100101 Firefox/104.0','accept':'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2','referer':'',         'cookie':'BAIDUID=B4B018EDDA5F3FBED548A082691C93AF:FG=1; BIDUPSID=398ADDA6F81163CCCA80B5EBF04C22B0; PSTM=1673011175; BDUSS=2dZaTBlM2Z-RXM4OVRLWDdxRn5xSFNsU2YyeDQ0cG96clNyamJuM0paZVNZUUJrSVFBQUFBJCQAAAAAAAAAAAEAAAADmS3qZ2FveGluZ2Rhd2FuZzYAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAJLU2GOS1NhjM; newlogin=1; BD_UPN=13314752; BDORZ=FFFB88E999055A3F8A630C64834BD6D0; H_PS_PSSID=36559_37557_38113_38091_38056_38116_37990_37795_37936_37874_38040_26350_22159_38008_37881; ab_sr=1.0.1_NTA5YzNjNTQzNDhhZDNkNjAyODYxYzcyNWZmZmQ5ZjQ5ZWM4NGU0Njg4OTk5ZjNiOTI2ZGNmY2YyMTgyZGQ3MDFlZGU5MzNmNzA3OGFhM2MyMzY0ZDVlZTZjNTA3OWVlMzBlOGU4ODQxMDRiOWYzNTU2MzU4OGM1MGE4NjhiY2NiNTNiNTdmYWExNTExNjE4NGNlODc0YzkzYzg1MmE0ZQ==; H_PS_645EC=6991mG9mqcfpvq6FoHfGy7bXFmxzqTwZ%2BHglZmfiRDmUv%2B6hGi2iDoj5BilkzM33WQVc; BA_HECTOR=01al2h8ka40421a08l24201g1htkiaj1k; COOKIE_SESSION=212_0_9_9_4_5_1_0_9_7_1_2_25_0_0_0_1675249794_0_1675250003%7C9%238302_32_1674999575%7C9; ZFY=RJCuHYk3su:A5jFCf0Ve9gxcto:B:APJsJ1dTkF6jE:BqQk:C; delPer=0; BD_CK_SAM=1; PSINO=7; BDSVRTM=0'}url_last = url + keywordr = requests.get(url=url_last,headers=headers)r.encoding = r.apparent_encoding #设置编码格式return keyword,r.text#get_data()while 1:print("input 0  to exit")print("input 1  to add data to database")choice=int(input("choice:"))if choice==0:breakelif choice==1:print("start get data and save")keywords,html=get_data()print(keywords,html)exu="insert into data ( keyword, html) values (%s,%s);"param=(keywords,html)
#执行数据库插入cursor.execute(exu,param)db.commit()else:print("please input again!")continuedb.close()
os.system("pause")

python-爬虫,实现输入关键字,然后爬取关键字主页代码并存储到mysql数据库相关推荐

  1. Python爬虫:输入公司名称,爬取企查查网站中的公司信息

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于Python爬虫数据分析挖掘 ,作者:李运辰 根据输入的公司名称来爬取企查查网 ...

  2. Python爬虫应用实战-如何对爬取的数据进行数据存储?

    文件存储 文件储存的形式多种多样,比如说保存成TXT纯文本形式,也可以保存为JSON格式.CSV格式等等. TXT文本存储 将数据保存到TXT文件的操作是非常简单的,而且TXT文本几乎兼容任何平台,但 ...

  3. python爬虫之股票数据定向爬取

    python爬虫之股票数据定向爬取 功能描述 目标:获取上交所和深交所所有股票的名称和交易的信息 输出:保存到文件中 技术路线:requests-bs4-re 前期分析 选取原则:股票的信息静态存在H ...

  4. 从入门到入土:Python爬虫学习|实例练手|爬取百度翻译|Selenium出击|绕过反爬机制|

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  5. 从入门到入土:Python爬虫学习|实例练手|爬取新浪新闻搜索指定内容|Xpath定位标签爬取|代码注释详解

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  6. python爬虫初学实战——免登录爬取easyicon里的vip图标(2)

    python爬虫初学实战-免登录爬取easyicon里的vip图标(2) 实验日期:2020-08-09 tips:没看过前面(1)的可以康康,指路 -> 爬取easyicon里的png图标 成 ...

  7. Python爬虫实战系列(一)-request爬取网站资源

    Python爬虫实战系列(一)-request爬取网站资源 python爬虫实战系列第一期 文章目录 Python爬虫实战系列(一)-request爬取网站资源 前言 一.request库是什么? 二 ...

  8. Python爬虫实战案例一:爬取猫眼电影

    背景 笔者上一篇文章<基于猫眼票房数据的可视化分析>中爬取了猫眼实时票房数据,用于展示近三年电影票房概况.由于数据中缺少导演/演员/编剧阵容等信息,所以爬取猫眼电影数据进行补充.关于爬虫的 ...

  9. python爬虫之-斗图网爬取

     python爬虫之-斗图啦爬取 利用:requests, re 功能:用户自定义关键词,页码 整体代码 # 请求库 import requests # 正则 import re # 让用户输入 im ...

最新文章

  1. vb matlab 比较,【笔记】VB.NET和MATLAB读取二进制文件(中文+数值)之比较
  2. C++输出流的格式控制
  3. 燃烧学往年精选真题解析 2018-01-01
  4. edittext 选中焦点在最后_安卓开发中EditText的焦点改变处理(获取焦点和失去焦点交互变化)...
  5. 关于错误error C4430 error C2365 error C2078 error C2440 error C2143的处理。
  6. nw.js FrameLess Window下的窗口拖拽与窗口大小控制
  7. .net pdf转图片_pdf2image类库实现批量pdf转图片
  8. 企业如果结合职工筑牢安全生产压舱石_山能枣矿集团柴里煤矿机电运输科扎实推进女职工“素质提升+岗位建功”竞赛活动...
  9. 自己收藏整理的一些操作系统资源
  10. 浩辰3D软件新手攻略:数据管理功能详解
  11. PHP 两个多维数组根据某个键的值进行组合排序的几种思路
  12. 不联网安装 SQL server 2012 的问题
  13. js弹幕脚本(基于油猴)
  14. OH~My Godness ~!被点到了...
  15. Havel-Hakimi定理(判断是否可图序列)
  16. legacy引导gpt分区_支持win10的传统legacy启动无损转换为UEFI GPT启动
  17. @[TOC](CDN防御与高防服务器防御的区别
  18. 数字孪生城市的理念与特征
  19. 跟一线高手深聊关于边缘计算的一切
  20. 佩奇(社会人)大学初探——联迪商用实习小结(2018-4至2018-6)

热门文章

  1. 区块链会与io域名有什么关系
  2. JAVA:AudioFiction(有声小说)项目实现
  3. 忧郁的loli od链接爬取
  4. LCD Keypad Shield
  5. 全国计算机二级c语言操作题步骤,全国计算机二级《C语言》操作试题
  6. 神经网络计算也称神经网络或神经计算
  7. android 崩溃 oatdump 分析,也来看看Android的ART运行时
  8. 读书笔记 摘自:《流浪地球(刘慈欣作品)》
  9. Visual Studio 2019安装与配置
  10. 医院预约挂号小程序 毕业设计毕业论文 开题报告和效果图参考(基于微信小程序毕业设计题目选题课题)