python-爬虫,实现输入关键字,然后爬取关键字主页代码并存储到mysql数据库
python-爬虫,实现输入关键字,然后爬取关键字主页代码并存储到mysql数据库
实现代码如下:
代码是可以实现的,有问题可以私聊我
import os
import sys
import base64
import pymysql
import requests
import chardetdb = pymysql.connect(host='localhost',user='root',password='a134679258',database='webbase',charset='utf8')# 使用 cursor() 方法创建一个游标对象 cursor
cursor = db.cursor()# 使用 execute() 方法执行 SQL 查询
cursor.execute("SELECT VERSION()")
def create_table():conmmand="create table if not exists data(keyword varchar(50),html longtext);"cursor.execute(conmmand)#create_table()print ("数据库连接成功!")# 关闭数据库连接def get_data():#输入搜索关键字keyword = input("keyword:")# keyword='汉语'# print(keyword)url = "https://www.baidu.com/baidu?tn=34046034_10_dg&ie=utf-8&wd=" #需要爬虫的地址headers = { 'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:104.0) Gecko/20100101 Firefox/104.0','accept':'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2','referer':'', 'cookie':'BAIDUID=B4B018EDDA5F3FBED548A082691C93AF:FG=1; BIDUPSID=398ADDA6F81163CCCA80B5EBF04C22B0; PSTM=1673011175; BDUSS=2dZaTBlM2Z-RXM4OVRLWDdxRn5xSFNsU2YyeDQ0cG96clNyamJuM0paZVNZUUJrSVFBQUFBJCQAAAAAAAAAAAEAAAADmS3qZ2FveGluZ2Rhd2FuZzYAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAJLU2GOS1NhjM; newlogin=1; BD_UPN=13314752; BDORZ=FFFB88E999055A3F8A630C64834BD6D0; H_PS_PSSID=36559_37557_38113_38091_38056_38116_37990_37795_37936_37874_38040_26350_22159_38008_37881; ab_sr=1.0.1_NTA5YzNjNTQzNDhhZDNkNjAyODYxYzcyNWZmZmQ5ZjQ5ZWM4NGU0Njg4OTk5ZjNiOTI2ZGNmY2YyMTgyZGQ3MDFlZGU5MzNmNzA3OGFhM2MyMzY0ZDVlZTZjNTA3OWVlMzBlOGU4ODQxMDRiOWYzNTU2MzU4OGM1MGE4NjhiY2NiNTNiNTdmYWExNTExNjE4NGNlODc0YzkzYzg1MmE0ZQ==; H_PS_645EC=6991mG9mqcfpvq6FoHfGy7bXFmxzqTwZ%2BHglZmfiRDmUv%2B6hGi2iDoj5BilkzM33WQVc; BA_HECTOR=01al2h8ka40421a08l24201g1htkiaj1k; COOKIE_SESSION=212_0_9_9_4_5_1_0_9_7_1_2_25_0_0_0_1675249794_0_1675250003%7C9%238302_32_1674999575%7C9; ZFY=RJCuHYk3su:A5jFCf0Ve9gxcto:B:APJsJ1dTkF6jE:BqQk:C; delPer=0; BD_CK_SAM=1; PSINO=7; BDSVRTM=0'}url_last = url + keywordr = requests.get(url=url_last,headers=headers)r.encoding = r.apparent_encoding #设置编码格式return keyword,r.text#get_data()while 1:print("input 0 to exit")print("input 1 to add data to database")choice=int(input("choice:"))if choice==0:breakelif choice==1:print("start get data and save")keywords,html=get_data()print(keywords,html)exu="insert into data ( keyword, html) values (%s,%s);"param=(keywords,html)
#执行数据库插入cursor.execute(exu,param)db.commit()else:print("please input again!")continuedb.close()
os.system("pause")
python-爬虫,实现输入关键字,然后爬取关键字主页代码并存储到mysql数据库相关推荐
- Python爬虫:输入公司名称,爬取企查查网站中的公司信息
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于Python爬虫数据分析挖掘 ,作者:李运辰 根据输入的公司名称来爬取企查查网 ...
- Python爬虫应用实战-如何对爬取的数据进行数据存储?
文件存储 文件储存的形式多种多样,比如说保存成TXT纯文本形式,也可以保存为JSON格式.CSV格式等等. TXT文本存储 将数据保存到TXT文件的操作是非常简单的,而且TXT文本几乎兼容任何平台,但 ...
- python爬虫之股票数据定向爬取
python爬虫之股票数据定向爬取 功能描述 目标:获取上交所和深交所所有股票的名称和交易的信息 输出:保存到文件中 技术路线:requests-bs4-re 前期分析 选取原则:股票的信息静态存在H ...
- 从入门到入土:Python爬虫学习|实例练手|爬取百度翻译|Selenium出击|绕过反爬机制|
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
- 从入门到入土:Python爬虫学习|实例练手|爬取新浪新闻搜索指定内容|Xpath定位标签爬取|代码注释详解
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
- python爬虫初学实战——免登录爬取easyicon里的vip图标(2)
python爬虫初学实战-免登录爬取easyicon里的vip图标(2) 实验日期:2020-08-09 tips:没看过前面(1)的可以康康,指路 -> 爬取easyicon里的png图标 成 ...
- Python爬虫实战系列(一)-request爬取网站资源
Python爬虫实战系列(一)-request爬取网站资源 python爬虫实战系列第一期 文章目录 Python爬虫实战系列(一)-request爬取网站资源 前言 一.request库是什么? 二 ...
- Python爬虫实战案例一:爬取猫眼电影
背景 笔者上一篇文章<基于猫眼票房数据的可视化分析>中爬取了猫眼实时票房数据,用于展示近三年电影票房概况.由于数据中缺少导演/演员/编剧阵容等信息,所以爬取猫眼电影数据进行补充.关于爬虫的 ...
- python爬虫之-斗图网爬取
python爬虫之-斗图啦爬取 利用:requests, re 功能:用户自定义关键词,页码 整体代码 # 请求库 import requests # 正则 import re # 让用户输入 im ...
最新文章
- vb matlab 比较,【笔记】VB.NET和MATLAB读取二进制文件(中文+数值)之比较
- C++输出流的格式控制
- 燃烧学往年精选真题解析 2018-01-01
- edittext 选中焦点在最后_安卓开发中EditText的焦点改变处理(获取焦点和失去焦点交互变化)...
- 关于错误error C4430 error C2365 error C2078 error C2440 error C2143的处理。
- nw.js FrameLess Window下的窗口拖拽与窗口大小控制
- .net pdf转图片_pdf2image类库实现批量pdf转图片
- 企业如果结合职工筑牢安全生产压舱石_山能枣矿集团柴里煤矿机电运输科扎实推进女职工“素质提升+岗位建功”竞赛活动...
- 自己收藏整理的一些操作系统资源
- 浩辰3D软件新手攻略:数据管理功能详解
- PHP 两个多维数组根据某个键的值进行组合排序的几种思路
- 不联网安装 SQL server 2012 的问题
- js弹幕脚本(基于油猴)
- OH~My Godness ~!被点到了...
- Havel-Hakimi定理(判断是否可图序列)
- legacy引导gpt分区_支持win10的传统legacy启动无损转换为UEFI GPT启动
- @[TOC](CDN防御与高防服务器防御的区别
- 数字孪生城市的理念与特征
- 跟一线高手深聊关于边缘计算的一切
- 佩奇(社会人)大学初探——联迪商用实习小结(2018-4至2018-6)