Python爬虫(前言):有趣的一个爬虫实例(爬取段子,笑话,情感句子)
这次准备介绍Python爬虫爬取网页数据、解析并应用于实践,打算写几篇文章,从最基础的Python爬虫语法开始介绍爬虫,步步深入,最终实现一个较完整的实例。
这一系列文章包括:
request库介绍及应用。
beautifulsoup库介绍及应用。
正则表达式匹配及应用。
对话机器人实例。
tkinter库制作界面以及Python程序打包成可执行exe文件
本篇文章主要给出我最后做出来的一个可运行exe应用的展示,主要的目的是提高阅读者学习的兴趣。
最后做出来的聊天机器人可以根据用户输入的指令在指定网站爬取信息,并在后台解析,返回结果输出到界面。
我将这个exe应用放在了最后,可直接在电脑运行的文件,大家可以下载自己玩或者发给好友秀一下。
运行截图入下:
用户可以输入指令,例如:“给我讲个笑话”,“给我讲个段子”,“在网上给我找句晚安的话”等。如下:
我用的开发工具是Spyder,在后续的文章中我会逐渐深入的讲解这个例子的原理以及实现方法。
下面附上代码,感兴趣的同学可以拷贝自己运行试一下。
from tkinter import *
import time
import requests
from bs4 import BeautifulSoup
import bs4
import random
import re
def getHTMLText(url):try:r = requests.get(url, timeout=30)r.raise_for_status()#r.encoding = r.apparent_encodingreturn r.textexcept:print("faile")return ""def fillUnivList(ulist, html):soup = BeautifulSoup(html, "html.parser")for tr in soup.find_all('article'):if isinstance(tr, bs4.element.Tag):tds = tr('a')ulist.append([tds[0].string, tds[1].string, tds[2].string])
def printUnivList(ulist,k):return ulist[k][0]def getduanzi():uinfo = []k=1u = 'http://duanziwang.com/category/%E4%B8%80%E5%8F%A5%E8%AF%9D%E6%AE%B5%E5%AD%90/'i=random.randint(1,49)url=u+str(i)+'/'html = getHTMLText(url)fillUnivList(uinfo, html)k=random.randint(0,9)return printUnivList(uinfo,k)
def fill2(ulist,html):soup = BeautifulSoup(html, "html.parser")for tr in soup.find_all('div','article block untagged mb15 typs_hot'):if isinstance(tr, bs4.element.Tag):tds = tr.find('div','content')tdss=tds('span') reg = re.compile('<[^>]*>')text=reg.sub('',str(tdss))regg = re.compile('\\[|\\]|\\n')text=regg.sub('',text)ulist.append(text)
def getjoke():ulist=[]u='https://www.qiushibaike.com/text/page/'i=random.randint(1,13)url=u+str(i)+'/'html=getHTMLText(url)fill2(ulist,html)k=random.randint(0,16)#print(str(ulist[k]))return str(ulist[k])
def getHTMLText2(url):try:r = requests.get(url, timeout=30)r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:return ""
def geturl(url,text):html=getHTMLText2(url)soup = BeautifulSoup(html, "html.parser")for tds in soup.find_all('a'):#print(tds.string)if str(tds.string) in text:#print(tds.attrs['href'])return tds.attrs['href']return ''
def getmoreurl(url):html=getHTMLText2(url)soup = BeautifulSoup(html, "html.parser")try:li=soup.find_all('li',attrs={'class':'articleTitle fl'})k=random.randint(0,len(li)-1)return li[k]('a')[0].attrs['href']except:return ''
def getsen(url):html=getHTMLText2(url)soup = BeautifulSoup(html, "html.parser")try:li=soup.find('p')reg = re.compile('<p>.*') l=reg.findall(str(li))#print(l)k=random.randint(0,len(l)-1)text=re.findall('[\u4e00-\u9fa5]+',l[k])x=''if len(text):for t in text[:-2]:x=x+t+','return x+text[-1]+'。'else:return "不好意思,出了点小问题,请重试!"except:return "抱歉,没找到你想要的"
def getsentance(text):start_url = 'http://www.siandian.com'urll='http://www.siandian.com/tags.html'end1=geturl(urll,text)if end1=='':return "抱歉,没有找到你想要的。"else:end2=getmoreurl(start_url+end1)if end2=='':return "抱歉,没有找到你想要的。"else:#print(start_url+end2)return getsen(start_url+end2)
def xiaotang(s):sign=1;while(sign):if '段子' in s:while('段子' in s or '继续' in s or '再来' in s or s==''):return getduanzi()elif '笑话' in s:while('笑话' in s or '继续' in s or '再来' in s or s==''):return getjoke()elif '句' in s or '话' in s:return getsentance(s) elif '傻子' in s or '草' in s or '日' in s:return '这是脏话不可以说哦'elif '二' in s or '垃圾' in s or '傻逼' in s:t='你是魔鬼吗?'x=''for i in range(10):x=x+t+' !'+'\n'return xelse:return "我好像不明白\n"
def main():def start():strMsg = '小糖:' + time.strftime("%Y-%m-%d %H:%M:%S",time.localtime()) + '\n 'txtget.insert(END, strMsg, 'redcolor')txtget.insert(END, '你好,请问有什么可以帮忙的?')def sendMsg():#发送消息t=txtMsg.get('0.0', END)txtMsg.delete('0.0', END)strMsg = '我:' + time.strftime("%Y-%m-%d %H:%M:%S",time.localtime()) + '\n 'for i in range(int(txtget.index(END).split(".")[0])-int(txtMsgList.index(END).split(".")[0])+1):txtMsgList.insert(END, '\n')txtMsgList.insert(END, strMsg, 'greencolor')txtMsgList.insert(END, t)txtMsgList.see(END)for i in range(int(txtMsgList.index(END).split(".")[0])-int(txtget.index(END).split(".")[0])+1):txtget.insert(END, '\n')txtget.see(END)strMsg = '小糖:' + time.strftime("%Y-%m-%d %H:%M:%S",time.localtime()) + '\n 'for i in range(int(txtMsgList.index(END).split(".")[0])-int(txtget.index(END).split(".")[0])+1):txtget.insert(END, '\n')txtget.insert(END, strMsg, 'redcolor')txtget.insert(END, xiaotang(t))txtget.see(END)for i in range(int(txtget.index(END).split(".")[0])-int(txtMsgList.index(END).split(".")[0])+1):txtMsgList.insert(END, '\n')txtMsgList.see(END)def cancelMsg():#取消消息txtMsg.delete('0.0', END)def sendMsgEvent(event): #发送消息事件sendMsg()#创建窗口 t = Tk()t.title('小糖助手')#创建frame容器frmLT = Frame(width=500, height=320, bg='#F19C8B')frmLC = Frame(width=500, height=150, bg='#F19C8B')frmLB = Frame(width=500, height=30,bg='white')frmRT = Frame(width=200, height=500,bg='#F19C8B')#创建控件txtMsgList = Text(frmLT,width=40,bd=0)txtMsgList.tag_config('greencolor', foreground='#008C00')#创建tagtxtMsg = Text(frmLC)txtget = Text(frmLT,width=40,bd=0)txtget.tag_config('redcolor', foreground='#DC143C')#创建tagstart()#txtMsg.bind("", sendMsgEvent)txtMsg.bind('<Return>',sendMsgEvent)btnSend = Button(frmLB, text='发 送', width = 8, command=sendMsg,bg='#E88384',bd=0)btnCancel = Button(frmLB, text='取消', width = 8, command=cancelMsg,bg='#F3ADA0',bd=0)scollor=Scrollbar(bg='white')scollor.config(command=txtget.yview)scollor.config(command=txtMsgList.yview)txtget.config(yscrollcommand=scollor.set)txtMsgList.config(yscrollcommand=scollor.set)imgInfo = PhotoImage(file = "aa.png")lblImage = Label(frmRT, image = imgInfo)lblImage.image = imgInfo#窗口布局frmLT.grid(row=0, column=0, columnspan=2, padx=0, pady=0)frmLC.grid(row=1, column=0, columnspan=2, padx=0, pady=0)frmLB.grid(row=2, column=0, columnspan=2,padx=0)scollor.grid(row=0,column=2,sticky=N+S)frmRT.grid(row=0, column=3, rowspan=3, padx=0, pady=0)#固定大小frmLT.grid_propagate(0)frmLC.grid_propagate(0)frmLB.grid_propagate(0)frmRT.grid_propagate(0)btnSend.grid(row=2, column=0)btnCancel.grid(row=2, column=1)lblImage.grid()txtget.grid(row=0,column=0)txtMsgList.grid(row=0,column=1)txtMsg.grid()#主事件循环t.mainloop()if __name__ == '__main__':main()
以及可直接运行的exe文件:
链接:https://pan.baidu.com/s/1SrJZMlIOnBHAgPe3ZhzRDw 密码:shxu
喜欢的朋友可以点个赞鼓励鼓励呀~
感兴趣或者想要学习Python的朋友们可以点关注或收藏,后面会更新具体介绍及实现过程
谢谢大家~
Python爬虫(前言):有趣的一个爬虫实例(爬取段子,笑话,情感句子)相关推荐
- python爬取小说基本信息_Python爬虫零基础实例---爬取小说吧小说内容到本地
Python爬虫实例--爬取百度贴吧小说 写在前面本篇文章是我在简书上写的第一篇技术文章,作为一个理科生,能把仅剩的一点文笔拿出来献丑已是不易,希望大家能在指教我的同时给予我一点点鼓励,谢谢. 一.介 ...
- Python爬虫实例-爬取豆瓣电影Top250
这是本人Python爬虫实例的第二个实例,不过想来好像没有很大的难度所以适合当做新手入门的第一个爬虫.放在这里供大家参考. 本次实例爬取的网站为豆瓣电影Top250,使用到的第三方库有urllib,B ...
- 【Python】爬虫实例——爬取新闻并实现语音播报
[Python]爬虫实例--爬取新闻并实现语音播报 本文涉及: 1.爬虫请求链接 2.文字转语音(TTS语音合成技术) 安装: pip install pyttsx3 pip install requ ...
- AJAX教程美食滤镜,Python爬虫实例——爬取美团美食数据
1.分析美团美食网页的url参数构成 1)搜索要点 美团美食,地址:北京,搜索关键词:火锅 2)爬取的url https://bj.meituan.com/s/%E7%81%AB%E9%94%85/ ...
- 详细实例:用python爬虫爬取幽默笑话网站!(建议收藏)
前言: 今天为大家带来的内容是详细实例:用python爬虫爬取幽默笑话网站!(建议收藏),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下! 爬取网站为 ...
- python爬虫简单实例-爬取17K小说网小说
什么是网络爬虫? 网络爬虫(Web Spider),又被称为网页蜘蛛,是一种按照一定的规则,自动地抓取网站信息的程序或者脚本. 爬虫流程 先由urllib的request打开Url得到网页html文档 ...
- Python爬虫之豆瓣电影评论数据的爬取(十四)
原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080 本次代码的环境: 运行平台: Windows Python版本: ...
- python爬虫网络数据包_Python爬虫之多线程图虫网数据爬取(十六)
Python爬虫之多线程图虫网数据爬取(十六) 发布时间:2019-05-14 10:11, 浏览次数:289 , 标签: Python 原创不易,转载前请注明博主的链接地址:Blessy_Zhu h ...
- python爬虫今日头条_python爬虫—分析Ajax请求对json文件爬取今日头条街拍美图
python爬虫-分析Ajax请求对json文件爬取今日头条街拍美图 前言 本次抓取目标是今日头条的街拍美图,爬取完成之后,将每组图片下载到本地并保存到不同文件夹下.下面通过抓取今日头条街拍美图讲解一 ...
- Python爬虫:最牛逼的 selenium爬取方式!
Python爬虫:最牛逼的 selenium爬取方式! 作为一个男人 在最高光的时刻 这是小编准备的python爬虫学习资料,加群:700341555即可免费获取! Python爬虫:最牛逼的 sel ...
最新文章
- R语言使用ggplot2包使用geom_density()函数绘制分组密度图(分组拆分画板基于facet)实战(density plot)
- Hanlp在java中文分词中的使用介绍
- 【Windows】字符串处理
- BigDecimal源码解析
- 9.Java中的运算符
- “24小时城市图鉴”看人间,每个城市都有属于她的独特记忆!
- python task done_python queue task_done()问题
- 查找(洛谷P2249题题解,C++语言描述)
- 学习TeXworks编辑器(二)TAB补全详解与自定义补全命令总结
- 线程池选择使用的hash算法
- MySQL数据库设计-案例
- 三个下载原版Windows镜像的方法
- VISA+SCPI实现安捷伦或是德信号源+频谱仪程控
- (转)CSS实现一个会旋转的太极图案
- 在Flutter的项目中AndroidX Compatibility(AndroidX兼容性)配置
- 三栏式布局的几种实现方式
- 树莓派智能语音机器人
- android音频系统(4):AudioService之音量管理
- 产品 电信nb接口调用_电信物联网平台NBIoT使用Postman模拟测试接口
- 每日好店——淘宝店铺推荐系统实践