python-爬取贴吧的时候表情的处理。
今天笔者分享一下使用scrapy爬取百度贴吧的时候遇到的表情问题,一直未解决因为表情入库的问题再网上查了好久,从网上看到修改数据库字段的编码格式,但是一直修改的有问题,最终修改了好久才得解决,今天分享下来方便其他人如果遇到这类的问题。
python2的解决方法直接上代码如下:
def filter_emoji(desstr, restr=''):'''过滤表情'''try:co = re.compile(u'[\U00010000-\U0010ffff]')except re.error:co = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]')return co.sub(restr, desstr)# safe_name = self.filter_emoji(item['lzhu_name']) //字段的过滤
# safe_title = self.filter_emoji(item['title']) //字段的过滤
python3的解决方法
建表的时候是每一个字段都设置成utf8mb4
字符集,保存即可,当然存到数据库中的数据并不能去除表情而是表情变成了如下图:
网页链接可以分享给你自己看: http://tieba.baidu.com/p/4936875375
好分享结束,希望能帮到你。
python-爬取贴吧的时候表情的处理。相关推荐
- 聊天没有表情包被嘲讽,程序员直接用python爬取了十万张表情包
聊天没有表情包被嘲讽,程序员直接用python爬取了十万张表情包 前言 分析页面 具体实现 解析页面 获取网页内容 解析网页内容 文件下载 多线程下载 成果 总结 前言 事情要从几天前说起,我有一个朋 ...
- python爬取表情包,并下载到本地
python爬取表情包 需求:爬取2页表情包,网址是:https://www.fabiaoqing.com/biaoqing 上代码 import requests # 数据请求模块 import p ...
- 教你用Python爬取表情包网站下的全部表情图片
教你用Python爬取表情包网站下的全部表情图片 又是我啦~~~ 最近上网的时候老看到有人用Python爬取表情包,心痒痒自己也整了一个. 使用到的扩展库:BeautifulSoup, request ...
- python爬取斗图啦表情包并下载到本地
迫于无聊,又刚好正在学习python,就来记录一篇关于python爬取图片链接下载本地的入门文章... 主要用到的模块: request 和 BeautifulSoup4 开发之前建议先看一下官方给出 ...
- 聊天没有表情包被嘲讽,用python爬取了十万张表情包
来源于网络,侵删 前言 事情要从几天前说起,我有一个朋友,他在和他喜欢的小姐姐聊天时,聊天的气氛一直非常尬,这时他就想发点表情包来缓和一下气氛,但一看自己的表情包收藏都是这样的... ...这发过去, ...
- Python 爬取表情包-斗图不会输在起跑线
Python 爬取表情包-斗图不会输在起跑线 对于酷爱聊天的朋友来说,表情包应该是他们心中的灵魂,没有图的聊天只能算虾扯蛋了.图片(表情包)赋予了聊天更多的内涵,很多时候 ...
- python全网表情包_Python爬虫爬取最右公众号表情包资源
某天上厕所刷手机,看到最右公众号里面有一个表情包资源合集 点进去发现有70多期表情包,突然就想到了最近学的爬虫,立马跑回去打开电脑准备看能不能全部爬下来. 我的想法是先找到这70多期的url链接,然后 ...
- 看看你爱的他今天是什么‘颜色‘ -- Python爬取微博评论制作专属偶像词云
简介:快来拿出你珍藏的pick star,用大家对他的爱重塑一个他吧.通过爬取微博评论,制作你的偶像图片词云,天天都是不重样的哦! 很多人学习python,不知道从何学起. 很多人学习python,掌 ...
- 【爬虫+数据可视化】Python爬取CSDN博客访问量数据并绘制成柱状图
以下内容为本人原创,欢迎大家观看学习,禁止用于商业及非法用途,谢谢合作! ·作者:@Yhen ·原文网站:CSDN ·原文链接:https://blog.csdn.net/Yhen1/article/ ...
- 用Python爬取微信好友头像,才知道好友都是这样的人
用Pyhon爬取微信好友头像,才知道好友是这样的人 看你的微信头像,就知道你没见过世面 看你的微信名称,我就猜到了你是个渣男 看你的朋友圈,就能反映出你很好追 选择微信头像的纠结症 现如今,不管是常用 ...
最新文章
- Can't create table... error150
- java分批查询oracle数据库_数据库的分批查询问题
- 八款开源Android游戏引擎
- AspNetCore结合Redis实践消息队列
- centos7镜像加速_docker 镜像加速CentOS7详细介绍
- python开发_xml.etree.ElementTree_XML文件操作
- Myeclipse8.6中安装SVN插件
- xml格式校验工具_logback 日志输出格式
- 认知无线电网络中的频谱切换
- 税控数据接口之XML接口导入
- 支付宝芝麻认证接口-扫码方式(芝麻认证接口与之类似)
- CODEVS 1069 关押罪犯
- Detail-revealing Deep Video Super-resolution 论文笔记
- 捋一捋Unified Language Model Pre-training for Natural Language Understanding and Generation
- 识别速度3.6ms/帧,人像抠图、工业质检、遥感识别,用这一个分割模型就够了
- 乐行天下激光雷达文件升级及wifi配置(Android系统版本)
- 【MySQL】数据库中的三大范式
- java中如何避免空指针异常
- C语言实验——用*号输出字母C的图案
- Base16和Base64不同的用途
热门文章
- (VGG)VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION--Karen Simonyan
- Windows7Windows10兼容红色警戒
- apple pencil二代值不值得买?iPad电容笔测评
- 谷歌翻译SDK (Google Translate SDK)的使用
- java 判断星期几_Java中如何判断某天是星期几
- java excel 批注_Java 添加、读取和删除 Excel 批注
- 华为服务器怎么设置u盘启动安装系统,服务器怎么设置u盘启动
- 基于K210的人脸识别门禁
- 苹果系统版本依次顺序_苹果手机机型排行顺序
- OSError: could not get source code