今天笔者分享一下使用scrapy爬取百度贴吧的时候遇到的表情问题,一直未解决因为表情入库的问题再网上查了好久,从网上看到修改数据库字段的编码格式,但是一直修改的有问题,最终修改了好久才得解决,今天分享下来方便其他人如果遇到这类的问题。

python2的解决方法直接上代码如下:
def filter_emoji(desstr, restr=''):'''过滤表情'''try:co = re.compile(u'[\U00010000-\U0010ffff]')except re.error:co = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]')return co.sub(restr, desstr)# safe_name = self.filter_emoji(item['lzhu_name'])  //字段的过滤
# safe_title = self.filter_emoji(item['title'])  //字段的过滤
python3的解决方法


建表的时候是每一个字段都设置成utf8mb4字符集,保存即可,当然存到数据库中的数据并不能去除表情而是表情变成了如下图:

网页链接可以分享给你自己看: http://tieba.baidu.com/p/4936875375

好分享结束,希望能帮到你。

python-爬取贴吧的时候表情的处理。相关推荐

  1. 聊天没有表情包被嘲讽,程序员直接用python爬取了十万张表情包

    聊天没有表情包被嘲讽,程序员直接用python爬取了十万张表情包 前言 分析页面 具体实现 解析页面 获取网页内容 解析网页内容 文件下载 多线程下载 成果 总结 前言 事情要从几天前说起,我有一个朋 ...

  2. python爬取表情包,并下载到本地

    python爬取表情包 需求:爬取2页表情包,网址是:https://www.fabiaoqing.com/biaoqing 上代码 import requests # 数据请求模块 import p ...

  3. 教你用Python爬取表情包网站下的全部表情图片

    教你用Python爬取表情包网站下的全部表情图片 又是我啦~~~ 最近上网的时候老看到有人用Python爬取表情包,心痒痒自己也整了一个. 使用到的扩展库:BeautifulSoup, request ...

  4. python爬取斗图啦表情包并下载到本地

    迫于无聊,又刚好正在学习python,就来记录一篇关于python爬取图片链接下载本地的入门文章... 主要用到的模块: request 和 BeautifulSoup4 开发之前建议先看一下官方给出 ...

  5. 聊天没有表情包被嘲讽,用python爬取了十万张表情包

    来源于网络,侵删 前言 事情要从几天前说起,我有一个朋友,他在和他喜欢的小姐姐聊天时,聊天的气氛一直非常尬,这时他就想发点表情包来缓和一下气氛,但一看自己的表情包收藏都是这样的... ...这发过去, ...

  6. Python 爬取表情包-斗图不会输在起跑线

                   Python 爬取表情包-斗图不会输在起跑线 对于酷爱聊天的朋友来说,表情包应该是他们心中的灵魂,没有图的聊天只能算虾扯蛋了.图片(表情包)赋予了聊天更多的内涵,很多时候 ...

  7. python全网表情包_Python爬虫爬取最右公众号表情包资源

    某天上厕所刷手机,看到最右公众号里面有一个表情包资源合集 点进去发现有70多期表情包,突然就想到了最近学的爬虫,立马跑回去打开电脑准备看能不能全部爬下来. 我的想法是先找到这70多期的url链接,然后 ...

  8. 看看你爱的他今天是什么‘颜色‘ -- Python爬取微博评论制作专属偶像词云

    简介:快来拿出你珍藏的pick star,用大家对他的爱重塑一个他吧.通过爬取微博评论,制作你的偶像图片词云,天天都是不重样的哦! 很多人学习python,不知道从何学起. 很多人学习python,掌 ...

  9. 【爬虫+数据可视化】Python爬取CSDN博客访问量数据并绘制成柱状图

    以下内容为本人原创,欢迎大家观看学习,禁止用于商业及非法用途,谢谢合作! ·作者:@Yhen ·原文网站:CSDN ·原文链接:https://blog.csdn.net/Yhen1/article/ ...

  10. 用Python爬取微信好友头像,才知道好友都是这样的人

    用Pyhon爬取微信好友头像,才知道好友是这样的人 看你的微信头像,就知道你没见过世面 看你的微信名称,我就猜到了你是个渣男 看你的朋友圈,就能反映出你很好追 选择微信头像的纠结症 现如今,不管是常用 ...

最新文章

  1. Can't create table... error150
  2. java分批查询oracle数据库_数据库的分批查询问题
  3. 八款开源Android游戏引擎
  4. AspNetCore结合Redis实践消息队列
  5. centos7镜像加速_docker 镜像加速CentOS7详细介绍
  6. python开发_xml.etree.ElementTree_XML文件操作
  7. Myeclipse8.6中安装SVN插件
  8. xml格式校验工具_logback 日志输出格式
  9. 认知无线电网络中的频谱切换
  10. 税控数据接口之XML接口导入
  11. 支付宝芝麻认证接口-扫码方式(芝麻认证接口与之类似)
  12. CODEVS 1069 关押罪犯
  13. Detail-revealing Deep Video Super-resolution 论文笔记
  14. 捋一捋Unified Language Model Pre-training for Natural Language Understanding and Generation
  15. 识别速度3.6ms/帧,人像抠图、工业质检、遥感识别,用这一个分割模型就够了
  16. 乐行天下激光雷达文件升级及wifi配置(Android系统版本)
  17. 【MySQL】数据库中的三大范式
  18. java中如何避免空指针异常
  19. C语言实验——用*号输出字母C的图案
  20. Base16和Base64不同的用途

热门文章

  1. (VGG)VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION--Karen Simonyan
  2. Windows7Windows10兼容红色警戒
  3. apple pencil二代值不值得买?iPad电容笔测评
  4. 谷歌翻译SDK (Google Translate SDK)的使用
  5. java 判断星期几_Java中如何判断某天是星期几
  6. java excel 批注_Java 添加、读取和删除 Excel 批注
  7. 华为服务器怎么设置u盘启动安装系统,服务器怎么设置u盘启动
  8. 基于K210的人脸识别门禁
  9. 苹果系统版本依次顺序_苹果手机机型排行顺序
  10. OSError: could not get source code