原标题:python爬虫爬取微博评论

python爬虫是程序员们一定会掌握的知识,练习python爬虫时,很多人会选择爬取微博练手。python爬虫微博根据微博存在于不同媒介上,所爬取的难度有差异,无论是python新入手的小白,还是已经熟练掌握的程序员,可以拿来练手。本文介绍python爬取微博评论的代码实例。

一、爬虫微博

与QQ空间爬虫类似,可以爬取新浪微博用户的个人信息、微博信息、粉丝、关注和评论等。

爬虫抓取微博的速度可以达到 1300万/天 以上,具体要视网络情况。

难度程度排序:网页端>手机端>移动端。微博端就是最好爬的微博端。

二、python爬虫爬取微博评论

第一步:确定评论用户的id

# -*- coding:utf-8 -*-

import requests

import re

import time

import pandas

as pd

urls = 'https://m.weibo.cn/api/comments/show?id=4073157046629802&page={}'

headers = {'Cookies':'Your cookies',

'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6)

AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'}

第二步:找到html标签

tags = re.compile('?\w+[^>]*>')

第三步:设置提取评论function

def get_comment(url):

j = requests.get(url, headers=headers).json()

comment_data = j['data']['data']

for data in comment_data:

try:

第四步:利用正则表达式去除文本中的html标签

comment = tags.sub('', data['text']) # 去掉html标签

reply = tags.sub('', data['reply_text'])

weibo_id = data['id']

reply_id = data['reply_id']

comments.append(comment)

comments.append(reply)

ids.append(weibo_id)

ids.append(reply_id)

第五步:爬取评论

df = pd.DataFrame({'ID': ids, '评论': comments})

df = df.drop_duplicates()

df.to_csv('观察者网.csv', index=False, encoding='gb18030')

以上python爬虫爬取微博评论的实例,对于新入手的小白,可以用微博端练练手哦~

原文至:https://www.py.cn/spider/example/22977.html返回搜狐,查看更多

责任编辑:

python爬虫微博评论图片_python爬虫爬取微博评论相关推荐

  1. python最新官网图片_Python轻松爬取Rosimm写真网站全部图片

    RosimmImage 有图有真相 def main_start(url): """ 爬虫入口,主要爬取操作 """ try: r = re ...

  2. python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论——学霸君

    python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论--学霸君 import requests import re import requests from bs4 import ...

  3. python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论——作业帮

    python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论--作业帮 import requests import re import requests from bs4 import ...

  4. python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论——小猿搜题

    python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论--小猿搜题 import requests import re import requests from bs4 import ...

  5. python微博爬虫实战_爬虫实战(一):爬取微博用户信息

    前言 最近做课设,是一个有关个人隐私安全的课题,在网上找了很多论文,最后上海交通大学的一篇硕士论文<面向社会工程学的SNS分析和挖掘>[1] 给了我很多灵感,因为是对个人隐私安全进行评估, ...

  6. python爬取微博热搜写入数据库_python实现爬取微博热搜存入Mysql

    python爬取微博热搜存入Mysql最终的效果 使用的库 目标分析 一:得到数据 二:链接数据库 总代码 最终的效果 废话不多少,直接上图 这里可以清楚的看到,数据库里包含了日期,内容,和网站lin ...

  7. python爬虫知乎图片_python爬虫(爬取知乎答案图片)

    python爬虫(爬取知乎答案图片) 1.⾸先,你要在电脑⾥安装 python 的环境 我会提供2.7和3.6两个版本的代码,但是本⽂只以python3.6版本为例. 安装完成后,打开你电脑的终端(T ...

  8. python爬虫快速下载图片_Python爬虫入门:批量爬取网上图片的两种简单实现方式——基于urllib与requests...

    Python到底多强大,绝对超乎菜鸟们(当然也包括我了)的想象.近期我接触到了爬虫,被小小地震撼一下.总体的感觉就两个词--"强大"和"有趣".今天就跟大家分享 ...

  9. python爬虫百度图片_python实现爬取百度图片的方法示例

    本文实例讲述了python实现爬取百度图片的方法.分享给大家供大家参考,具体如下: import json import itertools import urllib import requests ...

最新文章

  1. BZOJ 2440: [中山市选2011]完全平方数 [容斥原理 莫比乌斯函数]
  2. java中文件操作的工具类
  3. mysql时间相减得到毫秒值_Mysql 字符串、时间、时间戳相互转换,相减获取秒数...
  4. java 开源缓存框架--转载
  5. 怎样用MATLAB画二次函数曲线,MATLAB 二次函数的画图.doc
  6. 深度优先搜索——First Step(洛谷 P3654)
  7. MySQL高可用--MGR入门(4)异常恢复
  8. TCA9548A iic地址扩展器件 树莓派JAVA版教程
  9. PowerDesigner连接mysql逆向生成pdm
  10. android 内存对齐,Go struct 内存对齐
  11. 网站smtp服务器,SMTP服务器
  12. Ajax不执行回调函数
  13. 求水洼的问题——深度优先算法
  14. RV1126笔记二:rkmedia测试
  15. Manifest基本
  16. omnipeek抓包(确定设备AP模式下的MAC地址+过滤)
  17. uniapp实现多级菜单选择u-select
  18. linux python3安装uwsgi报错问题解决
  19. 计算机音乐 青春,2017年网络青春经典励志歌曲排行榜
  20. 21秋期末考试公共经济学10834k1

热门文章

  1. html p代码的效果,html元素 p 标签的使用方法及作用
  2. Python 编程从入门到实践 11-3
  3. i春秋 upload
  4. eclipse Android添加权限
  5. matlab三维螺旋,如何在MATLAB或Python中生成三维螺旋线?
  6. NameNode HA配置详解
  7. python时间戳是什么意思_python时间戳是什么
  8. 立夏游雪上,赏奇花,正当时:天台九遮山
  9. Unity 绘制弹球和台球的运动轨迹
  10. bzoj 1633: [Usaco2007 Feb]The Cow Lexicon 牛的词典【dp】