原标题:python爬虫爬取微博评论

python爬虫是程序员们一定会掌握的知识,练习python爬虫时,很多人会选择爬取微博练手。python爬虫微博根据微博存在于不同媒介上,所爬取的难度有差异,无论是python新入手的小白,还是已经熟练掌握的程序员,可以拿来练手。本文介绍python爬取微博评论的代码实例。

一、爬虫微博

与QQ空间爬虫类似,可以爬取新浪微博用户的个人信息、微博信息、粉丝、关注和评论等。

爬虫抓取微博的速度可以达到 1300万/天 以上,具体要视网络情况。

难度程度排序:网页端>手机端>移动端。微博端就是最好爬的微博端。

二、python爬虫爬取微博评论

第一步:确定评论用户的id

# -*- coding:utf-8 -*-

import requests

import re

import time

import pandas

as pd

urls = 'https://m.weibo.cn/api/comments/show?id=4073157046629802&page={}'

headers = {'Cookies':'Your cookies',

'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6)

AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'}

第二步:找到html标签

tags = re.compile('?\w+[^>]*>')

第三步:设置提取评论function

def get_comment(url):

j = requests.get(url, headers=headers).json()

comment_data = j['data']['data']

for data in comment_data:

try:

第四步:利用正则表达式去除文本中的html标签

comment = tags.sub('', data['text']) # 去掉html标签

reply = tags.sub('', data['reply_text'])

weibo_id = data['id']

reply_id = data['reply_id']

comments.append(comment)

comments.append(reply)

ids.append(weibo_id)

ids.append(reply_id)

第五步:爬取评论

df = pd.DataFrame({'ID': ids, '评论': comments})

df = df.drop_duplicates()

df.to_csv('观察者网.csv', index=False, encoding='gb18030')

以上python爬虫爬取微博评论的实例,对于新入手的小白,可以用微博端练练手哦~

原文至:https://www.py.cn/spider/example/22977.html

python跑一亿次循环_python爬虫爬取微博评论相关推荐

  1. python爬虫微博评论图片_python爬虫爬取微博评论

    原标题:python爬虫爬取微博评论 python爬虫是程序员们一定会掌握的知识,练习python爬虫时,很多人会选择爬取微博练手.python爬虫微博根据微博存在于不同媒介上,所爬取的难度有差异,无 ...

  2. php抓取微博评论,python爬虫爬取微博评论案例详解

    前几天,杨超越编程大赛火了,大家都在报名参加,而我也是其中的一员. 在我们的项目中,我负责的是数据爬取这块,我主要是把对于杨超越 的每一条评论的相关信息. 数据格式:{"name" ...

  3. python跑一亿次循环_python、rust、julia循环10亿次的时间对比

    一.python代码[原生] import time t1 = time.time() sum = 0 for i in range(1000000001): sum += 1 print(f&quo ...

  4. python xpath循环_Python爬虫 爬取北京二手房数据

    点击蓝字"python教程"关注我们哟! 前言 Python现在非常火,语法简单而且功能强大,很多同学都想学Python!所以小的给各位看官们准备了高价值Python学习视频教程及 ...

  5. Python爬虫爬取微博评论案例详解

    文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧 前几天,杨超越编程大赛火了,大家都在报名参加,而我也是其中的一员. 在我们的项目中 ...

  6. python爬取微博热搜写入数据库_python爬虫爬取微博热搜

    [实例简介] [实例截图] [核心代码] import requests                #数据抓取库 from lxml import etree         #数据解析库 imp ...

  7. python爬取微博恶评_python爬取微博评论的实例讲解

    python爬虫是程序员们一定会掌握的知识,练习python爬虫时,很多人会选择爬取微博练手.python爬虫微博根据微博存在于不同媒介上,所爬取的难度有差异,无论是python新入手的小白,还是已经 ...

  8. python爬取微博评论点赞数_python 爬虫 爬微博 分析 数据

    python 爬虫 爬微博分析 数据 最近刚看完爱情公寓5,里面的大力也太好看了吧... 打开成果的微博,小作文一样的微博看着也太爽了吧... 来 用python分析分析 狗哥这几年微博的干了些啥. ...

  9. 用python爬虫爬取微博信息

    用python爬虫爬取微博信息 话不多说,直接上代码! import requests from bs4 import BeautifulSoup from urllib import parse i ...

最新文章

  1. 一次 MySQL 千万级大表的优化过程
  2. 为你揭示最危害程序员职业生涯的三大观念
  3. 开课吧python学费-分享一个小白也能月赚2万的新技能
  4. 156. Leetcode 53. 最大子数组和 (贪心算法-进阶题目)
  5. 在vue中安装使用vux
  6. 1085 PAT单位排行 (25 分
  7. 使用dropwizard(3)-加入DI-dagger2
  8. 156 - Ananagrams
  9. 叮咚!7.24运维节,您有一份礼物待查收!
  10. LeetCode-----反转链表
  11. php70w-mysql_Centos Apache+PHP5.6/PHP7.0+mysql5.5
  12. Delphi中常用字符串处理函数
  13. 三菱PLC软件有LINUX版本吗,三菱PLC编程软件(GX Developer)
  14. 怎么学计算机制作ppt,怎样制作ppt详细步骤(电脑怎么做ppt新手)
  15. 在线License管理系统(支持离线授权)
  16. 最美应用-从Android研发工程师的角度之[厨房故事]
  17. pandas 转换为文本类型_python – pandas将文本特征转换为数值
  18. 1024·程序员节校园编程专业活动策划(低调版)
  19. artemis服务_Artemis安装
  20. R语言回归分析-异常观测值

热门文章

  1. Java面试题:单例设计模式、适配器模式的不同方式
  2. python D28 粘包
  3. Cluster - LB - haproxy
  4. PHP基础班初学感悟
  5. .net学习笔记----WebConfig常用配置节点介绍
  6. jQuery 的各种练习
  7. 异常单据锁定涉及的数据库表
  8. 王道计算机网络 数据链路层整理 超详细版
  9. Leetcode--7. 整数反转
  10. java 按钮 颜色_改变按钮颜色的java事件,个人成果!