python爬虫微博评论图片_python爬虫爬取微博评论
原标题:python爬虫爬取微博评论
python爬虫是程序员们一定会掌握的知识,练习python爬虫时,很多人会选择爬取微博练手。python爬虫微博根据微博存在于不同媒介上,所爬取的难度有差异,无论是python新入手的小白,还是已经熟练掌握的程序员,可以拿来练手。本文介绍python爬取微博评论的代码实例。
一、爬虫微博
与QQ空间爬虫类似,可以爬取新浪微博用户的个人信息、微博信息、粉丝、关注和评论等。
爬虫抓取微博的速度可以达到 1300万/天 以上,具体要视网络情况。
难度程度排序:网页端>手机端>移动端。微博端就是最好爬的微博端。
二、python爬虫爬取微博评论
第一步:确定评论用户的id
# -*- coding:utf-8 -*-
import requests
import re
import time
import pandas
as pd
urls = 'https://m.weibo.cn/api/comments/show?id=4073157046629802&page={}'
headers = {'Cookies':'Your cookies',
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6)
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'}
第二步:找到html标签
tags = re.compile('?\w+[^>]*>')
第三步:设置提取评论function
def get_comment(url):
j = requests.get(url, headers=headers).json()
comment_data = j['data']['data']
for data in comment_data:
try:
第四步:利用正则表达式去除文本中的html标签
comment = tags.sub('', data['text']) # 去掉html标签
reply = tags.sub('', data['reply_text'])
weibo_id = data['id']
reply_id = data['reply_id']
comments.append(comment)
comments.append(reply)
ids.append(weibo_id)
ids.append(reply_id)
第五步:爬取评论
df = pd.DataFrame({'ID': ids, '评论': comments})
df = df.drop_duplicates()
df.to_csv('观察者网.csv', index=False, encoding='gb18030')
以上python爬虫爬取微博评论的实例,对于新入手的小白,可以用微博端练练手哦~
原文至:https://www.py.cn/spider/example/22977.html返回搜狐,查看更多
责任编辑:
python爬虫微博评论图片_python爬虫爬取微博评论相关推荐
- python最新官网图片_Python轻松爬取Rosimm写真网站全部图片
RosimmImage 有图有真相 def main_start(url): """ 爬虫入口,主要爬取操作 """ try: r = re ...
- python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论——学霸君
python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论--学霸君 import requests import re import requests from bs4 import ...
- python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论——作业帮
python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论--作业帮 import requests import re import requests from bs4 import ...
- python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论——小猿搜题
python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论--小猿搜题 import requests import re import requests from bs4 import ...
- python微博爬虫实战_爬虫实战(一):爬取微博用户信息
前言 最近做课设,是一个有关个人隐私安全的课题,在网上找了很多论文,最后上海交通大学的一篇硕士论文<面向社会工程学的SNS分析和挖掘>[1] 给了我很多灵感,因为是对个人隐私安全进行评估, ...
- python爬取微博热搜写入数据库_python实现爬取微博热搜存入Mysql
python爬取微博热搜存入Mysql最终的效果 使用的库 目标分析 一:得到数据 二:链接数据库 总代码 最终的效果 废话不多少,直接上图 这里可以清楚的看到,数据库里包含了日期,内容,和网站lin ...
- python爬虫知乎图片_python爬虫(爬取知乎答案图片)
python爬虫(爬取知乎答案图片) 1.⾸先,你要在电脑⾥安装 python 的环境 我会提供2.7和3.6两个版本的代码,但是本⽂只以python3.6版本为例. 安装完成后,打开你电脑的终端(T ...
- python爬虫快速下载图片_Python爬虫入门:批量爬取网上图片的两种简单实现方式——基于urllib与requests...
Python到底多强大,绝对超乎菜鸟们(当然也包括我了)的想象.近期我接触到了爬虫,被小小地震撼一下.总体的感觉就两个词--"强大"和"有趣".今天就跟大家分享 ...
- python爬虫百度图片_python实现爬取百度图片的方法示例
本文实例讲述了python实现爬取百度图片的方法.分享给大家供大家参考,具体如下: import json import itertools import urllib import requests ...
最新文章
- BZOJ 2440: [中山市选2011]完全平方数 [容斥原理 莫比乌斯函数]
- java中文件操作的工具类
- mysql时间相减得到毫秒值_Mysql 字符串、时间、时间戳相互转换,相减获取秒数...
- java 开源缓存框架--转载
- 怎样用MATLAB画二次函数曲线,MATLAB 二次函数的画图.doc
- 深度优先搜索——First Step(洛谷 P3654)
- MySQL高可用--MGR入门(4)异常恢复
- TCA9548A iic地址扩展器件 树莓派JAVA版教程
- PowerDesigner连接mysql逆向生成pdm
- android 内存对齐,Go struct 内存对齐
- 网站smtp服务器,SMTP服务器
- Ajax不执行回调函数
- 求水洼的问题——深度优先算法
- RV1126笔记二:rkmedia测试
- Manifest基本
- omnipeek抓包(确定设备AP模式下的MAC地址+过滤)
- uniapp实现多级菜单选择u-select
- linux python3安装uwsgi报错问题解决
- 计算机音乐 青春,2017年网络青春经典励志歌曲排行榜
- 21秋期末考试公共经济学10834k1