python跑一亿次循环_python爬虫爬取微博评论
原标题:python爬虫爬取微博评论
python爬虫是程序员们一定会掌握的知识,练习python爬虫时,很多人会选择爬取微博练手。python爬虫微博根据微博存在于不同媒介上,所爬取的难度有差异,无论是python新入手的小白,还是已经熟练掌握的程序员,可以拿来练手。本文介绍python爬取微博评论的代码实例。
一、爬虫微博
与QQ空间爬虫类似,可以爬取新浪微博用户的个人信息、微博信息、粉丝、关注和评论等。
爬虫抓取微博的速度可以达到 1300万/天 以上,具体要视网络情况。
难度程度排序:网页端>手机端>移动端。微博端就是最好爬的微博端。
二、python爬虫爬取微博评论
第一步:确定评论用户的id
# -*- coding:utf-8 -*-
import requests
import re
import time
import pandas
as pd
urls = 'https://m.weibo.cn/api/comments/show?id=4073157046629802&page={}'
headers = {'Cookies':'Your cookies',
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6)
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'}
第二步:找到html标签
tags = re.compile('?\w+[^>]*>')
第三步:设置提取评论function
def get_comment(url):
j = requests.get(url, headers=headers).json()
comment_data = j['data']['data']
for data in comment_data:
try:
第四步:利用正则表达式去除文本中的html标签
comment = tags.sub('', data['text']) # 去掉html标签
reply = tags.sub('', data['reply_text'])
weibo_id = data['id']
reply_id = data['reply_id']
comments.append(comment)
comments.append(reply)
ids.append(weibo_id)
ids.append(reply_id)
第五步:爬取评论
df = pd.DataFrame({'ID': ids, '评论': comments})
df = df.drop_duplicates()
df.to_csv('观察者网.csv', index=False, encoding='gb18030')
以上python爬虫爬取微博评论的实例,对于新入手的小白,可以用微博端练练手哦~
原文至:https://www.py.cn/spider/example/22977.html
python跑一亿次循环_python爬虫爬取微博评论相关推荐
- python爬虫微博评论图片_python爬虫爬取微博评论
原标题:python爬虫爬取微博评论 python爬虫是程序员们一定会掌握的知识,练习python爬虫时,很多人会选择爬取微博练手.python爬虫微博根据微博存在于不同媒介上,所爬取的难度有差异,无 ...
- php抓取微博评论,python爬虫爬取微博评论案例详解
前几天,杨超越编程大赛火了,大家都在报名参加,而我也是其中的一员. 在我们的项目中,我负责的是数据爬取这块,我主要是把对于杨超越 的每一条评论的相关信息. 数据格式:{"name" ...
- python跑一亿次循环_python、rust、julia循环10亿次的时间对比
一.python代码[原生] import time t1 = time.time() sum = 0 for i in range(1000000001): sum += 1 print(f&quo ...
- python xpath循环_Python爬虫 爬取北京二手房数据
点击蓝字"python教程"关注我们哟! 前言 Python现在非常火,语法简单而且功能强大,很多同学都想学Python!所以小的给各位看官们准备了高价值Python学习视频教程及 ...
- Python爬虫爬取微博评论案例详解
文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧 前几天,杨超越编程大赛火了,大家都在报名参加,而我也是其中的一员. 在我们的项目中 ...
- python爬取微博热搜写入数据库_python爬虫爬取微博热搜
[实例简介] [实例截图] [核心代码] import requests #数据抓取库 from lxml import etree #数据解析库 imp ...
- python爬取微博恶评_python爬取微博评论的实例讲解
python爬虫是程序员们一定会掌握的知识,练习python爬虫时,很多人会选择爬取微博练手.python爬虫微博根据微博存在于不同媒介上,所爬取的难度有差异,无论是python新入手的小白,还是已经 ...
- python爬取微博评论点赞数_python 爬虫 爬微博 分析 数据
python 爬虫 爬微博分析 数据 最近刚看完爱情公寓5,里面的大力也太好看了吧... 打开成果的微博,小作文一样的微博看着也太爽了吧... 来 用python分析分析 狗哥这几年微博的干了些啥. ...
- 用python爬虫爬取微博信息
用python爬虫爬取微博信息 话不多说,直接上代码! import requests from bs4 import BeautifulSoup from urllib import parse i ...
最新文章
- 一次 MySQL 千万级大表的优化过程
- 为你揭示最危害程序员职业生涯的三大观念
- 开课吧python学费-分享一个小白也能月赚2万的新技能
- 156. Leetcode 53. 最大子数组和 (贪心算法-进阶题目)
- 在vue中安装使用vux
- 1085 PAT单位排行 (25 分
- 使用dropwizard(3)-加入DI-dagger2
- 156 - Ananagrams
- 叮咚!7.24运维节,您有一份礼物待查收!
- LeetCode-----反转链表
- php70w-mysql_Centos Apache+PHP5.6/PHP7.0+mysql5.5
- Delphi中常用字符串处理函数
- 三菱PLC软件有LINUX版本吗,三菱PLC编程软件(GX Developer)
- 怎么学计算机制作ppt,怎样制作ppt详细步骤(电脑怎么做ppt新手)
- 在线License管理系统(支持离线授权)
- 最美应用-从Android研发工程师的角度之[厨房故事]
- pandas 转换为文本类型_python – pandas将文本特征转换为数值
- 1024·程序员节校园编程专业活动策划(低调版)
- artemis服务_Artemis安装
- R语言回归分析-异常观测值