Python + Tweepy 实现Twitter信息抓取(1)——准备阶段
- 账号准备
- 环境准备
- 测试
账号准备
- 首先需要在twitter官方注册twitter账号,并新建一个应用,链接:新建应用
- 如果新建应用不成功,国内大多数情况都是无法验证手机号,可以参考这个教程,亲测有效,链接:验证手机号
- 注册成功后,可以查看自己的keys and access token,如下图:
环境准备
- 安装python
- 安装pip:
进入命令行,把目录切换到python的安装目录下的Script文件夹下,运行 easy_inatall pip - 安装tweepy:
在命令行中输入:pip install tweepy
测试
测试代码如下:
# -*- coding: utf-8 -*-
import tweepy
from tweepy import OAuthHandlerconsumer_key = 'replace your own account consumer_key'
consumer_secret = 'replace your own account consumer_secret'
access_token = 'replace your own account access_token'
access_secret = 'replace your own account access_secret'auth = OAuthHandler(consumer_key,consumer_secret)
auth.set_access_token(access_token,access_secret)api = tweepy.API(auth)for status in tweepy.Cursor(api.home_timeline).items(2):print (status.text)
但是这样可能会报错,报错信息如下:
tweepy.error.TweepError: Failed to send request: HTTPSConnectionPool(host='api.twitter.com', port=443): Max retries exceeded with url: /1.1/statuses/home_timeline.json (Caused by ProxyError('Cannot connect to proxy.', NewConnectionError('<requests.packages.urllib3.connection.VerifiedHTTPSConnection object at 0x0000000002FC6E80>: Failed to establish a new connection: [Errno 10061] ',)))
主要原因就是twitter被墙了,twitter的api当然也被墙了。
这时候就需要挂代理翻墙了,我使用的是自己搭建的shadowsockets。其它翻墙软件或者服务器网上有很多,请自行查找。
代理打开了之后,在原代码中,将
api = tweepy.API(auth)
改为
api = tweepy.API(auth,proxy="127.0.0.1:1080")
测试结果:成功获取了两条内容
Python + Tweepy 实现Twitter信息抓取(1)——准备阶段相关推荐
- python——爬虫实现网页信息抓取
首先实现关于网页解析.读取等操作我们要用到以下几个模块 import urllib import urllib2 import re 我们可以尝试一下用readline方法读某个网站,比如说百度 de ...
- Python基础之12306车票信息抓取案例
Python基础之12306车票信息抓取案例 注:12306上请求网址链接经常变化,需要随时检查更改(我已经修改三遍了),请求的数据也有小几率发生变动,所以也需要检查更改 2018-10-22 第四遍 ...
- python京东图书信息抓取
import requests from bs4 import BeautifulSoup from fake_useragent import UserAgent #京东图书信息抓取 def get ...
- Python爬虫实战六之抓取爱问知识人问题并保存至数据库
大家好,本次为大家带来的是抓取爱问知识人的问题并将问题和答案保存到数据库的方法,涉及的内容包括: Urllib的用法及异常处理 Beautiful Soup的简单应用 MySQLdb的基础用法 正则表 ...
- [Python爬虫] 三、数据抓取之Requests HTTP 库
往期内容提要: [Python爬虫] 一.爬虫原理之HTTP和HTTPS的请求与响应 [Python爬虫] 二.爬虫原理之定义.分类.流程与编码格式 一.urllib 模块 所谓网页抓取,就是把URL ...
- [Python爬虫] 四、数据抓取之HTTP/HTTPS抓包工具Fiddler
往期内容提要: [Python爬虫] 一.爬虫原理之HTTP和HTTPS的请求与响应 [Python爬虫] 二.爬虫原理之定义.分类.流程与编码格式 [Python爬虫] 三.数据抓取之Request ...
- 基于 Scrapy-Redis 全国房源信息抓取系统
基于 Scrapy-Redis 全国房源信息抓取系统 摘要 近几年,人们对房源信息的关注度越来越高.如何对全国房源信息进行灵活高效的采集并存储,对全国房源信息的分析工作起到重要作用.文中在分析房天下站 ...
- 用python爬虫下载视频_使用Python编写简单网络爬虫抓取视频下载资源
我第一次接触爬虫这东西是在今年的5月份,当时写了一个博客搜索引擎,所用到的爬虫也挺智能的,起码比电影来了这个站用到的爬虫水平高多了! 回到用Python写爬虫的话题. Python一直是我主要使用的脚 ...
- python爬取微博用户正文_基于Python的新浪微博用户信息爬取与分析
基于 Python 的新浪微博用户信息爬取与分析 邓文萍 [摘 要] 摘要:本文设计并实现了一个微博用户信息爬取与分析系统 , 利用 Cookie 实现了用户的模拟登录 , 使用 Python 语言的 ...
最新文章
- Android应用连接代理服务器状况监测解决
- MySQL缓存的查询和清除命令使用详解
- WSGI服务器实践二--实践一个基本功能的WSGI服务器
- linux python tab补全_python交互模式下实现tab自动补全功能
- 小米8ios图标包下载_小米手机中这么实用的隐藏功能,知道的人居然那么少?真可惜...
- push推送服务设计
- 【codevs1227】方格取数2(最大流费最大流-模板
- C#中使用反射遍历一个对象属性和值以及百分数
- 总结定时器设计方法_PLC定时器(T)的工作原理及使用注意事项
- win10计算机系统优化设置,win10最详细优化设置 win10全面优化教程
- Linux恢复数据软件,Linux数据恢复工具推荐
- Kylin 之Cube 构建优化
- windows下Git连接使用
- android 连笔记本无线上网,android手机通过笔记本的网络实现无线wifi上网
- oracle自学OCA,上海学习oracle OCA
- 最简单的python语言实现汉诺塔游戏
- 华为p10计算机器在哪,华为P10怎么连接电脑教程
- 丛林木马(数学 思维
- 大赢家软件测试工资,C++实验:某学校对教师每月工资的计算规定如下:固定工资+课时补贴。...
- 数值分析试题解析p172页 1/h[u(xi+1,tk)-u(xi-1,tk)]对应的截断误差是否答案给错了,应该是h^2/3而不是h^2/6
热门文章
- HEARTS, CLUBS, DIAMONDS, SPADES: PLAYERS WHO SUIT MUDS
- 量能决定趋势 通达信趋势起妖副图 趋势量能选股指标源码
- 数据结构入门(8) ——查找
- AR502H-CN开发笔记54:OVF和OVA的区别
- 【Python 文件读写】— csv文件
- PhysicalDrive
- iOS启动优化之——如何使用Xcode Log、App Launch、代码来计算启动时间 Launch Time
- 【实验五 一维数组】7-11 sdut-C语言实验- 数列有序!
- Python如何采集关键词数据
- C语言,班级班费管理系统