前言

爬取豆瓣的 top250 电影榜

环境

请自行 安装python 需要的包

BeautifulSoup

MySQL-python

开始

创建一个py文件 demo3.py

分析页面结构

![image](//upload-images.jianshu.io/upload_images/454212-f27ba42922ea3b7f.png?imageMogr2/auto-orient/strip|imageView2/2/w/970/format/webp)

导入一些包

![image](//upload-images.jianshu.io/upload_images/454212-cb74a6815bc2427b.png?imageMogr2/auto-orient/strip|imageView2/2/w/456/format/webp)

定义一个DouBanSpider类以及一些方法

![image](//upload-images.jianshu.io/upload_images/454212-856bf859fe611489.png?imageMogr2/auto-orient/strip|imageView2/2/w/709/format/webp)

![image](//upload-images.jianshu.io/upload_images/454212-d33dd15e69a327d3.png?imageMogr2/auto-orient/strip|imageView2/2/w/624/format/webp)

![image](//upload-images.jianshu.io/upload_images/454212-061fe3706677813d.png?imageMogr2/auto-orient/strip|imageView2/2/w/697/format/webp)

![image](//upload-images.jianshu.io/upload_images/454212-8e39b31e3c7080dd.png?imageMogr2/auto-orient/strip|imageView2/2/w/519/format/webp)

运行

```

>>> python demo3.py

```

![image](//upload-images.jianshu.io/upload_images/454212-5adf663f4accef3c.png?imageMogr2/auto-orient/strip|imageView2/2/w/530/format/webp)

创建一个用于生成chart的 py文件, showdata1.py

请自行 安装python 需要的包

pygal

MySQL-python

Flask

![image](//upload-images.jianshu.io/upload_images/454212-95be9c2aad4d0741.png?imageMogr2/auto-orient/strip|imageView2/2/w/634/format/webp)

![image](//upload-images.jianshu.io/upload_images/454212-2bbc8ed952ea2d77.png?imageMogr2/auto-orient/strip|imageView2/2/w/648/format/webp)

![image](//upload-images.jianshu.io/upload_images/454212-85adfc880aff8786.png?imageMogr2/auto-orient/strip|imageView2/2/w/519/format/webp)

![image](//upload-images.jianshu.io/upload_images/454212-b466abf65584de2a.png?imageMogr2/auto-orient/strip|imageView2/2/w/842/format/webp)

**小例子**

```

#!/usr/bin/python

#coding=utf-8

import pygal

import json

from urllib2 import urlopen  # python 2 syntax

# from urllib.request import urlopen # python 3 syntax

import MySQLdb

from flask import Flask

from pygal.style import DarkSolarizedStyle

import sys,os

reload(sys)

sys.setdefaultencoding('utf8')

app = Flask(__name__)

#----------------------------------------------------------------------

@app.route('/dbmovies')

def demoDBMovies():

try:

conn = MySQLdb.connect(host='localhost',user='hejing',passwd='hejing',db='books',charset='utf8')

except Exception, e:

print e

sys.exit()

cursor = conn.cursor()

sql = "select * from books order by people DESC LIMIT 10"

cursor.execute(sql)

alldata = cursor.fetchall()

title = " This is a testing demo"

line_chart = pygal.HorizontalBar()

line_chart.title = 'Best Top 10 movies in Douban'

if alldata:

for rec in alldata:

#print rec[0], rec[1]

line_chart.add(rec[0], rec[1])

cursor.close()

conn.close()

html = """

%s

%s

""" % (title, line_chart.render())

return html

#----------------------------------------------------------------------

if __name__ == '__main__':

app.run(host='127.0.0.1')

```

现在还有大礼包免费赠送

推荐一下我建的python学习交流扣扣qun:850973621,群里有免费的视频教程,开发工具、

电子书籍、项目源码分享。学习python web、python爬虫、数据分析、大数据,人工智能等

技术有不懂的可以加入一起交流学习,一起进步!

作者:2010jing

链接:https://www.jianshu.com/p/67b8aac4f93e

来源:简书

著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

python爬虫表格数据匹配_python,爬取数据做成表格,解放你的双手相关推荐

  1. Python 爬虫实战,模拟登陆爬取数据

    Python 爬虫实战,模拟登陆爬取数据 从0记录爬取某网站上的资源连接: 模拟登陆 爬取数据 保存到本地 结果演示: 源网站展示: 爬到的本地文件展示: 环境准备: python环境安装 略 安装r ...

  2. pythonrequestspost爬取数据不全_Python爬取数据之Requests库

    爬虫三步走包括爬取数据.解析数据和保存数据,Python强大之处就是每一步都提供了强大的库,我们只要使用对应的库,就能把网站中想要的数据爬取下来.第一步爬取数据,最常用的就是Requests库.Req ...

  3. python爬虫淘宝评论_Python爬取淘宝店铺和评论

    1 安装开发需要的一些库 (1) 安装mysql 的驱动:在Windows上按win+r输入cmd打开命令行,输入命令pip install pymysql,回车即可. (2) 安装自动化测试的驱动s ...

  4. python 爬虫餐饮行业 数据分析_Python爬取美团美食板块商家数据

    导语 利用Python简单爬取美团美食板块商家数据... 其实一开始我是想把美团的所有商家信息爬下来的,这样就可以美其名曰百万数据了... 然而相信很多爬过美团的朋友都发现了... 如果不进行一些小操 ...

  5. python爬虫知乎图片_python 爬取知乎图片

    先上完整代码 1 importrequests2 importtime3 importdatetime4 importos5 importjson6 importuuid7 from pyquery ...

  6. python爬虫免费代理池_Python爬取免费代理搭建代理池

    我们在做爬虫的过程中经常会遇到这样的情况:最初爬虫正常运行,正常抓取数据,一切看起来都是那么美好,然而一杯茶的功夫可能就会出现错误,比如403Forbidden:这时候网页上可能会出现 "您 ...

  7. python爬虫有道词典_Python爬取有道词典,有道的反爬很难吗?也就这样啊!

    前言 大家好 ​ 最近python爬虫有点火啊,啥python爬取马保国视频--我也来凑个热闹,今天我们来试着做个翻译软件--不是不是,说错了,今天我们来试着提交翻译内容并爬取翻译结果 主要内容 PS ...

  8. python爬虫猫眼电影票房_python爬取猫眼电影top100排行榜

    爬取猫眼电影TOP100(http://maoyan.com/board/4?offset=90) 1). 爬取内容: 电影名称,主演, 上映时间,图片url地址保存到mariadb数据库中; 2). ...

  9. PYTHON爬虫神站——curl.trillworks 爬取数据只需两步!

    前不久作者因为需要爬取一些建筑类数据 于是又又又准备苦哈哈的打开百度搜索"如何爬取XX",然后看html,找到关键点再挨个循环访问.....以下省略. 但这次 这款朋友推荐网站拯救 ...

  10. python爬虫提取a标签_python 爬取a标签内href的方法及遇到的问题

    1 #-*- coding:utf-8 -*- 2 #python 2.7 3 #XiaoDeng 4 #http://tieba.baidu.com/p/2460150866 5 #标签操作 6 7 ...

最新文章

  1. 【我的Android进阶之旅】解决SDK升级到27.0.3遇到的GLIBC_2.14 not found、no acceptable C compiler found in $PATH等问题...
  2. Nginx-02:Nginx基本概念
  3. composer 更新国内镜像地址
  4. centos mysql-5.5.20_centos 下安装mysql5.5.20出现的问题
  5. 1019. 数字黑洞 (20)
  6. WebIDE Initialization process
  7. 怎么画单极交流放大电路波形图_珠海放大IC怎么样
  8. js获取viewbag
  9. 深层神经网络——分类、回归的损失函数
  10. gbdt 算法比随机森林容易_机器学习军火库 | 浪漫算法 随机森林
  11. Bus Hound(USB抓包工具)
  12. 如何用abaqus建造8号槽钢并分析槽钢的受力
  13. SmartUpload问题
  14. 关于嵌入式工程师需要知道的网站
  15. 阿里DATAV的使用方法(大屏生成工具)
  16. 翻转课堂计算机语言逻辑性,通达翻转课堂模式下大学数学教学模式的探讨
  17. python里的平方_python中平方和
  18. 使用IPV6技术访问网站
  19. 叶酸修饰的金星形纳米颗粒,Gold star shaped nanoparticles modified with folic acid
  20. python读取word指定内容_Python操作word

热门文章

  1. 时代亿信安全保密邮件签约中国兵器工业集团两大下属单位
  2. 新浪微博爬虫手机版(附源码)
  3. 【100】Down Just me-测试网站服务是否宕机
  4. 并非因冷而美丽——绫波丽【转】
  5. 复旦-华盛顿大学EMBA二十年20人丨孙珏坚持与成长,女性领导力绽放内生光芒
  6. java解析excel的js页面,JavaScript_通过Javascript读取本地Excel文件内容的代码示例,读取本地Excel文件内容的Javascri - phpStudy...
  7. Final互评------《弹球学成语》---- 杨老师粉丝群
  8. WDA-文档-基础篇/进阶篇/讨论篇
  9. 我就要和相处一年的女友结婚了...现在唯一困挠我的是,我未来的小姨子
  10. 投资组合的风险因子调整——投资组合分析(EAP.portfolio_analysis)