1 爬虫入门

1.1 Requests Get

    r = requests.get('https://www.baidu.com')r.encoding = 'utf-8'print(r.status_code)print(r.headers['content-type'])print(r.encoding)print(r.text)

1.2 Requests Post

    postUrl = "https://fanyi.baidu.com/v2transapi"headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6776.400 QQBrowser/10.3.2577.400","X-Requested-With": "XMLHttpRequest","Content-Type": "application/x-www-form-urlencoded; charset=UTF-8"}data = {"from": "zh","to": "en","query": "人生苦短,我用Python"}response = requests.post(postUrl, headers = headers, data = data)print(response.status_code)print(response.text)

1.3 断网后返回

Traceback (most recent call last):File "PythonSpider.py", line 8, in <module>r = requests.get('https://www.baidu.com')File "C:\Python37\lib\site-packages\requests\api.py", line 75, in getreturn request('get', url, params=params, **kwargs)File "C:\Python37\lib\site-packages\requests\api.py", line 60, in requestreturn session.request(method=method, url=url, **kwargs)File "C:\Python37\lib\site-packages\requests\sessions.py", line 533, in requestresp = self.send(prep, **send_kwargs)File "C:\Python37\lib\site-packages\requests\sessions.py", line 646, in sendr = adapter.send(request, **kwargs)File "C:\Python37\lib\site-packages\requests\adapters.py", line 516, in sendraise ConnectionError(e, request=request)
requests.exceptions.ConnectionError: HTTPSConnectionPool(host='www.baidu.com', port=443): Max retries exceeded with url: / (Caused by NewConnectionError('<urllib3.connection.VerifiedHTTPSConnection object at 0x00000288D591B710>: Failed to establish a new connection: [Errno 11001] getaddrinfo failed'))

1.4 re正则表达式

  1. re.match函数:尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none
  2. re.search:re.search 扫描整个字符串并返回第一个成功的匹配
  3. re.sub:用于替换字符串中的匹配项
  4. re.compile :compile 函数用于编译正则表达式,生成一个正则表达式( Pattern )对象,供 match() 和 search() 这两个函数使用
  5. findall:在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表
  6. re.finditer:和 findall 类似,在字符串中找到正则表达式所匹配的所有子串,并把它们作为一个迭代器返回
  7. re.split:split 方法按照能够匹配的子串将字符串分割后返回列表

2 爬虫实例

1.1 爬取豆瓣电影250

  • 任务网址:https://movie.douban.com/top250
  • 任务要求:抓取名次、影片名称、年份、导演等字段
def get_movie_info():headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6776.400 QQBrowser/10.3.2577.400"}for i in range(0,250,25):url = 'https://movie.douban.com/top250?start=%s&filter=' % ires = requests.get(url, headers = headers)pattern = re.compile(r'.*?<em class="">(\d+)</em>.*?<span class="title">(.*?)</span>.*?<p class="">.*?: (.*?)[&nbsp|\.\.\.].*? (\d+).*?</p>', re.S)mlist = pattern.findall(res.text)for m in mlist:moive = {'rank': m[0],'title': m[1],'director': m[2],'year': m[3]}print(moive)
{'rank': '1', 'title': '肖申克的救赎', 'director': '弗兰克·德拉邦特 Fra', 'year': '1994'}
{'rank': '2', 'title': '霸王别姬', 'director': '陈凯歌 Kaige Che', 'year': '1993'}
{'rank': '3', 'title': '这个杀手不太冷', 'director': '吕克·贝松 Luc Be', 'year': '1994'}
{'rank': '4', 'title': '阿甘正传', 'director': '罗伯特·泽米吉斯 Ro', 'year': '1994'}
{'rank': '5', 'title': '美丽人生', 'director': '罗伯托·贝尼尼 Ro', 'year': '1997'}
{'rank': '6', 'title': '泰坦尼克号', 'director': '詹姆斯·卡梅隆 Jame', 'year': '1997'}
{'rank': '7', 'title': '千与千寻', 'director': '宫崎骏 Hayao Miyazaki', 'year': '2001'}
{'rank': '8', 'title': '辛德勒的名单', 'director': '史蒂文·斯皮尔伯格 Steve', 'year': '1993'}
{'rank': '9', 'title': '盗梦空间', 'director': '克里斯托弗·诺兰 Chri', 'year': '2010'}
{'rank': '10', 'title': '忠犬八公的故事', 'director': '莱塞·霍尔斯道姆 La', 'year': '2009'}
{'rank': '11', 'title': '机器人总动员', 'director': '安德鲁·斯坦顿 A', 'year': '2008'}
{'rank': '12', 'title': '三傻大闹宝莱坞', 'director': '拉库马·希拉尼 Rajkumar Hira', 'year': '2009'}
{'rank': '13', 'title': '海上钢琴师', 'director': '朱塞佩·托纳多雷 Giu', 'year': '1998'}
{'rank': '14', 'title': '放牛班的春天', 'director': '克里斯托夫·巴拉蒂 Chri', 'year': '2004'}
{'rank': '15', 'title': '楚门的世界', 'director': '彼得·威尔 Peter Weir', 'year': '1998'}
{'rank': '16', 'title': '大话西游之大圣娶亲', 'director': '刘镇伟 Jeffrey Lau', 'year': '1995'}
{'rank': '17', 'title': '星际穿越', 'director': '克里斯托弗·诺兰 Chri', 'year': '2014'}
{'rank': '18', 'title': '龙猫', 'director': '宫崎骏 Hayao Miyazaki', 'year': '1988'}
{'rank': '19', 'title': '教父', 'director': '弗朗西斯·福特·科波拉 Fra', 'year': '1972'}
{'rank': '20', 'title': '熔炉', 'director': '黄东赫 Do', 'year': '2011'}
{'rank': '21', 'title': '无间道', 'director': '刘伟强 / 麦兆辉', 'year': '2002'}
{'rank': '22', 'title': '疯狂动物城', 'director': '拜伦·霍华德 Byro', 'year': '2016'}
{'rank': '23', 'title': '当幸福来敲门', 'director': '加布里尔·穆奇诺 Ga', 'year': '2006'}
{'rank': '24', 'title': '怦然心动', 'director': '罗伯·莱纳 Ro', 'year': '2010'}
{'rank': '25', 'title': '触不可及', 'director': '奥利维·那卡什 Olivier Nakache / 艾力克·托兰达 Eric Toleda', 'year': '2011'}
{'rank': '26', 'title': '乱世佳人', 'director': '维克多·弗莱明 Victor Flemi', 'year': '1939'}
{'rank': '27', 'title': '蝙蝠侠:黑暗骑士', 'director': '克里斯托弗·诺兰 Chri', 'year': '2008'}
{'rank': '28', 'title': '活着', 'director': '张艺谋 Yimou Zha', 'year': '1994'}
{'rank': '29', 'title': '少年派的奇幻漂流', 'director': '李安 A', 'year': '2012'}
{'rank': '30', 'title': '控方证人', 'director': '比利·怀尔德 Billy Wilder', 'year': '1957'}
{'rank': '31', 'title': '天堂电影院', 'director': '朱塞佩·托纳多雷 Giu', 'year': '1988'}
{'rank': '32', 'title': '鬼子来了', 'director': '姜文 We', 'year': '2000'}
{'rank': '33', 'title': '指环王3:王者无敌', 'director': '彼得·杰克逊 Peter Jack', 'year': '2003'}
{'rank': '34', 'title': '十二怒汉', 'director': 'Sid', 'year': '1957'}
{'rank': '35', 'title': '天空之城', 'director': '宫崎骏 Hayao Miyazaki', 'year': '1986'}
{'rank': '36', 'title': '摔跤吧!爸爸', 'director': '涅提·蒂瓦里 Nite', 'year': '2016'}
{'rank': '37', 'title': '飞屋环游记', 'director': '彼特·道格特 Pete Docter / 鲍勃·彼德森 Bo', 'year': '2009'}
{'rank': '38', 'title': '大话西游之月光宝盒', 'director': '刘镇伟 Jeffrey Lau', 'year': '1995'}
{'rank': '39', 'title': '搏击俱乐部', 'director': '大卫·芬奇 David Fi', 'year': '1999'}
{'rank': '40', 'title': '罗马假日', 'director': '威廉·惠勒 William Wyler', 'year': '1953'}
{'rank': '41', 'title': '哈尔的移动城堡', 'director': '宫崎骏 Hayao Miyazaki', 'year': '2004'}
{'rank': '42', 'title': '闻香识女人', 'director': '马丁·布莱斯 Marti', 'year': '1992'}
{'rank': '43', 'title': '辩护人', 'director': '杨宇硕 Woo-', 'year': '2013'}
{'rank': '44', 'title': '窃听风暴', 'director': '弗洛里安·亨克尔·冯·多纳斯马尔克 Floria', 'year': '2006'}
{'rank': '45', 'title': '两杆大烟枪', 'director': 'Guy Ritchie', 'year': '1998'}
{'rank': '46', 'title': '末代皇帝', 'director': '贝纳尔多·贝托鲁奇 Ber', 'year': '1987'}
{'rank': '47', 'title': '飞越疯人院', 'director': '米洛斯·福尔曼 Miloš Forma', 'year': '1975'}
{'rank': '48', 'title': '死亡诗社', 'director': '彼得·威尔 Peter Weir', 'year': '1989'}
{'rank': '49', 'title': '指环王2:双塔奇兵', 'director': '彼得·杰克逊 Peter Jack', 'year': '2002'}
{'rank': '50', 'title': '素媛', 'director': '李濬益 Ju', 'year': '2013'}
{'rank': '51', 'title': 'V字仇杀队', 'director': '詹姆斯·麦克特格 Jame', 'year': '2005'}
{'rank': '52', 'title': '教父2', 'director': '弗朗西斯·福特·科波拉 Fra', 'year': '1974'}
{'rank': '53', 'title': '寻梦环游记', 'director': '李·昂克里奇 Lee U', 'year': '2017'}
{'rank': '54', 'title': '指环王1:魔戒再现', 'director': '彼得·杰克逊 Peter Jack', 'year': '2001'}
{'rank': '55', 'title': '海豚湾', 'director': '路易·西霍尤斯 Louie P', 'year': '2009'}
{'rank': '56', 'title': '饮食男女', 'director': '李安 A', 'year': '1994'}
{'rank': '57', 'title': '美丽心灵', 'director': '朗·霍华德 Ro', 'year': '2001'}
{'rank': '58', 'title': '狮子王', 'director': 'Roger Aller', 'year': '1994'}
{'rank': '59', 'title': '情书', 'director': '岩井俊二 Shu', 'year': '1995'}
{'rank': '60', 'title': '钢琴家', 'director': '罗曼·波兰斯基 Roma', 'year': '2002'}
{'rank': '61', 'title': '本杰明·巴顿奇事', 'director': '大卫·芬奇 David Fi', 'year': '2008'}
{'rank': '62', 'title': '美国往事', 'director': '赛尔乔·莱翁内 Sergio Leo', 'year': '1984'}
{'rank': '63', 'title': '看不见的客人', 'director': '奥里奥尔·保罗 Oriol Paulo', 'year': '2016'}
{'rank': '64', 'title': '黑客帝国', 'director': '安迪·沃卓斯基 A', 'year': '1999'}
{'rank': '65', 'title': '小鞋子', 'director': '马基德·马基迪 Majid Majidi', 'year': '1997'}
{'rank': '66', 'title': '西西里的美丽传说', 'director': '朱塞佩·托纳多雷 Giu', 'year': '2000'}
{'rank': '67', 'title': '大闹天宫', 'director': '万籁鸣 Laimi', 'year': '1961'}
{'rank': '68', 'title': '让子弹飞', 'director': '姜文 We', 'year': '2010'}
{'rank': '69', 'title': '拯救大兵瑞恩', 'director': '史蒂文·斯皮尔伯格 Steve', 'year': '1998'}
{'rank': '70', 'title': '哈利·波特与魔法石', 'director': 'Chri', 'year': '2001'}
{'rank': '71', 'title': '致命魔术', 'director': '克里斯托弗·诺兰 Chri', 'year': '2006'}
{'rank': '72', 'title': '七宗罪', 'director': '大卫·芬奇 David Fi', 'year': '1995'}
{'rank': '73', 'title': '被嫌弃的松子的一生', 'director': '中岛哲也 Tet', 'year': '2006'}
{'rank': '74', 'title': '音乐之声', 'director': '罗伯特·怀斯 Ro', 'year': '1965'}
{'rank': '75', 'title': '低俗小说', 'director': '昆汀·塔伦蒂诺 Que', 'year': '1994'}
{'rank': '76', 'title': '天使爱美丽', 'director': '让-皮埃尔·热内 Jea', 'year': '2001'}
{'rank': '77', 'title': '沉默的羔羊', 'director': '乔纳森·戴米 Jo', 'year': '1991'}
{'rank': '78', 'title': '勇敢的心', 'director': '梅尔·吉布森 Mel Gi', 'year': '1995'}
{'rank': '79', 'title': '猫鼠游戏', 'director': '史蒂文·斯皮尔伯格 Steve', 'year': '2002'}
{'rank': '80', 'title': '蝴蝶效应', 'director': '埃里克·布雷斯 Eric Bre', 'year': '2004'}
{'rank': '81', 'title': '剪刀手爱德华', 'director': '蒂姆·波顿 Tim Burto', 'year': '1990'}
{'rank': '82', 'title': '春光乍泄', 'director': '王家卫 Kar Wai Wo', 'year': '1997'}
{'rank': '83', 'title': '心灵捕手', 'director': '格斯·范·桑特 Gu', 'year': '1997'}
{'rank': '84', 'title': '禁闭岛', 'director': 'Marti', 'year': '2010'}
{'rank': '85', 'title': '布达佩斯大饭店', 'director': '韦斯·安德森 We', 'year': '2014'}
{'rank': '86', 'title': '穿条纹睡衣的男孩', 'director': '马克·赫尔曼 Mark Herma', 'year': '2008'}
{'rank': '87', 'title': '入殓师', 'director': '泷田洋二郎 Yôjirô Takita', 'year': '2008'}
{'rank': '88', 'title': '阿凡达', 'director': '詹姆斯·卡梅隆 Jame', 'year': '2009'}
{'rank': '89', 'title': '幽灵公主', 'director': '宫崎骏 Hayao Miyazaki', 'year': '1997'}
{'rank': '90', 'title': '阳光灿烂的日子', 'director': '姜文 We', 'year': '1994'}
{'rank': '91', 'title': '致命ID', 'director': 'Jame', 'year': '2003'}
{'rank': '92', 'title': '第六感', 'director': 'M·奈特·沙马兰 M', 'year': '1999'}
{'rank': '93', 'title': '加勒比海盗', 'director': '戈尔·维宾斯基 Gore Ver', 'year': '2003'}
{'rank': '94', 'title': '狩猎', 'director': '托马斯·温特伯格 Thoma', 'year': '2012'}
{'rank': '95', 'title': '玛丽和马克思', 'director': '亚当·艾略特 Adam Elliot', 'year': '2009'}
{'rank': '96', 'title': '断背山', 'director': '李安 A', 'year': '2005'}
{'rank': '97', 'title': '重庆森林', 'director': '王家卫 Kar Wai Wo', 'year': '1994'}
{'rank': '98', 'title': '摩登时代', 'director': '查理·卓别林 Charle', 'year': '1936'}
{'rank': '99', 'title': '喜剧之王', 'director': '周星驰 Ste', 'year': '1999'}
{'rank': '100', 'title': '告白', 'director': '中岛哲也 Tet', 'year': '2010'}
{'rank': '101', 'title': '大鱼', 'director': '蒂姆·波顿 Tim Burto', 'year': '2003'}
{'rank': '102', 'title': '消失的爱人', 'director': '大卫·芬奇 David Fi', 'year': '2014'}
{'rank': '103', 'title': '一一', 'director': '杨德昌 Edward Ya', 'year': '2000'}
{'rank': '104', 'title': '射雕英雄传之东成西就', 'director': '刘镇伟 Jeffrey Lau', 'year': '1993'}
{'rank': '105', 'title': '阳光姐妹淘', 'director': '姜炯哲 Hyeo', 'year': '2011'}
{'rank': '106', 'title': '甜蜜蜜', 'director': '陈可辛 Peter Cha', 'year': '1996'}
{'rank': '107', 'title': '爱在黎明破晓前', 'director': '理查德·林克莱特 Richard Li', 'year': '1995'}
{'rank': '108', 'title': '小森林 夏秋篇', 'director': '森淳一 Ju', 'year': '2014'}
{'rank': '109', 'title': '驯龙高手', 'director': '迪恩·德布洛斯 Dea', 'year': '2010'}
{'rank': '110', 'title': '侧耳倾听', 'director': '近藤喜文 Yo', 'year': '1995'}
{'rank': '111', 'title': '红辣椒', 'director': '今敏 Sato', 'year': '2006'}
{'rank': '112', 'title': '请以你的名字呼唤我', 'director': '卢卡·瓜达尼诺 Luca Guadag', 'year': '2017'}
{'rank': '113', 'title': '倩女幽魂', 'director': '程小东 Siu-Tu', 'year': '1987'}
{'rank': '114', 'title': '恐怖直播', 'director': '金秉祐 Byeo', 'year': '2013'}
{'rank': '115', 'title': '风之谷', 'director': '宫崎骏 Hayao Miyazaki', 'year': '1984'}
{'rank': '116', 'title': '上帝之城', 'director': 'Kátia Lu', 'year': '2002'}
{'rank': '117', 'title': '超脱', 'director': '托尼·凯耶 To', 'year': '2011'}
{'rank': '118', 'title': '爱在日落黄昏时', 'director': '理查德·林克莱特 Richard Li', 'year': '2004'}
{'rank': '119', 'title': '菊次郎的夏天', 'director': '北野武 Take', 'year': '1999'}
{'rank': '120', 'title': '幸福终点站', 'director': '史蒂文·斯皮尔伯格 Steve', 'year': '2004'}
{'rank': '121', 'title': '哈利·波特与死亡圣器(下)', 'director': '大卫·叶茨 David Yate', 'year': '2011'}
{'rank': '122', 'title': '小森林 冬春篇', 'director': '森淳一 Ju', 'year': '2015'}
{'rank': '123', 'title': '杀人回忆', 'director': '奉俊昊 Joo', 'year': '2003'}
{'rank': '124', 'title': '7号房的礼物', 'director': '李焕庆 Hwa', 'year': '2013'}
{'rank': '125', 'title': '神偷奶爸', 'director': '皮艾尔·柯芬 Pierre Coffi', 'year': '2010'}
{'rank': '126', 'title': '借东西的小人阿莉埃蒂', 'director': '米林宏昌 Hiroma', 'year': '2010'}
{'rank': '127', 'title': '萤火之森', 'director': '大森贵弘 Takahiro Omori', 'year': '2011'}
{'rank': '128', 'title': '唐伯虎点秋香', 'director': '李力持 Lik-Chi Lee', 'year': '1993'}
{'rank': '129', 'title': '超能陆战队', 'director': '唐·霍尔 Do', 'year': '2014'}
{'rank': '130', 'title': '蝙蝠侠:黑暗骑士崛起', 'director': '克里斯托弗·诺兰 Chri', 'year': '2012'}
{'rank': '131', 'title': '怪兽电力公司', 'director': '彼特·道格特 Pete Docter / 大卫·斯沃曼 David Silverma', 'year': '2001'}
{'rank': '132', 'title': '岁月神偷', 'director': '罗启锐 Alex Law', 'year': '2010'}
{'rank': '133', 'title': '电锯惊魂', 'director': '詹姆斯·温 Jame', 'year': '2004'}
{'rank': '134', 'title': '七武士', 'director': '黑泽明 Akira Kuro', 'year': '1954'}
{'rank': '135', 'title': '谍影重重3', 'director': '保罗·格林格拉斯 Paul Gree', 'year': '2007'}
{'rank': '136', 'title': '真爱至上', 'director': '理查德·柯蒂斯 Richard Curti', 'year': '2003'}
{'rank': '137', 'title': '疯狂原始人', 'director': '科克·德·米科 Kirk De Micco / 克里斯·桑德斯 Chri', 'year': '2013'}
{'rank': '138', 'title': '无人知晓', 'director': '是枝裕和 Hirokazu Koreeda', 'year': '2004'}
{'rank': '139', 'title': '喜宴', 'director': '李安 A', 'year': '1993'}
{'rank': '140', 'title': '萤火虫之墓', 'director': '高畑勋 I', 'year': '1988'}
{'rank': '141', 'title': '东邪西毒', 'director': '王家卫 Kar Wai Wo', 'year': '1994'}
{'rank': '142', 'title': '英雄本色', 'director': '吴宇森 Joh', 'year': '1986'}
{'rank': '143', 'title': '贫民窟的百万富翁', 'director': '丹尼·鲍尔 Da', 'year': '2008'}
{'rank': '144', 'title': '黑天鹅', 'director': '达伦·阿罗诺夫斯基 Darre', 'year': '2010'}
{'rank': '145', 'title': '记忆碎片', 'director': '克里斯托弗·诺兰 Chri', 'year': '2000'}
{'rank': '146', 'title': '血战钢锯岭', 'director': '梅尔·吉布森 Mel Gi', 'year': '2016'}
{'rank': '147', 'title': '心迷宫', 'director': '忻钰坤 Yuku', 'year': '2014'}
{'rank': '148', 'title': '傲慢与偏见', 'director': '乔·怀特 Joe Wright', 'year': '2005'}
{'rank': '149', 'title': '时空恋旅人', 'director': '理查德·柯蒂斯 Richard Curti', 'year': '2013'}
{'rank': '150', 'title': '荒蛮故事', 'director': '达米安·斯兹弗隆 Damiá', 'year': '2014'}
{'rank': '151', 'title': '雨人', 'director': '巴瑞·莱文森 Barry Levi', 'year': '1988'}
{'rank': '152', 'title': '纵横四海', 'director': '吴宇森 Joh', 'year': '1991'}
{'rank': '153', 'title': '教父3', 'director': '弗朗西斯·福特·科波拉 Fra', 'year': '1990'}
{'rank': '154', 'title': '达拉斯买家俱乐部', 'director': '让-马克·瓦雷 Jea', 'year': '2013'}
{'rank': '155', 'title': '玩具总动员3', 'director': '李·昂克里奇 Lee U', 'year': '2010'}
{'rank': '156', 'title': '卢旺达饭店', 'director': '特瑞·乔治 Terry George', 'year': '2004'}
{'rank': '157', 'title': '完美的世界', 'director': '克林特·伊斯特伍德 Cli', 'year': '1993'}
{'rank': '158', 'title': '花样年华', 'director': '王家卫 Kar Wai Wo', 'year': '2000'}
{'rank': '159', 'title': '海边的曼彻斯特', 'director': '肯尼斯·罗纳根 Ke', 'year': '2016'}
{'rank': '160', 'title': '海洋', 'director': '雅克·贝汉 Jacque', 'year': '2009'}
{'rank': '161', 'title': '恋恋笔记本', 'director': '尼克·卡索维茨 Nick Ca', 'year': '2004'}
{'rank': '162', 'title': '虎口脱险', 'director': '杰拉尔·乌里 Gérard Oury', 'year': '1966'}
{'rank': '163', 'title': '你看起来好像很好吃', 'director': '藤森雅也 Ma', 'year': '2010'}
{'rank': '164', 'title': '二十二', 'director': '郭柯 Ke Guo', 'year': '2015'}
{'rank': '165', 'title': '被解救的姜戈', 'director': '昆汀·塔伦蒂诺 Que', 'year': '2012'}
{'rank': '166', 'title': '头脑特工队', 'director': '彼特·道格特 Pete Docter / 罗纳尔多·德尔·卡门 Ro', 'year': '2015'}
{'rank': '167', 'title': '无敌破坏王', 'director': '瑞奇·莫尔 Rich Moore', 'year': '2012'}
{'rank': '168', 'title': '冰川时代', 'director': '卡洛斯·沙尔丹哈 Carlo', 'year': '2002'}
{'rank': '169', 'title': '燃情岁月', 'director': '爱德华·兹威克 Edward Zwick', 'year': '1994'}
{'rank': '170', 'title': '你的名字。', 'director': '新海诚 Makoto Shi', 'year': '2016'}
{'rank': '171', 'title': '雨中曲', 'director': '斯坦利·多南 Sta', 'year': '1952'}
{'rank': '172', 'title': '我是山姆', 'director': '杰茜·尼尔森 Je', 'year': '2001'}
{'rank': '173', 'title': '三块广告牌', 'director': '马丁·麦克唐纳 Marti', 'year': '2017'}
{'rank': '174', 'title': '爆裂鼓手', 'director': '达米恩·查泽雷 Damie', 'year': '2014'}
{'rank': '175', 'title': '人工智能', 'director': '史蒂文·斯皮尔伯格 Steve', 'year': '2001'}
{'rank': '176', 'title': '未麻的部屋', 'director': '今敏 Sato', 'year': '1997'}
{'rank': '177', 'title': '穿越时空的少女', 'director': '细田守 Mamoru Ho', 'year': '2006'}
{'rank': '178', 'title': '魂断蓝桥', 'director': '茂文·勒鲁瓦 Mervy', 'year': '1940'}
{'rank': '179', 'title': '猜火车', 'director': '丹尼·博伊尔 Da', 'year': '1996'}
{'rank': '180', 'title': '模仿游戏', 'director': '莫滕·泰杜姆 Morte', 'year': '2014'}
{'rank': '181', 'title': '一个叫欧维的男人决定去死', 'director': '汉内斯·赫尔姆 Ha', 'year': '2015'}
{'rank': '182', 'title': '房间', 'director': '伦尼·阿伯拉罕森 Le', 'year': '2015'}
{'rank': '183', 'title': '忠犬八公物语', 'director': 'Seijirô Kôyama', 'year': '1987'}
{'rank': '184', 'title': '完美陌生人', 'director': '保罗·格诺维瑟 Paolo Ge', 'year': '2016'}
{'rank': '185', 'title': '罗生门', 'director': '黑泽明 Akira Kuro', 'year': '1950'}
{'rank': '186', 'title': '恐怖游轮', 'director': '克里斯托弗·史密斯 Chri', 'year': '2009'}
{'rank': '187', 'title': '魔女宅急便', 'director': '宫崎骏 Hayao Miyazaki', 'year': '1989'}
{'rank': '188', 'title': '阿飞正传', 'director': '王家卫 Kar Wai Wo', 'year': '1990'}
{'rank': '189', 'title': '香水', 'director': '汤姆·提克威 Tom Tykwer', 'year': '2006'}
{'rank': '190', 'title': '哪吒闹海', 'director': '严定宪 Di', 'year': '1979'}
{'rank': '191', 'title': '浪潮', 'director': '丹尼斯·甘塞尔 De', 'year': '2008'}
{'rank': '192', 'title': '朗读者', 'director': '史蒂芬·戴德利 Ste', 'year': '2008'}
{'rank': '193', 'title': '黑客帝国3:矩阵革命', 'director': 'A', 'year': '2003'}
{'rank': '194', 'title': '海街日记', 'director': '是枝裕和 Hirokazu Koreeda', 'year': '2015'}
{'rank': '195', 'title': '可可西里', 'director': '陆川 Chua', 'year': '2004'}
{'rank': '196', 'title': '谍影重重2', 'director': '保罗·格林格拉斯 Paul Gree', 'year': '2004'}
{'rank': '197', 'title': '谍影重重', 'director': '道格·里曼 Doug Lima', 'year': '2002'}
{'rank': '198', 'title': '战争之王', 'director': '安德鲁·尼科尔 A', 'year': '2005'}
{'rank': '199', 'title': '牯岭街少年杀人事件', 'director': '杨德昌 Edward Ya', 'year': '1991'}
{'rank': '200', 'title': '地球上的星星', 'director': '阿米尔·汗 Aamir Kha', 'year': '2007'}
{'rank': '201', 'title': '青蛇', 'director': '徐克 Hark T', 'year': '1993'}
{'rank': '202', 'title': '一次别离', 'director': '阿斯哈·法哈蒂  A', 'year': '2011'}
{'rank': '203', 'title': '惊魂记', 'director': 'Alfred Hitchcock', 'year': '1960'}
{'rank': '204', 'title': '疯狂的石头', 'director': '宁浩 Hao Ni', 'year': '2006'}
{'rank': '205', 'title': '追随', 'director': '克里斯托弗·诺兰 Chri', 'year': '1998'}
{'rank': '206', 'title': '终结者2:审判日', 'director': '詹姆斯·卡梅隆 Jame', 'year': '1991'}
{'rank': '207', 'title': '源代码', 'director': '邓肯·琼斯 Du', 'year': '2011'}
{'rank': '208', 'title': '小萝莉的猴神大叔', 'director': '卡比尔·汗 Ka', 'year': '2015'}
{'rank': '209', 'title': '步履不停', 'director': '是枝裕和 Hirokazu Koreeda', 'year': '2008'}
{'rank': '210', 'title': '初恋这件小事', 'director': '普特鹏·普罗萨卡·那·萨克那卡林 Putti', 'year': '2010'}
{'rank': '211', 'title': '再次出发之纽约遇见你', 'director': '约翰·卡尼 Joh', 'year': '2013'}
{'rank': '212', 'title': '新龙门客栈', 'director': '李惠民 Raymo', 'year': '1992'}
{'rank': '213', 'title': '撞车', 'director': '保罗·哈吉斯 Paul Haggi', 'year': '2004'}
{'rank': '214', 'title': '天书奇谭', 'director': '王树忱 Shuche', 'year': '1983'}
{'rank': '215', 'title': '梦之安魂曲', 'director': '达伦·阿伦诺夫斯基 Darre', 'year': '2000'}
{'rank': '216', 'title': '爱在午夜降临前', 'director': '理查德·林克莱特 Richard Li', 'year': '2013'}
{'rank': '217', 'title': '海蒂和爷爷', 'director': '阿兰·葛斯彭纳 Alai', 'year': '2015'}
{'rank': '218', 'title': '无耻混蛋', 'director': 'Que', 'year': '2009'}
{'rank': '219', 'title': '东京物语', 'director': '小津安二郎 Ya', 'year': '1953'}
{'rank': '220', 'title': '城市之光', 'director': 'Charle', 'year': '1931'}
{'rank': '221', 'title': '绿里奇迹', 'director': 'Fra', 'year': '1999'}
{'rank': '222', 'title': '彗星来的那一夜', 'director': '詹姆斯·沃德·布柯特 Jame', 'year': '2013'}
{'rank': '223', 'title': '血钻', 'director': '爱德华·兹威克 Edward Zwick', 'year': '2006'}
{'rank': '224', 'title': '这个男人来自地球', 'director': '理查德·沙因克曼 Richard Sche', 'year': '2007'}
{'rank': '225', 'title': 'E.T. 外星人', 'director': 'Steve', 'year': '1982'}
{'rank': '226', 'title': '末路狂花', 'director': '雷德利·斯科特 Ridley Scott', 'year': '1991'}
{'rank': '227', 'title': '2001太空漫游', 'director': '斯坦利·库布里克 Sta', 'year': '1968'}
{'rank': '228', 'title': '聚焦', 'director': '托马斯·麦卡锡 Thoma', 'year': '2015'}
{'rank': '229', 'title': '勇闯夺命岛', 'director': '迈克尔·贝 Michael Bay', 'year': '1996'}
{'rank': '230', 'title': '变脸', 'director': '吴宇森 Joh', 'year': '1997'}
{'rank': '231', 'title': '发条橙', 'director': 'Sta', 'year': '1971'}
{'rank': '232', 'title': '秒速5厘米', 'director': '新海诚 Makoto Shi', 'year': '2007'}
{'rank': '233', 'title': '黄金三镖客', 'director': 'Sergio Leo', 'year': '1966'}
{'rank': '234', 'title': '黑鹰坠落', 'director': '雷德利·斯科特 Ridley Scott', 'year': '2001'}
{'rank': '235', 'title': '功夫', 'director': '周星驰 Ste', 'year': '2004'}
{'rank': '236', 'title': '非常嫌疑犯', 'director': '布莱恩·辛格 Brya', 'year': '1995'}
{'rank': '237', 'title': '卡萨布兰卡', 'director': '迈克尔·柯蒂兹 Michael Curtiz', 'year': '1942'}
{'rank': '238', 'title': '我爱你', 'director': '秋昌民 Cha', 'year': '2011'}
{'rank': '239', 'title': '国王的演讲', 'director': '汤姆·霍珀 Tom Hoo', 'year': '2010'}
{'rank': '240', 'title': '千钧一发', 'director': '安德鲁·尼科尔 A', 'year': '1997'}
{'rank': '241', 'title': '美国丽人', 'director': '萨姆·门德斯 Sam Me', 'year': '1999'}
{'rank': '242', 'title': '疯狂的麦克斯4:狂暴之路', 'director': '乔治·米勒 George Miller', 'year': '2015'}
{'rank': '243', 'title': '遗愿清单', 'director': '罗伯·莱纳 Ro', 'year': '2007'}
{'rank': '244', 'title': '奇迹男孩', 'director': '斯蒂芬·卓博斯基 Ste', 'year': '2017'}
{'rank': '245', 'title': '碧海蓝天', 'director': 'Luc Be', 'year': '1988'}
{'rank': '246', 'title': '荒岛余生', 'director': '罗伯特·泽米吉斯 Ro', 'year': '2000'}
{'rank': '247', 'title': '驴得水', 'director': '周申 She', 'year': '2016'}
{'rank': '248', 'title': '枪火', 'director': '杜琪峰 Joh', 'year': '1999'}
{'rank': '249', 'title': '英国病人', 'director': '安东尼·明格拉 A', 'year': '1996'}
{'rank': '250', 'title': '荒野生存', 'director': '西恩·潘 Sea', 'year': '2007'}

1.2 参考资料

  1. python 3.x 爬虫基础—Urllib详解
  2. Requests 官方文档
  3. Python 正则表达式
  4. python爬虫系列之初识爬虫
  5. Github代码

Python爬虫任务1相关推荐

  1. 关于Python爬虫原理和数据抓取1.1

    为什么要做爬虫? 首先请问:都说现在是"大数据时代",那数据从何而来? 企业产生的用户数据:百度指数.阿里指数.TBI腾讯浏览指数.新浪微博指数 数据平台购买数据:数据堂.国云数据 ...

  2. python爬虫之Scrapy框架的post请求和核心组件的工作 流程

    python爬虫之Scrapy框架的post请求和核心组件的工作 流程 一 Scrapy的post请求的实现 在爬虫文件中的爬虫类继承了Spider父类中的start_urls,该方法就可以对star ...

  3. python爬虫抓取信息_python爬虫爬取网上药品信息并且存入数据库

    我最近在学习python爬虫,然后正好碰上数据库课设,我就选了一个连锁药店的,所以就把网上的药品信息爬取了下来. 1,首先分析网页 2,我想要的是评论数比较多的,毕竟好东西大概是买的人多才好.然后你会 ...

  4. python爬虫案例_推荐上百个github上Python爬虫案例

    现在学生都对爬虫感兴趣,这里发现一些好的github开源的代码,分享给各位 1.awesome-spider 该网站提供了近上百个爬虫案例代码,这是ID为facert的一个知乎工程师开源的,star6 ...

  5. Python培训分享:python爬虫可以用来做什么?

    爬虫又被称为网络蜘蛛,它可以抓取我们页面的一些相关数据,近几年Python技术的到来,让我们对爬虫有了一个新的认知,那就是Python爬虫,下面我们就来看看python爬虫可以用来做什么? Pytho ...

  6. 玩转 Python 爬虫,需要先知道这些

    作者 | 叶庭云 来源 | 修炼Python 头图 | 下载于视觉中国 爬虫基本原理 1. URI 和 URL URI 的全称为 Uniform Resource Identifier,即统一资源标志 ...

  7. 买不到口罩怎么办?Python爬虫帮你时刻盯着自动下单!| 原力计划

    作者 | 菜园子哇 编辑 | 唐小引 来源 | CSDN 博客 马上上班了,回来的路上,上班地铁上都是非常急需口罩的. 目前也非常难买到正品.发货快的口罩,许多药店都售完了. 并且,淘宝上一些新店口罩 ...

  8. 一个月入门Python爬虫,轻松爬取大规模数据

    如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样一个月入门Python爬虫,轻松爬的编程语言提供越来越多的优秀工具,让爬虫 ...

  9. Python爬虫获取文章的标题及你的博客的阅读量,评论量。所有数据写入本地记事本。最后输出你的总阅读量!

    Python爬虫获取文章的标题及你的博客的阅读量,评论量.所有数据写入本地记事本.最后输出你的总阅读量!还可以进行筛选输出!比如阅读量大于1000,之类的! 完整代码在最后.依据阅读数量进行降序输出! ...

  10. Python爬虫破解有道翻译

    有道翻译是以异步方式实现数据加载的,要实现对此类网站的数据抓取,其过程相对繁琐,本节我以有道翻译为例进行详细讲解. 通过控制台抓包,我们得知了 POST 请求的参数以及相应的参数值,如下所示: 图1: ...

最新文章

  1. 关于微信小程序的尺寸关系
  2. UNICODE转多字节
  3. 函数接口– Java 8中java.util.function包中的函数接口
  4. 【牛客 - 303K第十五届浙江大学宁波理工学院程序设计大赛(同步赛)】Technology Tree(树形dp,tricks)
  5. STM32----通用定时器TIM2~TIM5的三种功能
  6. 若依前后端分离部署到tomcat中详细教程
  7. Graphics.TranslateTransform设置旋转角度不起作用?
  8. Python字符串splitlines()
  9. PLOS_ONE_Genome-Wide Analysis of Long Noncoding RNA (lncRNA) Expression in Hepatoblastoma Tissues
  10. 2014-04-08 创新点整理
  11. python基础(八):进制转换及python中的进制转换方法
  12. 为何不能直接拷贝软件安装好的目录运行
  13. 大龄程序员找工作,为什么这么难?
  14. 重读《从菜鸟到测试架构师》-- 开发团队做的远不仅是开发
  15. 企业高管和高收入人群必读的税务筹划策略!
  16. 解决数字小键盘按shift+ 数字才可以使用的问题
  17. python爬取ppt代码_Python爬取PPT模板小工具
  18. [Js/Jquery]天气接口简单使用
  19. 干掉 Swagger + Postman?测试接口直接生成API文档,这个国产文档工具真香!
  20. Django 图书借书系统

热门文章

  1. !include: could not find: “nsProcessW.nsh“
  2. 阿里云物联网平台测试知识点梳理
  3. Braintree-国外支付对接(二)
  4. 浮点数切分 C++
  5. 云平台运维的一些心得
  6. kafka重新分配partition
  7. 通过EXCEL中的FILTERXML函数实现批量翻译
  8. [87] 傻B、牛B、装B的英文用法详解
  9. 【rpm】源码包制作rpm包|修改rpm、重新制作rpm包
  10. 女生适合做软件开发工作吗?优势在哪里?