文章目录

  • 最终输出效果
  • 运行环境
  • html代码格式化
  • 完整代码
  • 代码分析
    • 相关知识介绍
    • 获取页面的html数据-->get_response_bs_data()
    • 取得影片名称-->get_film_name()
    • 取得得分和评价人数-->get_film_score_and_estimator_count()
    • 取得电影slogan-->get_film_slogan()
    • 打印当前页面影片信息-->print_film_info()
    • 打印所有页面影片信息

初学Python,仅以爬取经典的豆瓣250大电影为例,记录一下Python的学习历程。

最终输出效果

打印出电影名称、评分、评分人数、电影slogan,最终的输出效果如下:

"C:\Program Files\Python36\python.exe" D:/PythonProject/TestProject/test_douban_first.py
第1名 [肖申克的救赎] [9.7分] (2312755人评价) <希望让人自由。>
第2名 [霸王别姬] [9.6分] (1716162人评价) <风华绝代。>
第3名 [阿甘正传] [9.5分] (1739769人评价) <一部美国近现代史。>
第4名 [这个杀手不太冷] [9.4分] (1919041人评价) <怪蜀黍和小萝莉不得不说的故事。>
第5名 [泰坦尼克号] [9.4分] (1702055人评价) <失去的才是永恒的。 >
第6名 [美丽人生] [9.5分] (1072978人评价) <最美的谎言。>
第7名 [千与千寻] [9.4分] (1818390人评价) <最好的宫崎骏,最好的久石让。 >
第8名 [辛德勒的名单] [9.5分] (888074人评价) <拯救一个人,就是拯救整个世界。>
第9名 [盗梦空间] [9.3分] (1684758人评价) <诺兰给了我们一场无法盗取的梦。>
第10名 [忠犬八公的故事] [9.4分] (1155808人评价) <永远都不能忘记你所爱的人。>
第11名 [星际穿越] [9.3分] (1357156人评价) <爱是一种力量,让我们超越时空感知它的存在。>
第12名 [楚门的世界] [9.3分] (1270811人评价) <如果再也不能见到你,祝你早安,午安,晚安。>
第13名 [海上钢琴师] [9.3分] (1368999人评价) <每个人都要走一条自己坚定了的路,就算是粉身碎骨。 >
第14名 [三傻大闹宝莱坞] [9.2分] (1537511人评价) <英俊版憨豆,高情商版谢耳朵。>
第15名 [机器人总动员] [9.3分] (1082688人评价) <小瓦力,大人生。>
第16名 [放牛班的春天] [9.3分] (1065531人评价) <天籁一般的童声,是最接近上帝的存在。 >
第17名 [大话西游之大圣娶亲] [9.2分] (1241953人评价) <一生所爱。>
第18名 [疯狂动物城] [9.2分] (1500420人评价) <迪士尼给我们营造的乌托邦就是这样,永远善良勇敢,永远出乎意料。>
第19名 [无间道] [9.2分] (1029012人评价) <香港电影史上永不过时的杰作。>
第20名 [熔炉] [9.3分] (754927人评价) <我们一路奋战不是为了改变世界,而是为了不让世界改变我们。>
第21名 [教父] [9.3分] (755147人评价) <千万不要记恨你的对手,这样会让你失去理智。>
第22名 [当幸福来敲门] [9.1分] (1235052人评价) <平民励志片。 >
第23名 [龙猫] [9.2分] (1030158人评价) <人人心中都有个龙猫,童年就永远不会消失。>
第24名 [怦然心动] [9.1分] (1456553人评价) <真正的幸福是来自内心深处。>
第25名 [控方证人] [9.6分] (356911人评价) <比利·怀德满分作品。>
第26名 [触不可及] [9.2分] (803566人评价) <满满温情的高雅喜剧。>
第27名 [蝙蝠侠:黑暗骑士] [9.2分] (841907人评价) <无尽的黑暗。>
第28名 [末代皇帝] [9.3分] (642058人评价) <“不要跟我比惨,我比你更惨”再适合这部电影不过了。>
第29名 [寻梦环游记] [9.1分] (1275350人评价) <死亡不是真的逝去,遗忘才是永恒的消亡。>
第30名 [活着] [9.3分] (653430人评价) <张艺谋最好的电影。>
第31名 [何以为家] [9.1分] (806473人评价) <凝视卑弱生命,用电影改变命运。>
第32名 [乱世佳人] [9.3分] (555563人评价) <Tomorrow is another day.>
第33名 [指环王3:王者无敌] [9.2分] (611211人评价) <史诗的终章。>
第34名 [哈利·波特与魔法石] [9.1分] (855397人评价) <童话世界的开端。>
第35名 [飞屋环游记] [9.0分] (1077642人评价) <最后那些最无聊的事情,才是最值得怀念的。 >
第36名 [摔跤吧!爸爸] [9.0分] (1272400人评价) <你不是在为你一个人战斗,你要让千千万万的女性看到女生并不是只能相夫教子。>
第37名 [素媛] [9.3分] (529794人评价) <受过伤害的人总是笑得最开心,因为他们不愿意让身边的人承受一样的痛苦。>
第38名 [少年派的奇幻漂流] [9.1分] (1129328人评价) <瑰丽壮观、无人能及的冒险之旅。>
第39名 [十二怒汉] [9.4分] (371689人评价) <1957年的理想主义。 >
第40名 [哈尔的移动城堡] [9.1分] (799591人评价) <带着心爱的人在天空飞翔。>
第41名 [鬼子来了] [9.3分] (497020人评价) <对敌人的仁慈,就是对自己残忍。>
第42名 [大话西游之月光宝盒] [9.0分] (988109人评价) <旷古烁今。>
第43名 [天空之城] [9.1分] (676531人评价) <对天空的追逐,永不停止。 >
第44名 [我不是药神] [9.0分] (1692995人评价) <对我们国家而言,这样的电影多一部是一部。>
第45名 [罗马假日] [9.0分] (784309人评价) <爱情哪怕只有一天。>
第46名 [闻香识女人] [9.1分] (686886人评价) <史上最美的探戈。>
第47名 [辩护人] [9.2分] (490794人评价) <电影的现实意义大过电影本身。>
第48名 [天堂电影院] [9.2分] (515390人评价) <那些吻戏,那些青春,都在影院的黑暗里被泪水冲刷得无比清晰。>
第49名 [猫鼠游戏] [9.0分] (707084人评价) <骗子大师和执著警探的你追我跑故事。 >
第50名 [大闹天宫] [9.4分] (330187人评价) <经典之作,历久弥新。>
第51名 [搏击俱乐部] [9.0分] (692022人评价) <邪恶与平庸蛰伏于同一个母体,在特定的时间互相对峙。>
第52名 [教父2] [9.2分] (423327人评价) <优雅的孤独。>
第53名 [狮子王] [9.0分] (663248人评价) <动物版《哈姆雷特》。>
第54名 [钢琴家] [9.2分] (441570人评价) <音乐能化解仇恨。>
第55名 [指环王2:双塔奇兵] [9.1分] (558617人评价) <承前启后的史诗篇章。>
第56名 [死亡诗社] [9.1分] (558860人评价) <当一个死水般的体制内出现一个活跃的变数时,所有的腐臭都站在了光明的对面。>
第57名 [黑客帝国] [9.0分] (643196人评价) <视觉革命。>
第58名 [指环王1:魔戒再现] [9.0分] (626438人评价) <传说的开始。>
第59名 [绿皮书] [8.9分] (1250154人评价) <去除成见,需要勇气。>
第60名 [饮食男女] [9.1分] (471509人评价) <人生不能像做菜,把所有的料都准备好了才下锅。>
第61名 [让子弹飞] [8.9分] (1299708人评价) <你给我翻译翻译,神马叫做TMD的惊喜。>
第62名 [美丽心灵] [9.0分] (610515人评价) <爱是一切逻辑和原由。>
第63名 [窃听风暴] [9.2分] (453079人评价) <别样人生。>
第64名 [两杆大烟枪] [9.1分] (487823人评价) <4个臭皮匠顶个诸葛亮,盖·里奇果然不是盖的。>
第65名 [海蒂和爷爷] [9.2分] (359329人评价) <如果生活中有什么使你感到快乐,那就去做吧!不要管别人说什么。>
第66名 [本杰明·巴顿奇事] [8.9分] (791734人评价) <在时间之河里感受溺水之苦。>
第67名 [看不见的客人] [8.8分] (968891人评价) <你以为你以为的就是你以为的。>
第68名 [飞越疯人院] [9.1分] (466658人评价) <自由万岁。>
第69名 [西西里的美丽传说] [8.9分] (784531人评价) <美丽无罪。>
第70名 [穿条纹睡衣的男孩] [9.1分] (412089人评价) <尽管有些不切实际的幻想,这部电影依旧是一部感人肺腑的佳作。>
第71名 [拯救大兵瑞恩] [9.0分] (519530人评价) <美利坚精神输出大片No1.>
第72名 [小鞋子] [9.2分] (325516人评价) <奔跑的孩子是天使。>
第73名 [音乐之声] [9.1分] (481144人评价) <用音乐化解仇恨,让歌声串起美好。>
第74名 [情书] [8.9分] (725109人评价) <暗恋的极致。>
第75名 [海豚湾] [9.3分] (306459人评价) <海豚的微笑,是世界上最高明的伪装。>
第76名 [美国往事] [9.2分] (333685人评价) <往事如烟,无处祭奠。>
第77名 [致命魔术] [8.9分] (691661人评价) <孪生蝙蝠侠大战克隆金刚狼。>
第78名 [阿凡达] [8.8分] (1118214人评价) <绝对意义上的美轮美奂。>
第79名 [沉默的羔羊] [8.9分] (685220人评价) <安东尼·霍普金斯的顶级表演。>
第80名 [禁闭岛] [8.8分] (761292人评价) <昔日翩翩少年,今日大腹便便。>
第81名 [低俗小说] [8.9分] (667317人评价) <故事的高级讲法。>
第82名 [蝴蝶效应] [8.8分] (749500人评价) <人的命运被自己瞬间的抉择改变。>
第83名 [心灵捕手] [8.9分] (564027人评价) <人生中应该拥有这样的一段豁然开朗。>
第84名 [布达佩斯大饭店] [8.9分] (713636人评价) <小清新的故事里注入了大历史的情怀。>
第85名 [七宗罪] [8.8分] (779045人评价) <警察抓小偷,老鼠玩死猫。>
第86名 [春光乍泄] [8.9分] (501790人评价) <爱情纠缠,男女一致。>
第87名 [哈利·波特与死亡圣器(下)] [8.9分] (624153人评价) <10年的完美句点。>
第88名 [摩登时代] [9.3分] (231227人评价) <大时代中的人生,小人物的悲喜。>
第89名 [被嫌弃的松子的一生] [8.9分] (591316人评价) <以戏谑来戏谑戏谑。>
第90名 [喜剧之王] [8.8分] (770469人评价) <我是一个演员。>
第91名 [致命ID] [8.8分] (642309人评价) <最不可能的那个人永远是最可能的。>
第92名 [杀人回忆] [8.9分] (543562人评价) <关于连环杀人悬案的集体回忆。>
第93名 [剪刀手爱德华] [8.7分] (883994人评价) <浪漫忧郁的成人童话。>
第94名 [加勒比海盗] [8.8分] (702490人评价) <约翰尼·德普的独角戏。>
第95名 [勇敢的心] [8.9分] (483421人评价) <史诗大片的典范。>
第96名 [狩猎] [9.1分] (298621人评价) <人言可畏。>
第97名 [请以你的名字呼唤我] [8.9分] (538779人评价) <沉醉在电影的情感和视听氛围中无法自拔。>
第98名 [天使爱美丽] [8.7分] (836482人评价) <法式小清新。 >
第99名 [断背山] [8.8分] (588413人评价) <每个人心中都有一座断背山。>
第100名 [红辣椒] [9.0分] (338015人评价) <梦的勾结。>
第101名 [7号房的礼物] [8.9分] (434497人评价) <《我是山姆》的《美丽人生》。>
第102名 [幽灵公主] [8.9分] (434318人评价) <人与自然的战争史诗。>
第103名 [小森林 夏秋篇] [9.0分] (340820人评价) <那些静得只能听见呼吸的日子里,你明白孤独即生活。>
第104名 [第六感] [8.9分] (441601人评价) <深入内心的恐怖,出人意料的结局。>
第105名 [阳光灿烂的日子] [8.8分] (500162人评价) <一场华丽的意淫。>
第106名 [重庆森林] [8.8分] (637538人评价) <寂寞没有期限。>
第107名 [唐伯虎点秋香] [8.7分] (843667人评价) <华太师是黄霑,吴镇宇四大才子之一。>
第108名 [超脱] [8.9分] (390643人评价) <穷尽一生,我们要学会的,不过是彼此拥抱。>
第109名 [爱在黎明破晓前] [8.8分] (496698人评价) <缘分是个连绵词,最美不过一瞬。>
第110名 [小森林 冬春篇] [9.0分] (305953人评价) <尊敬他人,尊敬你生活的这片土地,明白孤独是人生的常态。>
第111名 [功夫] [8.7分] (813336人评价) <警恶惩奸,维护世界和平这个任务就交给你了,好吗?>
第112名 [入殓师] [8.9分] (477160人评价) <死可能是一道门,逝去并不是终结,而是超越,走向下一程。>
第113名 [一一] [9.1分] (285860人评价) <我们都曾经是一一。>
第114名 [消失的爱人] [8.7分] (723751人评价) <年度最佳date movie。>
第115名 [蝙蝠侠:黑暗骑士崛起] [8.8分] (577027人评价) <诺兰就是保证。>
第116名 [菊次郎的夏天] [8.8分] (456369人评价) <从没见过那么流氓的温柔,从没见过那么温柔的流氓。>
第117名 [人生果实] [9.5分] (131342人评价) <土壤没有落叶不会肥沃,没有了你就不算人生。>
第118名 [侧耳倾听] [8.9分] (370864人评价) <少女情怀总是诗。>
第119名 [倩女幽魂] [8.7分] (590335人评价) <两张绝世的脸。 >
第120名 [无人知晓] [9.1分] (232881人评价) <我的平常生活就是他人的幸福。>
第121名 [超能陆战队] [8.7分] (808591人评价) <Balalala~~~>
第122名 [甜蜜蜜] [8.9分] (419374人评价) <相逢只要一瞬间,等待却像是一辈子。>
第123名 [借东西的小人阿莉埃蒂] [8.8分] (439036人评价) <曾经的那段美好会沉淀为一辈子的记忆。>
第124名 [萤火之森] [8.9分] (411975人评价) <触不到的恋人。>
第125名 [哈利·波特与阿兹卡班的囚徒] [8.8分] (495210人评价) <不一样的导演,不一样的哈利·波特。>
第126名 [完美的世界] [9.1分] (223186人评价) <坏人的好总是比好人的好来得更感人。>
第127名 [爱在日落黄昏时] [8.8分] (414606人评价) <九年后的重逢是世俗和责任的交叠,没了悸动和青涩,沧桑而温暖。>
第128名 [驯龙高手] [8.7分] (615941人评价) <和谐的生活离不开摸头与被摸头。>
第129名 [玛丽和马克思] [8.9分] (361304人评价) <你是我最好的朋友,你是我唯一的朋友 。>
第130名 [幸福终点站] [8.8分] (439495人评价) <有时候幸福需要等一等。 >
第131名 [告白] [8.7分] (576339人评价) <没有一人完全善,也没有一人完全恶。>
第132名 [大鱼] [8.8分] (465092人评价) <抱着梦想而活着的人是幸福的,怀抱梦想而死去的人是不朽的。>
第133名 [阳光姐妹淘] [8.8分] (500069人评价) <再多各自牛逼的时光,也比不上一起傻逼的岁月。 >
第134名 [射雕英雄传之东成西就] [8.7分] (522772人评价) <百看不厌。 >
第135名 [天书奇谭] [9.2分] (184379人评价) <传奇的年代,醉人的童话。>
第136名 [恐怖直播] [8.7分] (521002人评价) <恐怖分子的“秋菊打官司”。>
第137名 [怪兽电力公司] [8.7分] (527348人评价) <不要给它起名字,起了名字就有感情了。>
第138名 [神偷奶爸] [8.6分] (784139人评价) <Mr. I Don't Care其实也有Care的时候。>
第139名 [哈利·波特与密室] [8.7分] (519208人评价) <魔法的密室之门已打开...>
第140名 [玩具总动员3] [8.9分] (406996人评价) <跨度十五年的欢乐与泪水。>
第141名 [傲慢与偏见] [8.6分] (626424人评价) <爱是摈弃傲慢与偏见之后的曙光。>
第142名 [时空恋旅人] [8.8分] (468341人评价) <把每天当作最后一天般珍惜度过,积极拥抱生活,就是幸福。>
第143名 [教父3] [8.9分] (282521人评价) <任何信念的力量,都无法改变命运。>
第144名 [釜山行] [8.6分] (938682人评价) <揭露人性的丧尸题材力作。>
第145名 [血战钢锯岭] [8.7分] (645505人评价) <优秀的战争片不会美化战场,不会粉饰死亡,不会矮化敌人,不会无视常识,最重要的,不会宣扬战争。>
第146名 [哪吒闹海] [9.1分] (202018人评价) <想你时你在闹海。>
第147名 [被解救的姜戈] [8.7分] (484631人评价) <热血沸腾,那个低俗、性感的无耻混蛋又来了。>
第148名 [一个叫欧维的男人决定去死] [8.9分] (329890人评价) <惠及一生的美丽。>
第149名 [七武士] [9.3分] (153498人评价) <时代悲歌。>
第150名 [喜宴] [8.9分] (273406人评价) <中国家庭的喜怒哀乐忍。>
第151名 [电锯惊魂] [8.7分] (414370人评价) <真相就在眼前。>
第152名 [我是山姆] [8.9分] (252114人评价) <爱并不需要智商 。>
第153名 [风之谷] [8.9分] (302851人评价) <动画片的圣经。>
第154名 [头号玩家] [8.6分] (1120242人评价) <写给影迷,动漫迷和游戏迷的一封情书。>
第155名 [英雄本色] [8.7分] (415102人评价) <英雄泪短,兄弟情长。 >
第156名 [上帝之城] [9.0分] (250719人评价) <被上帝抛弃了的上帝之城。>
第157名 [未麻的部屋] [9.0分] (229305人评价) <好的剧本是,就算你猜到了结局也猜不到全部。>
第158名 [谍影重重3] [8.8分] (344651人评价) <像吃了苏打饼一样干脆的电影。>
第159名 [疯狂原始人] [8.7分] (700035人评价) <老少皆宜,这就是好莱坞动画的魅力。>
第160名 [卢旺达饭店] [8.9分] (248367人评价) <当这个世界闭上双眼,他却敞开了怀抱。>
第161名 [纵横四海] [8.8分] (330889人评价) <香港浪漫主义警匪动作片的巅峰之作。>
第162名 [三块广告牌] [8.7分] (670165人评价) <怼天怼地,你走后,她与世界为敌。>
第163名 [花样年华] [8.7分] (464865人评价) <偷情本没有这样美。>
第164名 [岁月神偷] [8.7分] (495508人评价) <岁月流逝,来日可追。>
第165名 [达拉斯买家俱乐部] [8.8分] (361799人评价) <Jared Leto的腿比女人还美!>
第166名 [模仿游戏] [8.7分] (492743人评价) <他给机器起名“克里斯托弗”,因为这是他初恋的名字。>
第167名 [黑客帝国3:矩阵革命] [8.8分] (344683人评价) <不得不说,《黑客帝国》系列是商业片与科幻、哲学完美结合的典范。>
第168名 [新世界] [8.9分] (288580人评价) <要做就做得狠一点,这样才能活下去。>
第169名 [心迷宫] [8.7分] (399309人评价) <荒诞讽刺,千奇百巧,抽丝剥茧,百转千回。>
第170名 [头脑特工队] [8.7分] (477525人评价) <愿我们都不用长大,每一座城堡都能永远存在。>
第171名 [记忆碎片] [8.6分] (498556人评价) <一个针管引发的血案。>
第172名 [忠犬八公物语] [9.2分] (152734人评价) <养狗三日,便会对你终其一生。>
第173名 [荒蛮故事] [8.8分] (344577人评价) <始于荒诞,止于更荒诞。>
第174名 [你的名字。] [8.4分] (1111823人评价) <穿越错位的时空,仰望陨落的星辰,你没留下你的名字,我却无法忘记那句“我爱你”。>
第175名 [真爱至上] [8.6分] (591175人评价) <爱,是个动词。>
第176名 [爆裂鼓手] [8.7分] (453865人评价) <这个世界从不善待努力的人,努力了也不一定会成功,但是知道自己在努力,就是活下去的动力。>
第177名 [贫民窟的百万富翁] [8.6分] (618389人评价) <上帝之城+猜火车+阿甘正传+开心辞典=山寨富翁>
第178名 [海街日记] [8.8分] (334685人评价) <是枝裕和的家庭习作。>
第179名 [东邪西毒] [8.6分] (479081人评价) <电影诗。>
第180名 [萤火虫之墓] [8.7分] (347268人评价) <幸福是生生不息,却难以触及的远。 >
第181名 [惊魂记] [9.0分] (201828人评价) <故事的反转与反转,分裂电影的始祖。>
第182名 [黑天鹅] [8.6分] (679254人评价) <黑暗之美。>
第183名 [寄生虫] [8.7分] (1101503人评价) <--等待添加-->
第184名 [无敌破坏王] [8.7分] (428904人评价) <迪士尼和皮克斯拿错剧本的产物。>
第185名 [你看起来好像很好吃] [8.9分] (273831人评价) <感情不分食草或者食肉。>
第186名 [冰川时代] [8.6分] (506347人评价) <松鼠才是角儿。>
第187名 [小偷家族] [8.7分] (668589人评价) <我们组成了家。>
第188名 [绿里奇迹] [8.9分] (240784人评价) <天使暂时离开。>
第189名 [哈利·波特与火焰杯] [8.6分] (447406人评价) <--等待添加-->
第190名 [雨人] [8.7分] (335826人评价) <生活在自己的世界里,也可以让周围的人显得可笑和渺小。>
第191名 [爱在午夜降临前] [8.8分] (280567人评价) <所谓爱情,就是话唠一路,都不会心生腻烦,彼此嫌弃。>
第192名 [恋恋笔记本] [8.5分] (531676人评价) <爱情没有那么多借口,如果不能圆满,只能说明爱的不够。 >
第193名 [疯狂的石头] [8.5分] (649913人评价) <中国版《两杆大烟枪》。>
第194名 [九品芝麻官] [8.6分] (482247人评价) <--等待添加-->
第195名 [恐怖游轮] [8.5分] (641436人评价) <不要企图在重复中寻找已经失去的爱。>
第196名 [奇迹男孩] [8.6分] (464278人评价) <世界不完美,爱会有奇迹。>
第197名 [雨中曲] [9.0分] (166956人评价) <骨灰级歌舞片。>
第198名 [魔女宅急便] [8.7分] (371668人评价) <宫崎骏的电影总让人感觉世界是美好的,阳光明媚的。>
第199名 [二十二] [8.7分] (237634人评价) <有一些东西不应该被遗忘。>
第200名 [海边的曼彻斯特] [8.6分] (390996人评价) <我们都有权利不与自己的过去和解。>
第201名 [虎口脱险] [8.9分] (193241人评价) <永远看不腻的喜剧。>
第202名 [人工智能] [8.7分] (355441人评价) <对爱的执着,可以超越一切。>
第203名 [房间] [8.8分] (316957人评价) <被偷走的岁月,被伤害的生命,被禁锢的灵魂,终将被希望和善意救赎。>
第204名 [2001太空漫游] [8.8分] (236064人评价) <现代科幻电影的开山之作,最伟大导演的最伟大影片。>
第205名 [色,戒] [8.5分] (564048人评价) <假戏真情,爱欲深海>
第206名 [城市之光] [9.3分] (107434人评价) <永远的小人物,伟大的卓别林。>
第207名 [可可西里] [8.8分] (238807人评价) <坚硬的信仰。>
第208名 [罗生门] [8.8分] (246911人评价) <人生的N种可能性。>
第209名 [终结者2:审判日] [8.7分] (282101人评价) <少见的超越首部的续集,动作片中的经典。>
第210名 [初恋这件小事] [8.4分] (832156人评价) <黑小鸭速效美白记。>
第211名 [大佛普拉斯] [8.7分] (329023人评价) <人们可以登上月球,却永远无法探索人们内心的宇宙。>
第212名 [波西米亚狂想曲] [8.7分] (465713人评价) <--等待添加-->
第213名 [魂断蓝桥] [8.8分] (224920人评价) <中国式内在的美国电影。>
第214名 [遗愿清单] [8.7分] (320543人评价) <用剩余不多的时间,去燃烧整个生命。>
第215名 [牯岭街少年杀人事件] [8.9分] (209562人评价) <弱者送给弱者的一刀。>
第216名 [源代码] [8.5分] (669524人评价) <邓肯·琼斯继《月球》之后再度奉献出一部精彩绝伦的科幻佳作。>
第217名 [新龙门客栈] [8.6分] (356657人评价) <嬉笑怒骂,调风动月。>
第218名 [青蛇] [8.6分] (414082人评价) <人生如此,浮生如斯。谁人言,花彼岸,此生情长意短。谁都是不懂爱的罢了。>
第219名 [无耻混蛋] [8.6分] (385423人评价) <昆汀同学越来越变态了,比北野武还杜琪峰。>
第220名 [疯狂的麦克斯4:狂暴之路] [8.6分] (419422人评价) <“多么美好的一天!”轰轰轰砰咚,啪哒哒哒轰隆隆,磅~>
第221名 [燃情岁月] [8.8分] (236595人评价) <传奇,不是每个人都可以拥有。>
第222名 [海洋] [9.1分] (138475人评价) <大海啊,不全是水。>
第223名 [血钻] [8.7分] (294341人评价) <每个美丽事物背后都是滴血的现实。>
第224名 [步履不停] [8.8分] (213822人评价) <日本的家庭电影已经是世界巅峰了,步履不停是巅峰中的佳作。>
第225名 [穿越时空的少女] [8.6分] (321168人评价) <爱上未来的你。 >
第226名 [谍影重重2] [8.7分] (289091人评价) <谁说王家卫镜头很晃?>
第227名 [阿飞正传] [8.5分] (401590人评价) <王家卫是一种风格,张国荣是一个代表。>
第228名 [彗星来的那一夜] [8.5分] (420183人评价) <小成本大魅力。>
第229名 [战争之王] [8.7分] (286607人评价) <做一颗让别人需要你的棋子。>
第230名 [完美陌生人] [8.5分] (443154人评价) <来啊,互相伤害啊!>
第231名 [地球上的星星] [8.9分] (169330人评价) <天使保护事件始末。>
第232名 [东京教父] [9.0分] (142693人评价) <--等待添加-->
第233名 [谍影重重] [8.6分] (345491人评价) <哗啦啦啦啦,天在下雨,哗啦啦啦啦,云在哭泣……找自己。>
第234名 [香水] [8.5分] (457873人评价) <一个单凭体香达到高潮的男人。>
第235名 [无间道2] [8.6分] (333237人评价) <--等待添加-->
第236名 [千钧一发] [8.8分] (209623人评价) <一部能引人思考的科幻励志片。>
第237名 [东京物语] [9.2分] (106083人评价) <东京那么大,如果有一天走失了,恐怕一辈子不能再相见。>
第238名 [黑客帝国2:重装上阵] [8.6分] (304420人评价) <一个精彩的世界观正在缓缓建立。>
第239名 [驴得水] [8.4分] (749475人评价) <过去的如果就让它过去了,未来只会越来越糟!>
第240名 [朗读者] [8.6分] (392896人评价) <当爱情跨越年龄的界限,它似乎能变得更久远一点,成为一种责任,一种水到渠成的相濡以沫。 >
第241名 [再次出发之纽约遇见你] [8.6分] (343573人评价) <爱我就给我看你的播放列表。>
第242名 [崖上的波妞] [8.5分] (373620人评价) <--等待添加-->
第243名 [我爱你] [9.1分] (130218人评价) <你要相信,这世上真的有爱存在,不管在什么年纪 >
第244名 [猜火车] [8.5分] (359384人评价) <不可猜的青春迷笛。 >
第245名 [浪潮] [8.7分] (222955人评价) <世界离独裁只有五天。>
第246名 [聚焦] [8.8分] (230453人评价) <新闻人的理性求真。>
第247名 [小萝莉的猴神大叔] [8.4分] (403960人评价) <宝莱坞的萝莉与大叔。>
第248名 [追随] [8.9分] (149161人评价) <诺兰的牛逼来源于内心散发出的恐惧。>
第249名 [网络谜踪] [8.6分] (429870人评价) <--等待添加-->
第250名 [黑鹰坠落] [8.7分] (238835人评价) <还原真实而残酷的战争。>

运行环境

Win10 + Python3.6 + Pycharm + Edge

html代码格式化

查看豆瓣电影 Top 250网站,[右键]选择[查看页面源代码]

当前网页的源代码如下(头部信息截图):

分析得出每部影片的相关数据均在如下标签中(以排名第一的电影肖申克的救赎为例):

代码的格式有点乱,有些地方没有对齐,或者缩进不对,不太方便提取相关信息,可以使用ToolFk 在线常用工具箱的在线HTML工具进行格式化,处理完成之后的效果如下:

<div class="item"><div class="pic"><em class="">1</em><a href="https://movie.douban.com/subject/1292052/"><img width="100" alt="肖申克的救赎" src="https://img2.doubanio.com/view/photo/s_ratio_poster/public/p480747492.webp" class=""></a></div><div class="info"><div class="hd"><a href="https://movie.douban.com/subject/1292052/" class=""><span class="title">肖申克的救赎</span><span class="title">&nbsp;/&nbsp;The Shawshank Redemption</span><span class="other">&nbsp;/&nbsp;月黑高飞(港) / 刺激1995(台)</span></a><span class="playable">[可播放]</span></div><div class="bd"><p class="">导演: 弗兰克·德拉邦特 Frank Darabont&nbsp;&nbsp;&nbsp;主演: 蒂姆·罗宾斯 Tim Robbins /...<br>1994&nbsp;/&nbsp;美国&nbsp;/&nbsp;犯罪 剧情</p><div class="star"><span class="rating5-t"></span><span class="rating_num" property="v:average">9.7</span><span property="v:best" content="10.0"></span><span>2312095人评价</span></div><p class="quote"><span class="inq">希望让人自由。</span></p></div></div>
</div>

完整代码

import requests
from bs4 import BeautifulSoupdef get_film_name(div_class_hd):first_span = div_class_hd.find_all('span')[0]return first_span.stringdef get_film_score_and_estimator_count(div_class_star):all_span = div_class_star.find_all('span')second_span = all_span[1]film_score = second_span.stringfourth_span = all_span[3]film_estimator_count = fourth_span.stringreturn film_score, film_estimator_countdef get_film_slogan(p_class_quote):# first_span = p_class_quote.find_all('span')[0]first_span = p_class_quote.spanreturn first_span.stringdef get_reponse_bs_data(input_url, input_headers):response = requests.get(input_url, headers=input_headers)bs = BeautifulSoup(response.text, 'lxml')return bsdef print_film_info(bs_data, start_idx):for div_class_item in bs_data.find_all('div', attrs={'class': 'item'}):# 获取电影名称film_name = get_film_name(div_class_item)# 获取电影评分与评分人数div_class_star = div_class_item.find_all('div', attrs={'class': 'star'})[0]film_score, film_estimator_count = get_film_score_and_estimator_count(div_class_star)# 获取电影sloganfilm_slogan = ''all_p_class_quote = div_class_item.find_all('p', attrs={'class': 'quote'})if len(all_p_class_quote) != 0:film_slogan = get_film_slogan(all_p_class_quote[0])else:film_slogan = '--等待添加--'print('第{}名 [{}] [{}分] ({}) <{}>'.format(start_idx, film_name, film_score, film_estimator_count, film_slogan))start_idx += 1if __name__ == '__main__':dest_url_template = "https://movie.douban.com/top250?start={}&filter="dest_headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}for start_idx in range(0, 250, 25):dest_url = dest_url_template.format(start_idx)bs_data = get_reponse_bs_data(dest_url, dest_headers)print_film_info(bs_data, start_idx + 1)

代码分析

相关知识介绍

获取网页的html数据使用requests模块,对返回的html数据进行解析使用BeautifulSoup模块(其中会使用到lxml)。需要安装的模块分别为requests、bs4(注意不是BeautifulSoup)、lxml,安装命令如下:

pip install requests
pip install bs4
pip install lxml

引用模块代码如下:

import requests
from bs4 import BeautifulSoup

文中使用到的requests模块、BeautifulSoup模块的相关知识,这里就不展开介绍了,可以自行搜相关知识。

获取页面的html数据–>get_response_bs_data()

获取页面的hmtl数据,使用模块requests进行处理最为简单,不过使用之前需要使用pip install进行安装,本文中还是用到模块lxml,也需要使用pip install进行安装。

def get_reponse_bs_data(input_url, input_headers):# 获取html数据response = requests.get(input_url, headers=input_headers)# 对html数据进行解析,方便后续处理bs = BeautifulSoup(response.text, 'lxml')return bs

返回的BeautifulSoup对象bs已经对html数据进行了格式化处理,它的数据类型为<class 'bs4.BeautifulSoup'>,内部是由各种tag数据组成。之后所有的处理都是对bs及其子tag进行处理,tag的数据类型为<class 'bs4.element.Tag'>,其具体的操作,将在下面的代码依次介绍。

取得影片名称–>get_film_name()

由格式化后的html代码可知,影片的名称信息在如下标签中:

<div class="hd"><a href="https://movie.douban.com/subject/1292052/" class=""><span class="title">肖申克的救赎</span><span class="title">&nbsp;/&nbsp;The Shawshank Redemption</span><span class="other">&nbsp;/&nbsp;月黑高飞(港) / 刺激1995(台)</span></a><span class="playable">[可播放]</span>
</div>

取得电影名称的代码如下:

def get_film_name(div_class_hd):# 获取第一个span标签# 这里也可以用div_clas_hd.span,如果有多个span标签,它返回第一个first_span = div_class_hd.find_all('span')[0]# 返回这个tag的内容信息return first_span.string

取得得分和评价人数–>get_film_score_and_estimator_count()

影片得分和评价人数信息在如下标签中:

<div class="star"><span class="rating5-t"></span><span class="rating_num" property="v:average">9.7</span><span property="v:best" content="10.0"></span><span>2312095人评价</span>
</div>

取得得分和评价人数代码如下:

def get_film_score_and_estimator_count(div_class_star):# 获取所有span标签all_span = div_class_star.find_all('span')# 取得第一个span标签second_span = all_span[1]# 获取标签内容film_score = second_span.string# 获取第三个span标签fourth_span = all_span[3]# 获取标签内容film_estimator_count = fourth_span.stringreturn film_score, film_estimator_count

取得电影slogan–>get_film_slogan()

slogan信息在如下标签中:

<p class="quote"><span class="inq">希望让人自由。</span>
</p>

取得slogan信息代码如下:

def get_film_slogan(p_class_quote):# 获取第一个span标签# 也可以使用p_class_quote.find_all('span')[0]first_span = p_class_quote.span# 返回标签内容return first_span.string

打印当前页面影片信息–>print_film_info()

def print_film_info(bs_data, start_idx):# 获取所有的属性class值为item的div标签for div_class_item in bs_data.find_all('div', attrs={'class': 'item'}):# 获取电影名称film_name = get_film_name(div_class_item)# 获取电影评分与评分人数div_class_star = div_class_item.find_all('div', attrs={'class': 'star'})[0]film_score, film_estimator_count = get_film_score_and_estimator_count(div_class_star)# 获取电影sloganfilm_slogan = ''all_p_class_quote = div_class_item.find_all('p', attrs={'class': 'quote'})if len(all_p_class_quote) != 0:film_slogan = get_film_slogan(all_p_class_quote[0])else: # 有些电影没有这个标签,需要特殊处理film_slogan = '--等待添加--'print('第{}名 [{}] [{}分] ({}) <{}>'.format(start_idx, film_name, film_score, film_estimator_count, film_slogan))start_idx += 1

打印所有页面影片信息

界面每页是25个电影信息,总共10页。页面的所有链接地址如下,可以非常容易找到链接地址的变化规律。

https://movie.douban.com/top250?start=0&filter=
https://movie.douban.com/top250?start=25&filter=
...
https://movie.douban.com/top250?start=225&filter=

下面是这个功能的框架代码:

if __name__ == '__main__':# 链接地址模板,根据需要填入start参数dest_url_template = "https://movie.douban.com/top250?start={}&filter="# 头部信息,这里子需要填入User-Agent即可,以防止获取数据时遭到拒接dest_headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}# 每页25条信息for start_idx in range(0, 250, 25):# 拼接链接地址dest_url = dest_url_template.format(start_idx)# 获取bs信息bs_data = get_reponse_bs_data(dest_url, dest_headers)# 打印影片信息print_film_info(bs_data, start_idx + 1)

Python 爬取豆瓣电影Top250相关推荐

  1. 利用python爬取豆瓣电影top250

    利用python爬取豆瓣电影top250: 注:本内容只是作为个人学习记录 1.业务分析 进入网页https://movie.douban.com/top250 可以看见每部电影都呈现在眼前,点击电影 ...

  2. Python爬取豆瓣电影top250的电影信息

    Python爬取豆瓣电影top250的电影信息 前言 一.简介 二.实例源码展示 小结 前言 相信很多小伙伴在学习网络爬虫时,老师们会举一些实例案例讲解爬虫知识,本文介绍的就是经典爬虫实际案例–爬取豆 ...

  3. 源码大公开!Python爬取豆瓣电影Top250源代码,赶紧收藏!

    哈喽~大家好,我是恰恰.不知道是不是有很多小伙伴跟我一样,很喜欢看电影,尤其是那种别人推荐的豆瓣高分电影,所以学Python就有一个好处,用Python爬取豆瓣电影那是分分钟的事,再也不用因为有些电影 ...

  4. python爬取豆瓣电影top250的代码_Python爬虫——爬取豆瓣电影Top250代码实例

    利用python爬取豆瓣电影Top250的相关信息,包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容,然后将爬取的信息写入Excel表中 ...

  5. python爬取豆瓣电影top250编码_Python学习日记1| 用python爬取豆瓣电影top250

    今天是3.17号. 离毕业论文开题只剩下不到15天,自己这边还不知道要写什么好,问了导师,导师给的范围超级广泛,实在是想吐槽.想了几天,决定了要尽快给老师说自己的想法和方向,做什么还是靠自己比较靠谱. ...

  6. python爬取豆瓣电影top250并保存为xlsx_python抓取豆瓣电影Top250数据并写入Excel

    douban python抓取豆瓣电影Top250数据并写入Excel 1.将目标网站上的页面抓取下来 2.将抓取下来的数据根据一定的规则进行提取 create table `tb_movie`( i ...

  7. python爬取豆瓣电影top250_用Python爬取豆瓣电影TOP250分析

    / 01 / Scrapy 之前了解了pyspider框架的使用,但是就它而言,只能应用于一些简单的爬取. 对于反爬程度高的网站,它就显得力不从心. 那么就轮到Scrapy上场了,目前Python中使 ...

  8. 零基础爬虫----python爬取豆瓣电影top250的信息(转)

    今天利用xpath写了一个小爬虫,比较适合一些爬虫新手来学习.话不多说,开始今天的正题,我会利用一个案例来介绍下xpath如何对网页进行解析的,以及如何对信息进行提取的. python环境:pytho ...

  9. python爬取豆瓣电影top250_利用python爬取豆瓣电影Top250,并把数据放入MySQL数据库...

    在学习了python基础后,一心想着快速入门爬虫,因为我就是为爬虫而学的python,所以就找了这个豆瓣电影来爬取.好了,废话不多说,进入正题 1.找到网页并分析网页结构 首先进入豆瓣电影Top250 ...

  10. python爬取豆瓣电影Top250(小白系列)

    本文是作者在通过B站跟着李巍老师学习以后所写,记一次学习笔记,自己为了方便自己以后回顾模仿 . 本文是最终爬取排行榜,相关知识储备在我的微信公共号(名称:PromisingQ)已发,后续还会不定期更新 ...

最新文章

  1. 用C语言实现Ping程序功能
  2. 微信小程序开发--如何在swiper中显示两个item以及下一个item的部分内容
  3. 后台获取前台runat=server的select的值
  4. WF4.0:NativeActivity中的错误处理
  5. PHP判断文件夹是否存在和创建文件夹的方法
  6. 所有的计算机语言都必须进行多进制运算,2018职称计算机考试巩固练习及答案17...
  7. 剑指offer面试题[15]-链表中倒数第K个结点
  8. Flash CS6 专业版破解教程、Flash CS6 激活序列号、破解补丁
  9. 阿铭Linux_网站维护学习笔记201903027
  10. 客户端程序员的工具们
  11. 计算机为何引入16进制,计算机内存地址为什么要用16进制数来表示
  12. 使用较广泛的安全测试工具有哪些?
  13. 计算机学期总结与学业计划,计算机教学工作总结以及来年计划范文
  14. TB6612使用说明,使用方法,引脚图,实物图。
  15. Android 下拉选择框自定义view
  16. 工程师必读书籍_最佳软件工程师必读书籍
  17. 深度学习笔记(七)--ResNet(残差网络)
  18. php变量输出的几种方式
  19. 基于RocketMQ设计秒杀
  20. 你离真正的全栈开发人员只差学会 Electron

热门文章

  1. 【JZOJ 省选模拟】6691.六道剑「一念无量劫」
  2. 笔记本的无线wifi共享给台式机、服务器上网
  3. java中gc是什么_深入理解Java GC
  4. 用linux安装包装ftp,Linux 安装vsftpd和ftp客户端
  5. Oracle RMAN无法删除归档一例
  6. 解析 FBX 模型文件作为 Direct3D 的渲染模型
  7. 侧入式LED背光源优缺点分析
  8. python使用gmail发送邮件
  9. uni-app和H5页面使用支付宝登陆问题解决
  10. post 请求报400错误