最近由于公司业务上的需求,要网络采集一些数据,并格式化以供应用的调取,前期想到用正则表达式来对网页格式串进行过滤和抓取,在进行了一系列尝试之后放弃,
原因是太繁琐了,而且对于每种网页都需要写特定的表达式,不可通用。
    后面在查找相关资料时,发现python也提供一个类似jquery的包,叫做pyquery,可用以进行网络抓取,遂安装研究了一下,发现确实挺好用,不用写复杂的表达式即可
对数据进行抓取和过滤。

下面就以一个网页为例,来抓取指定格式的数据,并记录过程。

http://yunvs.com/list/mai_1.html

我要抓取这个网页上的数据,如下图:


我现在需要抓取股票与概念的关系,以便应用可以方便的通过股票查找其所属的概念,也可以通过热点概念定位相关股票。
那么,应用所需要的数据格式应该是这样的:
股票代码   股票名称   概念名称
002011     盾安环境    多晶硅   
002011     盾安环境    分布式能源   
002011     盾安环境    核电   
002011     盾安环境    核电通风与空气处   
002011     盾安环境    太阳能   
002011     盾安环境    低碳经济   
002011     盾安环境    珠港澳大桥概念 
002011     盾安环境    地热   
002011     盾安环境    地热能   
002011     盾安环境    供热管网改造  
002011     盾安环境    疫苗储存   
002011     盾安环境    干热岩

但是从网页上我们可以看到,数据是以行的形式来展现的,单只股票后面跟了多个概念,且概念与概念之间以空格为分隔符,所以我们不仅仅要对数据进行抓取,同时还要对其格式进行处理。

下面,我们就通过python的第三方扩展包pyquery来对此网页进行抓取。

1.安装pyquery包

具体的安装过程就不在这里详述了,python的包安装可以通过一个工具叫做easy_install来进行安装和管理,大家百度一下即可得到相关资料。
pyquery包解析html以来lxml包,所以这里要安装pyquery和lxml两个包才可使用pyquery.

pyquery的官网地址: ht tp://pythonhosted.org//pyquery/api.htm l ,上面有详细的每个api的使用方法

2.导入pyquery包

from pyquery import PyQuery as pq
from lxml import etree

3.加载需要解析的数据源

v_source=pq("hello")   ---直接加载一个html串
v_source=pq(filename=path_to_html_file)                 ---加载位于指定路径下的html文件
v_source=pq(url='http://yunvs.com/list/mai_1.html')                ---加载url地址直接进行解析

在这里我们就直接使用第三种方式,直接加载网页来进行数据抓取,这样显得更直观和实用。

4.分析要解析的html网页代码

http://yunvs.com/list/mai_1.html 为例,我们要抓取股票和概念的数据,那么查看其网页源码,将要解析的代码段摘出来,如下:

点击(此处)折叠或打开

  1. <tr height=\"30\" > <td align=\"center\"><a href=\"http://yunvs.com/600401\" target=\"_blank\">600401</a></td>
  2. <td align=\"center\"><a href=\"http://yunvs.com/600401\" target=\"_blank\">海润光伏</a></td>
  3. <td align=\"center\">17876.8</td>
  4. <td align=\"center\">2005.74</td>
  5. <td align=\"center\"><font color=\"#C00\"><b>+791.28%</b></font></td>
  6. <td align=\"left\"><a href=\"http://yunvs.com/theme/t640.html\" target=\"_blank\">光伏</a>&nbsp;&nbsp;<a href=\"http://yunvs.com/theme/t323.html\" target=\"_blank\">太阳能</a>&nbsp;&nbsp;<a href=\"http://yunvs.com/theme/t225.html\" target=\"_blank\">阶梯电价受益</a>&nbsp;&nbsp;<a href=\"http://yunvs.com/theme/t105.html\" target=\"_blank\">多晶硅</a>&nbsp;&nbsp;<a href=\"http://yunvs.com/theme/t285.html\" target=\"_blank\">券商(龙头)</a>&nbsp;&nbsp;<a href=\"http://yunvs.com/theme/t230.html\" target=\"_blank\">金太阳工程</a>&nbsp;&nbsp;</td>
  7. </tr>

可以看到,单只股票的数据都是包含在一个大的 tr标签里面,那么我们第一步过滤就是将网页里面所有的tr段截取出来。

第一步过滤可以这样写:

v_source=pq(url='http://yunvs.com/list/mai_1.html')

v_source('tr')    ----这里就是将所有以tr打头的html段过滤出来

想测试的话,可以用以下的语句来输出结果。

for data in v_source('tr'):
    print pq(data).html()                      ---直接输出截取串的html对象,看着更加直观

输出如下:

点击(此处)折叠或打开

  1. <th width=\"60px\" align=\"center\">代码</th>
  2. <th width=\"60px\" align=\"center\">股票</th>
  3. <th width=\"80px\" align=\"center\"><a href=\"http://yunvs.com/list/mai_1.html\">市场关注度↓</a></th>
  4. <th width=\"65px\" align=\"center\"><a href=\"http://yunvs.com/list/mai_ac_1.html\" style=\"text-decoration:underline\">平均MAI</a></th>
  5. <th width=\"100px\" align=\"center\"><a href=\"http://yunvs.com/list/mai_mc_1.html\" style=\"text-decoration:underline\">MAI相对变动</a></th>
  6. <th width=\"530px\" align=\"center\">相关概念</th>
  7. <td align=\"center\"><a href=\"http://yunvs.com/600401\" target=\"_blank\">600401</a></td>
  8. <td align=\"center\"><a href=\"http://yunvs.com/600401\" target=\"_blank\">海润光伏</a></td>
  9. <td align=\"center\">17417.6</td>
  10. <td align=\"center\">2006.94</td>
  11. <td align=\"center\"><font color=\"#C00\"><b>+767.87%</b></font></td>
  12. <td align=\"left\"><a href=\"http://yunvs.com/theme/t640.html\" target=\"_blank\">光伏</a>  <a href=\"http://yunvs.com/theme/t323.html\" target=\"_blank\">太阳能</a>  <a href=\"http://yunvs.com/theme/t225.html\" target=\"_blank\">阶梯电价受益</a>  <a href=\"http://yunvs.com/theme/t105.html\" target=\"_blank\">多晶硅</a>  <a href=\"http://yunvs.com/theme/t285.html\" target=\"_blank\">券商(龙头)</a>  <a href=\"http://yunvs.com/theme/t230.html\" target=\"_blank\">金太阳工程</a>  </td>
  13. <td align=\"center\"><a href=\"http://yunvs.com/002143\" target=\"_blank\">002143</a></td>
  14. <td align=\"center\"><a href=\"http://yunvs.com/002143\" target=\"_blank\">高金食品</a></td>
  15. <td align=\"center\">10220.3</td>
  16. <td align=\"center\">1336.69</td>
  17. <td align=\"center\"><font color=\"#C00\"><b>+664.6%</b></font></td>
  18. <td align=\"left\"><a href=\"http://yunvs.com/theme/t293.html\" target=\"_blank\">肉制品</a>  <a href=\"http://yunvs.com/theme/t290.html\" target=\"_blank\">猪肉</a>  <a href=\"http://yunvs.com/theme/t458.html\" target=\"_blank\">成渝特区</a>  <a href=\"http://yunvs.com/theme/t862.html\" target=\"_blank\">猪肉加工</a>  <a href=\"http://yunvs.com/theme/t1150.html\" target=\"_blank\">农地林地</a>  <a href=\"http://yunvs.com/theme/t1020.html\" target=\"_blank\">传媒</a>  </td>
  19. <td align=\"center\"><a href=\"http://yunvs.com/002070\" target=\"_blank\">002070</a></td>
  20. <td align=\"center\"><a href=\"http://yunvs.com/002070\" target=\"_blank\">众和股份</a></td>
  21. <td align=\"center\">6022.89</td>
  22. <td align=\"center\">611.21</td>
  23. <td align=\"center\"><font color=\"#C00\"><b>+885.4%</b></font></td>
  24. <td align=\"left\"><a href=\"http://yunvs.com/theme/t397.html\" target=\"_blank\">印染</a>  <a href=\"http://yunvs.com/theme/t906.html\" target=\"_blank\">锂精矿</a>  <a href=\"http://yunvs.com/theme/t1222.html\" target=\"_blank\">海西</a>  <a href=\"http://yunvs.com/theme/t211.html\" target=\"_blank\">己内酰胺</a>  </td>
  25. <td align=\"center\"><a href=\"http://yunvs.com/300213\" target=\"_blank\">300213</a></td>
  26. <td align=\"center\"><a href=\"http://yunvs.com/300213\" target=\"_blank\">佳讯飞鸿</a></td>
  27. <td align=\"center\">5896.39</td>
  28. <td align=\"center\">374.88</td>
  29. <td align=\"center\"><font color=\"#C00\"><b>+1472.87%</b></font></td>
  30. <td align=\"left\"><a href=\"http://yunvs.com/theme/t151.html\" target=\"_blank\">光通信</a>  <a href=\"http://yunvs.com/theme/t1157.html\" target=\"_blank\">探月工程</a>  <a href=\"http://yunvs.com/theme/t1129.html\" target=\"_blank\">三季报预增</a>  <a href=\"http://yunvs.com/theme/t1161.html\" target=\"_blank\">铁路营改增</a>  <a href=\"http://yunvs.com/theme/t1161.html\" target=\"_blank\">铁路营改增</a>  </td>
  31. <td align=\"center\"><a href=\"http://yunvs.com/600732\" target=\"_blank\">600732</a></td>
  32. <td align=\"center\"><a href=\"http://yunvs.com/600732\" target=\"_blank\">上海新梅</a></td>
  33. <td align=\"center\">4529.39</td>
  34. <td align=\"center\">894.01</td>
  35. <td align=\"center\"><font color=\"#C00\"><b>+406.64%</b></font></td>
  36. <td align=\"left\"><a href=\"http://yunvs.com/theme/t80.html\" target=\"_blank\">迪士尼</a>  <a href=\"http://yunvs.com/theme/t66.html\" target=\"_blank\">创投</a>  </td>
  37. <td align=\"center\"><a href=\"http://yunvs.com/600303\" target=\"_blank\">600303</a></td>
  38. <td align=\"center\"><a href=\"http://yunvs.com/600303\" target=\"_blank\">曙光股份</a></td>
  39. <td align=\"center\">4139.83</td>
  40. <td align=\"center\">131.78</td>
  41. <td align=\"center\"><font color=\"#C00\"><b>+3041.47%</b></font></td>
  42. <td align=\"left\"><a href=\"http://yunvs.com/theme/t241.html\" target=\"_blank\">客车</a>  <a href=\"http://yunvs.com/theme/t380.html\" target=\"_blank\">新能源客车</a>  <a href=\"http://yunvs.com/theme/t459.html\" target=\"_blank\">东北振兴</a>  <a href=\"http://yunvs.com/theme/t396.html\" target=\"_blank\">乙肝疫苗</a>  <a href=\"http://yunvs.com/theme/t588.html\" target=\"_blank\">校车</a>  <a href=\"http://yunvs.com/theme/t147.html\" target=\"_blank\">公路运输</a>  <a href=\"http://yunvs.com/theme/t147.html\" target=\"_blank\">公路运输</a>  <a href=\"http://yunvs.com/theme/t1266.html\" target=\"_blank\">镍碳超级电容电池</a>  </td>
  43. <td align=\"center\"><a href=\"http://yunvs.com/002130\" target=\"_blank\">002130</a></td>
  44. <td align=\"center\"><a href=\"http://yunvs.com/002130\" target=\"_blank\">沃尔核材</a></td>
  45. <td align=\"center\">3749.11</td>
  46. <td align=\"center\">1875.24</td>
  47. <td align=\"center\"><font color=\"#C00\"><b>+99.93%</b></font></td>
  48. <td align=\"left\"><a href=\"http://yunvs.com/theme/t174.html\" target=\"_blank\">核电</a>  <a href=\"http://yunvs.com/theme/t232.html\" target=\"_blank\">抗辐射</a>  <a href=\"http://yunvs.com/theme/t381.html\" target=\"_blank\">新型建材</a>  <a href=\"http://yunvs.com/theme/t444.html\" target=\"_blank\">新材料</a>  <a href=\"http://yunvs.com/theme/t456.html\" target=\"_blank\">珠三角区</a>  <a href=\"http://yunvs.com/theme/t97.html\" target=\"_blank\">电线电缆</a>  <a href=\"http://yunvs.com/theme/t1201.html\" target=\"_blank\">铁基超导</a>  <a href=\"http://yunvs.com/theme/t704.html\" target=\"_blank\">合肥综合保税区</a>  <a href=\"http://yunvs.com/theme/t1159.html\" target=\"_blank\">中英核电合作</a>  <a href=\"http://yunvs.com/theme/t58.html\" target=\"_blank\">超导材料</a>  <a href=\"http://yunvs.com/theme/t1321.html\" target=\"_blank\">新合成三维材料</a>  </td>
  49. <td align=\"center\"><a href=\"http://yunvs.com/002113\" target=\"_blank\">002113</a></td>
  50. <td align=\"center\"><a href=\"http://yunvs.com/002113\" target=\"_blank\">天润控股</a></td>
  51. <td align=\"center\">3741.65</td>
  52. <td align=\"center\">569.31</td>
  53. <td align=\"center\"><font color=\"#C00\"><b>+557.23%</b></font></td>
  54. <td align=\"left\"><a href=\"http://yunvs.com/theme/t754.html\" target=\"_blank\">足球</a>  </td>
  55. <td align=\"center\"><a href=\"http://yunvs.com/600315\" target=\"_blank\">600315</a></td>
  56. <td align=\"center\"><a href=\"http://yunvs.com/600315\" target=\"_blank\">上海家化</a></td>
  57. <td align=\"center\">3638.3</td>
  58. <td align=\"center\">1602.57</td>
  59. <td align=\"center\"><font color=\"#C00\"><b>+127.03%</b></font></td>
  60. <td align=\"left\"><a href=\"http://yunvs.com/theme/t193.html\" target=\"_blank\">化妆品</a>  <a href=\"http://yunvs.com/theme/t616.html\" target=\"_blank\">消毒</a>  <a href=\"http://yunvs.com/theme/t626.html\" target=\"_blank\">抗病毒产品</a>  <a href=\"http://yunvs.com/theme/t50.html\" target=\"_blank\">丙烯腈</a>  <a href=\"http://yunvs.com/theme/t383.html\" target=\"_blank\">信托</a>  <a href=\"http://yunvs.com/theme/t67.html\" target=\"_blank\">纯碱</a>  <a href=\"http://yunvs.com/theme/t1129.html\" target=\"_blank\">三季报预增</a>  <a href=\"http://yunvs.com/theme/t1068.html\" target=\"_blank\">易信</a>  <a href=\"http://yunvs.com/theme/t593.html\" target=\"_blank\">民族品牌</a>  <a href=\"http://yunvs.com/theme/t56.html\" target=\"_blank\">草甘膦</a>  <a href=\"http://yunvs.com/theme/t41.html\" target=\"_blank\">苯胺</a>  <a href=\"http://yunvs.com/theme/t211.html\" target=\"_blank\">己内酰胺</a>  </td>
  61. <td align=\"center\"><a href=\"http://yunvs.com/002009\" target=\"_blank\">002009</a></td>
  62. <td align=\"center\"><a href=\"http://yunvs.com/002009\" target=\"_blank\">天奇股份</a></td>
  63. <td align=\"center\">3566.27</td>
  64. <td align=\"center\">412.28</td>
  65. <td align=\"center\"><font color=\"#C00\"><b>+765.01%</b></font></td>
  66. <td align=\"left\"><a href=\"http://yunvs.com/theme/t126.html\" target=\"_blank\">风电叶片</a>  <a href=\"http://yunvs.com/theme/t370.html\" target=\"_blank\">低碳经济</a>  <a href=\"http://yunvs.com/theme/t460.html\" target=\"_blank\">江苏沿海地区</a>  <a href=\"http://yunvs.com/theme/t523.html\" target=\"_blank\">机器人</a>  <a href=\"http://yunvs.com/theme/t804.html\" target=\"_blank\">工业自动化</a>  <a href=\"http://yunvs.com/theme/t845.html\" target=\"_blank\">智能物流骨干网</a>  <a href=\"http://yunvs.com/theme/t742.html\" target=\"_blank\">供热管网改造</a>  <a href=\"http://yunvs.com/theme/t362.html\" target=\"_blank\">物流</a>  <a href=\"http://yunvs.com/theme/t998.html\" target=\"_blank\">报废车回收</a>  <a href=\"http://yunvs.com/theme/t871.html\" target=\"_blank\">万达文化旅游城</a>  <a href=\"http://yunvs.com/theme/t451.html\" target=\"_blank\">循环经济</a>  </td>
  67. <td align=\"center\"><a href=\"http://yunvs.com/000018\" target=\"_blank\">000018</a></td>
  68. <td align=\"center\"><a href=\"http://yunvs.com/000018\" target=\"_blank\">中冠A</a></td>
  69. <td align=\"center\">3354.35</td>
  70. <td align=\"center\">172.67</td>
  71. <td align=\"center\"><font color=\"#C00\"><b>+1842.63%</b></font></td>
  72. <td align=\"left\"><a href=\"http://yunvs.com/theme/t397.html\" target=\"_blank\">印染</a>  <a href=\"http://yunvs.com/theme/t1152.html\" target=\"_blank\">工业用地</a>  </td>
  73. <td align=\"center\"><a href=\"http://yunvs.com/000036\" target=\"_blank\">000036</a></td>
  74. <td align=\"center\"><a href=\"http://yunvs.com/000036\" target=\"_blank\">华联控股</a></td>
  75. <td align=\"center\">3131.94</td>
  76. <td align=\"center\">184.24</td>
  77. <td align=\"center\"><font color=\"#C00\"><b>+1599.93%</b></font></td>
  78. <td align=\"left\"><a href=\"http://yunvs.com/theme/t8.html\" target=\"_blank\">PTA(化工)</a>  <a href=\"http://yunvs.com/theme/t282.html\" target=\"_blank\">前海开发</a>  <a href=\"http://yunvs.com/theme/t456.html\" target=\"_blank\">珠三角区</a>  <a href=\"http://yunvs.com/theme/t494.html\" target=\"_blank\">深圳土地创新</a>  <a href=\"http://yunvs.com/theme/t681.html\" target=\"_blank\">家具建材</a>  <a href=\"http://yunvs.com/theme/t468.html\" target=\"_blank\">前海规划</a>  <a href=\"http://yunvs.com/theme/t1152.html\" target=\"_blank\">工业用地</a>  <a href=\"http://yunvs.com/theme/t1155.html\" target=\"_blank\">集体建设用地</a>  </td>
  79. <td align=\"center\"><a href=\"http://yunvs.com/002356\" target=\"_blank\">002356</a></td>
  80. <td align=\"center\"><a href=\"http://yunvs.com/002356\" target=\"_blank\">浩宁达</a></td>
  81. <td align=\"center\">2798.2</td>
  82. <td align=\"center\">257.86</td>
  83. <td align=\"center\"><font color=\"#C00\"><b>+985.16%</b></font></td>
  84. <td align=\"left\"><a href=\"http://yunvs.com/theme/t412.html\" target=\"_blank\">智能电表</a>  <a href=\"http://yunvs.com/theme/t413.html\" target=\"_blank\">智能电网</a>  <a href=\"http://yunvs.com/theme/t797.html\" target=\"_blank\">电力改革</a>  </td>
  85. <td align=\"center\"><a href=\"http://yunvs.com/300249\" target=\"_blank\">300249</a></td>
  86. <td align=\"center\"><a href=\"http://yunvs.com/300249\" target=\"_blank\">依米康</a></td>
  87. <td align=\"center\">2796.64</td>
  88. <td align=\"center\">713.37</td>
  89. <td align=\"center\"><font color=\"#C00\"><b>+292.03%</b></font></td>
  90. <td align=\"left\"></td>
  91. <td align=\"center\"><a href=\"http://yunvs.com/300282\" target=\"_blank\">300282</a></td>
  92. <td align=\"center\"><a href=\"http://yunvs.com/300282\" target=\"_blank\">汇冠股份</a></td>
  93. <td align=\"center\">2721.66</td>
  94. <td align=\"center\">488.97</td>
  95. <td align=\"center\"><font color=\"#C00\"><b>+456.61%</b></font></td>
  96. <td align=\"left\"><a href=\"http://yunvs.com/theme/t778.html\" target=\"_blank\">教育装备</a>  <a href=\"http://yunvs.com/theme/t857.html\" target=\"_blank\">联想供应链</a>  <a href=\"http://yunvs.com/theme/t63.html\" target=\"_blank\">触摸屏</a>  <a href=\"http://yunvs.com/theme/t997.html\" target=\"_blank\">游戏机</a>  </td>
  97. <td align=\"center\"><a href=\"http://yunvs.com/300279\" target=\"_blank\">300279</a></td>
  98. <td align=\"center\"><a href=\"http://yunvs.com/300279\" target=\"_blank\">和晶科技</a></td>
  99. <td align=\"center\">2669.16</td>
  100. <td align=\"center\">586.76</td>
  101. <td align=\"center\"><font color=\"#C00\"><b>+354.9%</b></font></td>
  102. <td align=\"left\"><a href=\"http://yunvs.com/theme/t635.html\" target=\"_blank\">手势控制</a>  <a href=\"http://yunvs.com/theme/t405.html\" target=\"_blank\">云计算</a>  <a href=\"http://yunvs.com/theme/t653.html\" target=\"_blank\">无锡物联网</a>  <a href=\"http://yunvs.com/theme/t577.html\" target=\"_blank\">智能家居</a>  <a href=\"http://yunvs.com/theme/t361.html\" target=\"_blank\">物联网</a>  </td>
  103. <td align=\"center\"><a href=\"http://yunvs.com/300220\" target=\"_blank\">300220</a></td>
  104. <td align=\"center\"><a href=\"http://yunvs.com/300220\" target=\"_blank\">金运激光</a></td>
  105. <td align=\"center\">2411.08</td>
  106. <td align=\"center\">873.71</td>
  107. <td align=\"center\"><font color=\"#C00\"><b>+175.96%</b></font></td>
  108. <td align=\"left\"><a href=\"http://yunvs.com/theme/t524.html\" target=\"_blank\">激光武器</a>  <a href=\"http://yunvs.com/theme/t826.html\" target=\"_blank\">激光</a>  <a href=\"http://yunvs.com/theme/t483.html\" target=\"_blank\">3D打印</a>  </td>
  109. <td align=\"center\"><a href=\"http://yunvs.com/600754\" target=\"_blank\">600754</a></td>
  110. <td align=\"center\"><a href=\"http://yunvs.com/600754\" target=\"_blank\">锦江股份</a></td>
  111. <td align=\"center\">2360.15</td>
  112. <td align=\"center\">387.22</td>
  113. <td align=\"center\"><font color=\"#C00\"><b>+509.51%</b></font></td>
  114. <td align=\"left\"><a href=\"http://yunvs.com/theme/t80.html\" target=\"_blank\">迪士尼</a>  <a href=\"http://yunvs.com/theme/t84.html\" target=\"_blank\">迪士尼旅游消费</a>  <a href=\"http://yunvs.com/theme/t234.html\" target=\"_blank\">酒店餐饮</a>  <a href=\"http://yunvs.com/theme/t1029.html\" target=\"_blank\">上海金融创新</a>  <a href=\"http://yunvs.com/theme/t441.html\" target=\"_blank\">镁矿</a>  <a href=\"http://yunvs.com/theme/t1143.html\" target=\"_blank\">国企改革</a>  <a href=\"http://yunvs.com/theme/t733.html\" target=\"_blank\">旅游行业</a>  </td>
  115. <td align=\"center\"><a href=\"http://yunvs.com/002619\" target=\"_blank\">002619</a></td>
  116. <td align=\"center\"><a href=\"http://yunvs.com/002619\" target=\"_blank\">巨龙管业</a></td>
  117. <td align=\"center\">2285.8</td>
  118. <td align=\"center\">1446.89</td>
  119. <td align=\"center\"><font color=\"#C00\"><b>+57.98%</b></font></td>
  120. <td align=\"left\"><a href=\"http://yunvs.com/theme/t481.html\" target=\"_blank\">城市管网建设</a>  <a href=\"http://yunvs.com/theme/t272.html\" target=\"_blank\">农田水利建设</a>  <a href=\"http://yunvs.com/theme/t607.html\" target=\"_blank\">防洪排水</a>  <a href=\"http://yunvs.com/theme/t1170.html\" target=\"_blank\">高标准农田建设</a>  <a href=\"http://yunvs.com/theme/t26.html\" target=\"_blank\">电子信息</a>  </td>
  121. <td align=\"center\"><a href=\"http://yunvs.com/002205\" target=\"_blank\">002205</a></td>
  122. <td align=\"center\"><a href=\"http://yunvs.com/002205\" target=\"_blank\">国统股份</a></td>
  123. <td align=\"center\">2283.95</td>
  124. <td align=\"center\">544.05</td>
  125. <td align=\"center\"><font color=\"#C00\"><b>+319.81%</b></font></td>
  126. <td align=\"left\"><a href=\"http://yunvs.com/theme/t165.html\" target=\"_blank\">管道管材</a>  <a href=\"http://yunvs.com/theme/t272.html\" target=\"_blank\">农田水利建设</a>  <a href=\"http://yunvs.com/theme/t321.html\" target=\"_blank\">塑料建材</a>  <a href=\"http://yunvs.com/theme/t476.html\" target=\"_blank\">水利设备</a>  <a href=\"http://yunvs.com/theme/t481.html\" target=\"_blank\">城市管网建设</a>  <a href=\"http://yunvs.com/theme/t652.html\" target=\"_blank\">大额中标</a>  <a href=\"http://yunvs.com/theme/t527.html\" target=\"_blank\">消暑抗旱</a>  <a href=\"http://yunvs.com/theme/t607.html\" target=\"_blank\">防洪排水</a>  <a href=\"http://yunvs.com/theme/t23.html\" target=\"_blank\">MDI(化工)</a>  <a href=\"http://yunvs.com/theme/t24.html\" target=\"_blank\">MTBE(化工)</a>  <a href=\"http://yunvs.com/theme/t27.html\" target=\"_blank\">PET瓶(化工)</a>  <a href=\"http://yunvs.com/theme/t28.html\" target=\"_blank\">PE(化工)</a>  <a href=\"http://yunvs.com/theme/t29.html\" target=\"_blank\">PP(化工)</a>  <a href=\"http://yunvs.com/theme/t17.html\" target=\"_blank\">HDPE(化工)</a>  <a href=\"http://yunvs.com/theme/t12.html\" target=\"_blank\">BDO(化工)</a>  <a href=\"http://yunvs.com/theme/t834.html\" target=\"_blank\">沧州本地</a>  <a href=\"http://yunvs.com/theme/t30.html\" target=\"_blank\">PS(化工)</a>  <a href=\"http://yunvs.com/theme/t235.html\" target=\"_blank\">PBT(化工)</a>  <a href=\"http://yunvs.com/theme/t237.html\" target=\"_blank\">PVC(化工)</a>  <a href=\"http://yunvs.com/theme/t238.html\" target=\"_blank\">PC(化工)</a>  <a href=\"http://yunvs.com/theme/t239.html\" target=\"_blank\">PA(化工)</a>  <a href=\"http://yunvs.com/theme/t252.html\" target=\"_blank\">OX(化工)</a>  <a href=\"http://yunvs.com/theme/t22.html\" target=\"_blank\">LDPE(化工)</a>  <a href=\"http://yunvs.com/theme/t16.html\" target=\"_blank\">DOP(化工)</a>  <a href=\"http://yunvs.com/theme/t7.html\" target=\"_blank\">PU(化工)</a>  <a href=\"http://yunvs.com/theme/t8.html\" target=\"_blank\">PTA(化工)</a>  <a href=\"http://yunvs.com/theme/t1040.html\" target=\"_blank\">新疆建设</a>  <a href=\"http://yunvs.com/theme/t916.html\" target=\"_blank\">喀什经济开发区</a>  <a href=\"http://yunvs.com/theme/t421.html\" target=\"_blank\">自来水供应</a>  </td>

PS:如果报错UnicodeEncodeError: 'gbk' codec can't encode character,则在程序头部加入字符集支持 #coding=utf-8
基本上我们需要的核心块都被抓取出来了
我们也可以以text文本的方式输出,这样就去掉了html标记

点击(此处)折叠或打开

  1. #coding=utf-8
    from pyquery import PyQuery as pq
    from lxml import etree
    from pyquery import PyQuery as pq
    from lxml import etree

    v_source=pq(url='http://yunvs.com/list/mai_1.html')

    for data in v_source('tr'):
        print pq(data).text()                           -----以text文本的方式进行输出

结果如下:

点击(此处)折叠或打开

  1. 代码 股票 市场关注度↓ 平均MAI MAI相对变动 相关概念
  2. 600401 海润光伏 17417.6 2006.94 +767.87% 光伏 太阳能 阶梯电价受益 多晶硅 券商(龙头) 金太阳工程
  3. 002143 高金食品 10391.3 1339.54 +675.74% 肉制品 猪肉 成渝特区 猪肉加工 农地林地 传媒
  4. 002070 众和股份 6022.89 611.21 +885.4% 印染 锂精矿 海西 己内酰胺
  5. 300213 佳讯飞鸿 5896.39 374.88 +1472.87% 光通信 探月工程 三季报预增 铁路营改增 铁路营改增
  6. 600732 上海新梅 4529.39 894.01 +406.64% 迪士尼 创投
  7. 600303 曙光股份 4139.83 131.78 +3041.47% 客车 新能源客车 东北振兴 乙肝疫苗 校车 公路运输 公路运输 镍碳超级电容电池
  8. 002130 沃尔核材 3749.11 1875.24 +99.93% 核电 抗辐射 新型建材 新材料 珠三角区 电线电缆 铁基超导 合肥综合保税区 中英核电合作 超导材料 新合成三维材料
  9. 002113 天润控股 3741.65 569.31 +557.23% 足球
  10. 600315 上海家化 3638.3 1602.57 +127.03% 化妆品 消毒 抗病毒产品 丙烯腈 信托 纯碱 三季报预增 易信 民族品牌 草甘膦 苯胺 己内酰胺
  11. 002009 天奇股份 3566.27 412.28 +765.01% 风电叶片 低碳经济 江苏沿海地区 机器人 工业自动化 智能物流骨干网 供热管网改造 物流 报废车回收 万达文化旅游城 循环经济
  12. 000018 中冠A 3354.35 172.67 +1842.63% 印染 工业用地
  13. 000036 华联控股 3131.94 184.24 +1599.93% PTA(化工) 前海开发 珠三角区 深圳土地创新 家具建材 前海规划 工业用地 集体建设用地
  14. 002356 浩宁达 2798.2 257.86 +985.16% 智能电表 智能电网 电力改革
  15. 300249 依米康 2796.64 713.37 +292.03%
  16. 300282 汇冠股份 2721.66 488.97 +456.61% 教育装备 联想供应链 触摸屏 游戏机
  17. 300279 和晶科技 2669.16 586.76 +354.9% 手势控制 云计算 无锡物联网 智能家居 物联网
  18. 300010 立思辰 2452.26 636.86 +285.06% 软件外包 网络安全 饮料包装 网络教育 棱镜计划 在线教育 空中交通管理 电子政务 职业教育 去IOE 阿里巴巴上市 信息安全 高校 智慧医疗 WAPI WAPI 国家安全
  19. 300220 金运激光 2411.08 873.71 +175.96% 激光武器 激光 3D打印
  20. 600754 锦江股份 2360.15 387.22 +509.51% 迪士尼 迪士尼旅游消费 酒店餐饮 上海金融创新 镁矿 国企改革 旅游行业
  21. 600016 民生银行 2338.14 1424.41 +64.15% 股份制银行 海洋工程 二维码 海洋产品养殖 棚户改造 民生电商 奢侈品 人民币升值 农业合作社 电子商务 电商 支付宝 无人岛 互联网金融 三季报预增 聚宝盆 T+0 券商 券商 影子银行 金枪鱼 金枪鱼 泉州金改 余额宝 金改 博鳌 港股互通 微信理财通 儿童节 小额贷款

可以看到,我们需要的数据以行记录的形式已经抓取下来了。

如果我们想获取每一行的第一个记录应该如何得到呢?

这里就要分析一下代码了,还是以这段代码为例:

点击(此处)折叠或打开

  1. <tr height=\"30\" > <td align=\"center\"><a href=\"http://yunvs.com/600401\" target=\"_blank\">600401</a></td>
  2. <td align=\"center\"><a href=\"http://yunvs.com/600401\" target=\"_blank\">海润光伏</a></td>
  3. <td align=\"center\">17876.8</td>
  4. <td align=\"center\">2005.74</td>
  5. <td align=\"center\"><font color=\"#C00\"><b>+791.28%</b></font></td>
  6. <td align=\"left\"><a href=\"http://yunvs.com/theme/t640.html\" target=\"_blank\">光伏</a>&nbsp;&nbsp;<a href=\"http://yunvs.com/theme/t323.html\" target=\"_blank\">太阳能</a>&nbsp;&nbsp;<a href=\"http://yunvs.com/theme/t225.html\" target=\"_blank\">阶梯电价受益</a>&nbsp;&nbsp;<a href=\"http://yunvs.com/theme/t105.html\" target=\"_blank\">多晶硅</a>&nbsp;&nbsp;<a href=\"http://yunvs.com/theme/t285.html\" target=\"_blank\">券商(龙头)</a>&nbsp;&nbsp;<a href=\"http://yunvs.com/theme/t230.html\" target=\"_blank\">金太阳工程</a>&nbsp;&nbsp;</td>
  7. </tr>

在最外面的tr段中,包含了6个小的td段,我们需要的数据都内嵌在这6个小的td段中,那么我们如果想调出单个td段的对象,可用如下代码测试:

点击(此处)折叠或打开

  1. #coding=utf-8
    from pyquery import PyQuery as pq
    from lxml import etree
    from pyquery import PyQuery as pq
    from lxml import etree

    v_source=pq(url='http://yunvs.com/list/mai_1.html')

    for data in v_source('tr'):
        print pq(data).text()
        for i in range(len(data)):
            print pq(data).find('td').eq(i).text()

截取一段输出如下:

600315 上海家化 3645.76 1602.69 +127.48% 化妆品 消毒 抗病毒产品 丙烯腈 信托 纯碱 三季报预增 易信 民族品牌 草甘膦 苯胺 己内酰胺
600315       ----eq(0)    组内第一个元素
上海家化      ---eq(1)    组内第二个元素
3645.76      ----eq(2)   组内第三个元素
1602.69      ----eq(3)   组内第四个元素
+127.48%   ----eq(4)   组内第五个元素
化妆品 消毒 抗病毒产品 丙烯腈 信托 纯碱 三季报预增 易信 民族品牌 草甘膦 苯胺 己内酰胺   ---组内第六个元素

以上抓取代码解释如下:

pq(data).find('td')   意思是对第一次过滤的 v_source('tr')代码再次在内部进行二次查找,过滤'td'打头的段,可以看到一共有5个。
len(data)  输出代码里面的元素个数
pq(data).find('td').eq(i)    获取此段代码过滤后的第i个元素

从上面的输出可以看到,我们需要的数据就是第1,2,6 三个元素,那么我们的代码可以这样写:

点击(此处)折叠或打开

  1. #coding=utf-8
    from pyquery import PyQuery as pq
    from lxml import etree
    from pyquery import PyQuery as pq
    from lxml import etree

    v_source=pq(url='http://yunvs.com/list/mai_1.html')

    for data in v_source('tr'):
        print pq(data).find('td').eq(0).text()
        print pq(data).find('td').eq(1).text()
        print pq(data).find('td').eq(5).text()

输出结果如下(截取一段):
600401
海润光伏
光伏 太阳能 阶梯电价受益 多晶硅 券商(龙头) 金太阳工程

看到没有,我们需要的信息已经逐渐清晰了,目前股票代码和股票名称已经能解析出来后进行准确的定位,剩下的就是将以空格隔开的概念单个解析出来与股票进行匹配。

有了上面的经验,我们继续观察第一段代码,以便对概念进行第三次解析

点击(此处)折叠或打开

  1. <tr height=\"30\" > <td align=\"center\"><a href=\"http://yunvs.com/600401\" target=\"_blank\">600401</a></td>
  2. <td align=\"center\"><a href=\"http://yunvs.com/600401\" target=\"_blank\">海润光伏</a></td>
  3. <td align=\"center\">17876.8</td>
  4. <td align=\"center\">2005.74</td>
  5. <td align=\"center\"><font color=\"#C00\"><b>+791.28%</b></font></td>
  6. <td align=\"left\"><a href=\"http://yunvs.com/theme/t640.html\" target=\"_blank\">光伏</a>&nbsp;&nbsp;<a href=\"http://yunvs.com/theme/t323.html\" target=\"_blank\">太阳能</a>&nbsp;&nbsp;<a href=\"http://yunvs.com/theme/t225.html\" target=\"_blank\">阶梯电价受益</a>&nbsp;&nbsp;<a href=\"http://yunvs.com/theme/t105.html\" target=\"_blank\">多晶硅</a>&nbsp;&nbsp;<a href=\"http://yunvs.com/theme/t285.html\" target=\"_blank\">券商(龙头)</a>&nbsp;&nbsp;<a href=\"http://yunvs.com/theme/t230.html\" target=\"_blank\">金太阳工程</a>&nbsp;&nbsp;</td>
  7. </tr>

可以看到,概念的信息在'td'代码段里面又分了几组,组与组之间以'a'标签进行分隔,那么需要对'td'组内的第6个元素再次进行过滤,可用如下代码进行测试:

点击(此处)折叠或打开

  1. #coding=utf-8
    from pyquery import PyQuery as pq
    from lxml import etree
    from pyquery import PyQuery as pq
    from lxml import etree

    v_source=pq(url='http://yunvs.com/list/mai_1.html')

    for data in v_source('tr'):
        print pq(data).find('td').eq(0).text()
        print pq(data).find('td').eq(1).text()
        print pq(data).find('td').eq(5).text()
        v_ind = pq(data).find('td').eq(5)
        for i in range(len(pq(v_ind).find('a'))):       --输出概念元祖内以'a'打头标记的元素个数
            print pq(v_ind).find('a').eq(i).text()      --输出对应的元素

v_ind = pq(data).find('td').eq(5)
pq(v_ind).find('a')
以上两段代码是关键,第一行代码用于摘出概念模块的html代码,如下:

点击(此处)折叠或打开

  1. <td align=\\\"left\\\"><a href=\\\"http://yunvs.com/theme/t640.html\\\" target=\\\"_blank\\\">光伏</a>&nbsp;&nbsp;<a href=\\\"http://yunvs.com/theme/t323.html\\\" target=\\\"_blank\\\">太阳能</a>&nbsp;&nbsp;<a href=\\\"http://yunvs.com/theme/t225.html\\\" target=\\\"_blank\\\">阶梯电价受益</a>&nbsp;&nbsp;<a href=\\\"http://yunvs.com/theme/t105.html\\\" target=\\\"_blank\\\">多晶硅</a>&nbsp;&nbsp;<a href=\\\"http://yunvs.com/theme/t285.html\\\" target=\\\"_blank\\\">券商(龙头)</a>&nbsp;&nbsp;<a href=\\\"http://yunvs.com/theme/t230.html\\\" target=\\\"_blank\\\">金太阳工程</a>&nbsp;&nbsp;</td>

第二行代码则用于在上面的代码里面继续过滤以'a'为标签的元素,这样就把之前以空格分隔的数据单个过滤出来了。

从上至下,我们依次得到了股票代码,股票名称以及单个的概念名称,那么我们将这三者组合在一起并输出,可以像这样写代码:

点击(此处)折叠或打开

  1. #coding=utf-8
    from pyquery import PyQuery as pq
    from lxml import etree
    from pyquery import PyQuery as pq
    from lxml import etree

    v_source=pq(url='http://yunvs.com/list/mai_1.html')

    for data in v_source('tr'):
        v_code = pq(data).find('td').eq(0).text()
        v_name = pq(data).find('td').eq(1).text()
        v_ind = pq(data).find('td').eq(5)

    for i in range(len(pq(v_ind).find('a'))):
            v_indname = pq(v_ind).find('a').eq(i).text()
            print v_code
            print v_name
            print v_indname

这样,我们在最里面的循环里面即可将股票和概念单对单组合,最后可将结果写入数据库或文件系统中

输出结果如下:

点击(此处)折叠或打开

  1. 600401
  2. 海润光伏
  3. 光伏
  4. 600401
  5. 海润光伏
  6. 太阳能
  7. 600401
  8. 海润光伏
  9. 阶梯电价受益
  10. 600401
  11. 海润光伏
  12. 多晶硅
  13. 600401
  14. 海润光伏
  15. 券商(龙头)
  16. 600401
  17. 海润光伏
  18. 金太阳工程
  19. 002143
  20. 高金食品
  21. 肉制品
  22. 002143
  23. 高金食品
  24. 猪肉
  25. 002143
  26. 高金食品
  27. 成渝特区
  28. 002143
  29. 高金食品
  30. 猪肉加工
  31. 002143
  32. 高金食品
  33. 农地林地
  34. 002143
  35. 高金食品
  36. 传媒
  37. 002070
  38. 众和股份
  39. 印染
  40. 002070
  41. 众和股份
  42. 锂精矿
  43. 002070
  44. 众和股份
  45. 海西
  46. 002070
  47. 众和股份
  48. 己内酰胺
  49. 300213
  50. 佳讯飞鸿
  51. 光通信
  52. 300213
  53. 佳讯飞鸿
  54. 探月工程
  55. 300213
  56. 佳讯飞鸿
  57. 三季报预增
  58. 300213
  59. 佳讯飞鸿
  60. 铁路营改增
  61. 300213
  62. 佳讯飞鸿
  63. 铁路营改增
  64. 600732
  65. 上海新梅
  66. 迪士尼
  67. 600732
  68. 上海新梅
  69. 创投
  70. 600303
  71. 曙光股份
  72. 客车
  73. 600303
  74. 曙光股份
  75. 新能源客车
  76. 600303
  77. 曙光股份
  78. 东北振兴
  79. 600303
  80. 曙光股份
  81. 乙肝疫苗
  82. 600303
  83. 曙光股份
  84. 校车
  85. 600303
  86. 曙光股份
  87. 公路运输
  88. 600303
  89. 曙光股份
  90. 公路运输
  91. 600303
  92. 曙光股份
  93. 镍碳超级电容电池
  94. 002113
  95. 天润控股
  96. 足球
  97. 002130
  98. 沃尔核材
  99. 核电
  100. 002130
  101. 沃尔核材
  102. 抗辐??
  103. 002130
  104. 沃尔核材
  105. 新型建材
  106. 002130
  107. 沃尔核材
  108. 新材料
  109. 002130
  110. 沃尔核材
  111. 珠三角区
  112. 002130
  113. 沃尔核材
  114. 电线电缆
  115. 002130
  116. 沃尔核材
  117. 铁基超导
  118. 002130
  119. 沃尔核材
  120. 合肥综合保税区
  121. 002130
  122. 沃尔核材
  123. 中英核电合作
  124. 002130
  125. 沃尔核材
  126. 超导材料
  127. 002130
  128. 沃尔核材
  129. 新合成三维材料
  130. 600315
  131. 上海家化
  132. 化妆品
  133. 600315
  134. 上海家化
  135. 消毒
  136. 600315
  137. 上海家化
  138. 抗病毒产品
  139. 600315
  140. 上海家化
  141. 丙烯腈
  142. 600315
  143. 上海家化
  144. 信托
  145. 600315
  146. 上海家化
  147. 纯碱
  148. 600315
  149. 上海家化
  150. 三季报预增
  151. 600315
  152. 上海家化
  153. 易信
  154. 600315
  155. 上海家化
  156. 民族品牌
  157. 600315
  158. 上海家化
  159. 草甘膦
  160. 600315
  161. 上海家化
  162. 苯胺
  163. 600315
  164. 上海家化
  165. 己内酰胺
  166. 002009
  167. 天奇股份
  168. 风电叶片
  169. 002009
  170. 天奇股份
  171. 低碳经济
  172. 002009
  173. 天奇股份
  174. 江苏沿海地区
  175. 002009
  176. 天奇股份
  177. 机器人
  178. 002009
  179. 天奇股份
  180. 工业自动化
  181. 002009
  182. 天奇股份
  183. 智能物流骨干网
  184. 002009
  185. 天奇股份
  186. 供热管网改造
  187. 002009
  188. 天奇股份
  189. 物流
  190. 002009
  191. 天奇股份
  192. 报废车回收
  193. 002009
  194. 天奇股份
  195. 万达文化旅游城
  196. 002009
  197. 天奇股份
  198. 循环经济
  199. 000018
  200. 中冠A
  201. 印染
  202. 000018
  203. 中冠A
  204. 工业用地
  205. 000036
  206. 华联控股
  207. PTA(化工)
  208. 000036
  209. 华联控股
  210. 前海开发
  211. 000036
  212. 华联控股
  213. 珠三角区
  214. 000036
  215. 华联控股
  216. 深圳土地创新
  217. 000036
  218. 华联控股
  219. 家具建材
  220. 000036
  221. 华联控股
  222. 前海规划
  223. 000036
  224. 华联控股
  225. 工业用地
  226. 000036
  227. 华联控股
  228. 集体建设用地
  229. 300010
  230. 立思辰
  231. 软件外包
  232. 300010
  233. 立思辰
  234. 网络安全
  235. 300010
  236. 立思辰
  237. 饮料包装
  238. 300010
  239. 立思辰
  240. 网络教育
  241. 300010
  242. 立思辰
  243. 棱镜计划
  244. 300010
  245. 立思辰
  246. 在线教育
  247. 300010
  248. 立思辰
  249. 空中交通管理
  250. 300010
  251. 立思辰
  252. 电子政务
  253. 300010
  254. 立思辰
  255. 职业教育
  256. 300010
  257. 立思辰
  258. 去IOE
  259. 300010
  260. 立思辰
  261. 阿里巴巴上市
  262. 300010
  263. 立思辰
  264. 信息安全
  265. 300010
  266. 立思辰
  267. 高校
  268. 300010
  269. 立思辰
  270. 智慧医疗
  271. 300010
  272. 立思辰
  273. WAPI
  274. 300010
  275. 立思辰
  276. WAPI
  277. 300010
  278. 立思辰
  279. 国家安全
  280. 002356
  281. 浩宁达
  282. 智能电表
  283. 002356
  284. 浩宁达
  285. 智能电网
  286. 002356
  287. 浩宁达
  288. 电力改革
  289. 300282
  290. 汇冠股份
  291. 教育装备
  292. 300282
  293. 汇冠股份
  294. 联想供应链
  295. 300282
  296. 汇冠股份
  297. 触摸屏
  298. 300282
  299. 汇冠股份
  300. 游戏机
  301. 300279
  302. 和晶科技
  303. 手势控制
  304. 300279
  305. 和晶科技
  306. 云计算
  307. 300279
  308. 和晶科技
  309. 无锡物联网
  310. 300279
  311. 和晶科技
  312. 智能家居
  313. 300279
  314. 和晶科技
  315. 物联网
  316. 600754
  317. 锦江股份
  318. 迪士尼
  319. 600754
  320. 锦江股份
  321. 迪士尼旅游消费
  322. 600754
  323. 锦江股份
  324. 酒店餐饮
  325. 600754
  326. 锦江股份
  327. 上海金融创新
  328. 600754
  329. 锦江股份
  330. 镁矿
  331. 600754
  332. 锦江股份
  333. 国企改革
  334. 600754
  335. 锦江股份
  336. 旅游行业
  337. 600016
  338. 民生银行
  339. 股份制银行
  340. 600016
  341. 民生银行
  342. 海洋工程
  343. 600016
  344. 民生银行
  345. 二维码
  346. 600016
  347. 民生银行
  348. 海洋产品养殖
  349. 600016
  350. 民生银行
  351. 棚户改造
  352. 600016
  353. 民生银行
  354. 民生电商
  355. 600016
  356. 民生银行
  357. 奢侈品
  358. 600016
  359. 民生银行
  360. 人民币升值
  361. 600016
  362. 民生银行
  363. 农业合作社
  364. 600016
  365. 民生银行
  366. 电子商务
  367. 600016
  368. 民生银行
  369. 电商
  370. 600016
  371. 民生银行
  372. 支付宝
  373. 600016
  374. 民生银行
  375. 无人岛
  376. 600016
  377. 民生银行
  378. 互联网金融
  379. 600016
  380. 民生银行
  381. 三季报预增
  382. 600016
  383. 民生银行
  384. 聚宝盆
  385. 600016
  386. 民生银行
  387. T+0
  388. 600016
  389. 民生银行
  390. 券商
  391. 600016
  392. 民生银行
  393. 券商
  394. 600016
  395. 民生银行
  396. 影子银行
  397. 600016
  398. 民生银行
  399. 金枪鱼
  400. 600016
  401. 民生银行
  402. 金枪鱼
  403. 600016
  404. 民生银行
  405. 泉州金改
  406. 600016
  407. 民生银行
  408. 余额宝
  409. 600016
  410. 民生银行
  411. 金改
  412. 600016
  413. 民生银行
  414. 博鳌
  415. 600016
  416. 民生银行
  417. 港股互通
  418. 600016
  419. 民生银行
  420. 微信理财通
  421. 600016
  422. 民生银行
  423. 儿童节
  424. 600016
  425. 民生银行
  426. 小额贷款
  427. 300220
  428. 金运激光
  429. 激光武器
  430. 300220
  431. 金运激光
  432. 激光
  433. 300220
  434. 金运激光
  435. 3D打印

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/22166274/viewspace-1183937/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/22166274/viewspace-1183937/

python数据抓取之pyquery包相关推荐

  1. python数据抓取

    python数据抓取 一.页面分析 二.网页抓取方法 1.正则表达式方法 2.BeautifulSoup 模块 3.lxml 模块 4.各方法的对比总结 三.Xpath选择器 四.CSS选择器 五.数 ...

  2. python教程怎么抓起数据_介绍python 数据抓取三种方法

    三种数据抓取的方法正则表达式(re库) BeautifulSoup(bs4) lxml *利用之前构建的下载网页函数,获取目标网页的html,我们以https://guojiadiqu.bmcx.co ...

  3. 《Python数据抓取与实战》读书笔记:第2章

    目录 第2章 字符串解析 2.1 常用函数 2.2 正则表达式 2.3 Beautiful Soup 2.4 json结构 第2章 字符串解析 本章介绍Python处理字符串的基本方法,包括Pytho ...

  4. python数据抓取方式

    数据抓取   抓取就是让爬虫从每个网页中抽取一些数据,然后实现某些事情.使用Firebug Lite的浏览器扩展,用来检查网页内容,然后介绍三种抽取网页数据的方法,分别是正则表达式.Beautiful ...

  5. python爬取淘宝商品做数据挖掘_Python 3爬虫 数据清洗与可视化实战 Python数据抓取技术 python3网络爬虫教程书籍 运用Python工具获取电商平台页面数据挖掘书籍...

    A8 书    名:Python 3爬虫 数据清洗与可视化实战 作 译 者:零一,韩要宾,黄园园 出版时间:2018-03 千 字 数:200 版    次:01-01 页    数:212 开   ...

  6. python数据抓取技术与实战训练_师傅带徒弟学Python:项目实战1:网络爬虫与抓取股票数据...

    本视频基于**Python 3.X版本 本视频课程是第四篇第一个实战项目,内容包括网络爬虫技术.使用urllib爬取数据.使用Selenium爬取数据.使用正则表达式.使用BeautifulSoup库 ...

  7. python数据抓取工具_【重磅开源】Hawk-数据抓取工具:简明教程

    Hawk: Advanced Crawler& ETL tool written in C#/WPF 1.软件介绍 Hawk3已经发布,本文的很多信息已经不完整或过期,所有更新信息和下载地址都 ...

  8. python数据抓取课程_Python爬虫入门教程 21-100 网易云课堂课程数据抓取

    写在前面 今天咱们抓取一下网易云课堂的课程数据,这个网站的数据量并不是很大,我们只需要使用requests就可以快速的抓取到这部分数据了. 你第一步要做的是打开全部课程的地址,找出爬虫规律, 地址如下 ...

  9. python数据抓取课程_Python爬虫入门教程 22-100 CSDN学院课程数据抓取

    1. CSDN学院课程数据-写在前面 今天又要抓取一个网站了,选择恐惧症使得我不知道该拿谁下手,找来找去,算了,还是抓取CSDN学院吧,CSDN学院的网站为 https://edu.csdn.net/ ...

最新文章

  1. com.mysql.jdbc.PacketTooBigException: Packet for query is too large (1169 1024)
  2. oracle 回滚段介绍(三)
  3. mysql存储过程写法—动态参数运用
  4. seata 如何开启tcc事物_如何能在实战中完成分布式事务?知道这些点很重要
  5. Linux下Apache自动监测重启脚本
  6. 图像种类的基本概念整理
  7. SAP MM模块-实施顾问岗位-面试手册-面试准备
  8. aqara (737) -(a俩)_A-史密斯:勇士有人类已知的最强后场组合,湖人很难限制
  9. 在Windows 2000下优化Oracle9i性能
  10. plus webview关闭事件监听
  11. 【java】字符串和基本数据类型之间的转换
  12. 模拟生产者-消费者问题和读者-写者问题
  13. 帮你躲坑:pip install tensorflow 报错怎么办,import tensorflow 报错怎么办?
  14. hive中英文分号问题
  15. 关于学习scala中lazy关键字的记录
  16. 意大利或将立法 禁止中小学校园携带手机
  17. centos 之网络配置
  18. 个人网站如何转型为商业网站
  19. Linux串口通信之termios结构体说明
  20. Linux的 常用命令

热门文章

  1. Spark SQL overwrite问题
  2. 记 insert overwrite
  3. tracert 命令详解
  4. Elisp之语法练习(五)
  5. 身体永远是奋斗的本钱
  6. 2022年考研计算机组成原理_1 概述
  7. 手机下载linux版xmame,Linux_比较全的linux下xmame的配置, linux下可以用xmame来玩街机 - phpStudy...
  8. 闲说CRM的三个境界
  9. 解决管理工具中没有Internet 信息服务(IIS)管理器
  10. ionic2微信支付,分享,登录