最近由于公司业务上的需求,要网络采集一些数据,并格式化以供应用的调取,前期想到用正则表达式来对网页格式串进行过滤和抓取,在进行了一系列尝试之后放弃,
原因是太繁琐了,而且对于每种网页都需要写特定的表达式,不可通用。
    后面在查找相关资料时,发现python也提供一个类似jquery的包,叫做pyquery,可用以进行网络抓取,遂安装研究了一下,发现确实挺好用,不用写复杂的表达式即可
对数据进行抓取和过滤。

下面就以一个网页为例,来抓取指定格式的数据,并记录过程。

http://yunvs.com/list/mai_1.html

我要抓取这个网页上的数据,如下图:


我现在需要抓取股票与概念的关系,以便应用可以方便的通过股票查找其所属的概念,也可以通过热点概念定位相关股票。
那么,应用所需要的数据格式应该是这样的:
股票代码   股票名称   概念名称
002011     盾安环境    多晶硅    
002011     盾安环境    分布式能源    
002011     盾安环境    核电    
002011     盾安环境    核电通风与空气处    
002011     盾安环境    太阳能    
002011     盾安环境    低碳经济    
002011     盾安环境    珠港澳大桥概念  
002011     盾安环境    地热    
002011     盾安环境    地热能    
002011     盾安环境    供热管网改造   
002011     盾安环境    疫苗储存    
002011     盾安环境    干热岩

但是从网页上我们可以看到,数据是以行的形式来展现的,单只股票后面跟了多个概念,且概念与概念之间以空格为分隔符,所以我们不仅仅要对数据进行抓取,同时还要对其格式进行处理。

下面,我们就通过python的第三方扩展包pyquery来对此网页进行抓取。

1.安装pyquery包

具体的安装过程就不在这里详述了,python的包安装可以通过一个工具叫做easy_install来进行安装和管理,大家百度一下即可得到相关资料。
pyquery包解析html以来lxml包,所以这里要安装pyquery和lxml两个包才可使用pyquery.

pyquery的官网地址:  http://pythonhosted.org//pyquery/api.html  ,上面有详细的每个api的使用方法

2.导入pyquery包

from pyquery import PyQuery as pq
from lxml import etree

3.加载需要解析的数据源

v_source=pq(" ")   ---直接加载一个html串
v_source=pq(filename=path_to_html_file)                 ---加载位于指定路径下的html文件
v_source=pq(url='http://yunvs.com/list/mai_1.html')                ---加载url地址直接进行解析

在这里我们就直接使用第三种方式,直接加载网页来进行数据抓取,这样显得更直观和实用。

4.分析要解析的html网页代码

以 http://yunvs.com/list/mai_1.html  为例,我们要抓取股票和概念的数据,那么查看其网页源码,将要解析的代码段摘出来,如下:

点击(此处)折叠或打开

  1. <tr height=\"30\" > <td align=\"center\"><a href=\"http://yunvs.com/600401\" target=\"_blank\">600401</a></td>
  2. <td align=\"center\"><a href=\"http://yunvs.com/600401\" target=\"_blank\">海润光伏</a></td>
  3. <td align=\"center\">17876.8</td>
  4. <td align=\"center\">2005.74</td>
  5. <td align=\"center\"><font color=\"#C00\"><b>+791.28%</b></font></td>
  6. <td align=\"left\"><a href=\"http://yunvs.com/theme/t640.html\" target=\"_blank\">光伏</a>&nbsp;&nbsp;<a href=\"http://yunvs.com/theme/t323.html\" target=\"_blank\">太阳能</a>&nbsp;&nbsp;<a href=\"http://yunvs.com/theme/t225.html\" target=\"_blank\">阶梯电价受益</a>&nbsp;&nbsp;<a href=\"http://yunvs.com/theme/t105.html\" target=\"_blank\">多晶硅</a>&nbsp;&nbsp;<a href=\"http://yunvs.com/theme/t285.html\" target=\"_blank\">券商(龙头)</a>&nbsp;&nbsp;<a href=\"http://yunvs.com/theme/t230.html\" target=\"_blank\">金太阳工程</a>&nbsp;&nbsp;</td>
  7. </tr>

可以看到,单只股票的数据都是包含在一个大的 tr标签里面,那么我们第一步过滤就是将网页里面所有的tr段截取出来。

第一步过滤可以这样写:

v_source=pq(url='http://yunvs.com/list/mai_1.html')

v_source('tr')    ----这里就是将所有以tr打头的html段过滤出来

想测试的话,可以用以下的语句来输出结果。

for data in v_source('tr'):
    print pq(data).html()                      ---直接输出截取串的html对象,看着更加直观

输出如下:

点击(此处)折叠或打开

  1. <th width=\"60px\" align=\"center\">代码</th>
  2. <th width=\"60px\" align=\"center\">股票</th>
  3. <th width=\"80px\" align=\"center\"><a href=\"http://yunvs.com/list/mai_1.html\">市场关注度↓</a></th>
  4. <th width=\"65px\" align=\"center\"><a href=\"http://yunvs.com/list/mai_ac_1.html\" style=\"text-decoration:underline\">平均MAI</a></th>
  5. <th width=\"100px\" align=\"center\"><a href=\"http://yunvs.com/list/mai_mc_1.html\" style=\"text-decoration:underline\">MAI相对变动</a></th>
  6. <th width=\"530px\" align=\"center\">相关概念</th>
  7. <td align=\"center\"><a href=\"http://yunvs.com/600401\" target=\"_blank\">600401</a></td>
  8. <td align=\"center\"><a href=\"http://yunvs.com/600401\" target=\"_blank\">海润光伏</a></td>
  9. <td align=\"center\">17417.6</td>
  10. <td align=\"center\">2006.94</td>
  11. <td align=\"center\"><font color=\"#C00\"><b>+767.87%</b></font></td>
  12. <td align=\"left\"><a href=\"http://yunvs.com/theme/t640.html\" target=\"_blank\">光伏</a>  <a href=\"http://yunvs.com/theme/t323.html\" target=\"_blank\">太阳能</a>  <a href=\"http://yunvs.com/theme/t225.html\" target=\"_blank\">阶梯电价受益</a>  <a href=\"http://yunvs.com/theme/t105.html\" target=\"_blank\">多晶硅</a>  <a href=\"http://yunvs.com/theme/t285.html\" target=\"_blank\">券商(龙头)</a>  <a href=\"http://yunvs.com/theme/t230.html\" target=\"_blank\">金太阳工程</a>  </td>
  13. <td align=\"center\"><a href=\"http://yunvs.com/002143\" target=\"_blank\">002143</a></td>
  14. <td align=\"center\"><a href=\"http://yunvs.com/002143\" target=\"_blank\">高金食品</a></td>
  15. <td align=\"center\">10220.3</td>
  16. <td align=\"center\">1336.69</td>
  17. <td align=\"center\"><font color=\"#C00\"><b>+664.6%</b></font></td>
  18. <td align=\"left\"><a href=\"http://yunvs.com/theme/t293.html\" target=\"_blank\">肉制品</a>  <a href=\"http://yunvs.com/theme/t290.html\" target=\"_blank\">猪肉</a>  <a href=\"http://yunvs.com/theme/t458.html\" target=\"_blank\">成渝特区</a>  <a href=\"http://yunvs.com/theme/t862.html\" target=\"_blank\">猪肉加工</a>  <a href=\"http://yunvs.com/theme/t1150.html\" target=\"_blank\">农地林地</a>  <a href=\"http://yunvs.com/theme/t1020.html\" target=\"_blank\">传媒</a>  </td>
  19. <td align=\"center\"><a href=\"http://yunvs.com/002070\" target=\"_blank\">002070</a></td>
  20. <td align=\"center\"><a href=\"http://yunvs.com/002070\" target=\"_blank\">众和股份</a></td>
  21. <td align=\"center\">6022.89</td>
  22. <td align=\"center\">611.21</td>
  23. <td align=\"center\"><font color=\"#C00\"><b>+885.4%</b></font></td>
  24. <td align=\"left\"><a href=\"http://yunvs.com/theme/t397.html\" target=\"_blank\">印染</a>  <a href=\"http://yunvs.com/theme/t906.html\" target=\"_blank\">锂精矿</a>  <a href=\"http://yunvs.com/theme/t1222.html\" target=\"_blank\">海西</a>  <a href=\"http://yunvs.com/theme/t211.html\" target=\"_blank\">己内酰胺</a>  </td>
  25. <td align=\"center\"><a href=\"http://yunvs.com/300213\" target=\"_blank\">300213</a></td>
  26. <td align=\"center\"><a href=\"http://yunvs.com/300213\" target=\"_blank\">佳讯飞鸿</a></td>
  27. <td align=\"center\">5896.39</td>
  28. <td align=\"center\">374.88</td>
  29. <td align=\"center\"><font color=\"#C00\"><b>+1472.87%</b></font></td>
  30. <td align=\"left\"><a href=\"http://yunvs.com/theme/t151.html\" target=\"_blank\">光通信</a>  <a href=\"http://yunvs.com/theme/t1157.html\" target=\"_blank\">探月工程</a>  <a href=\"http://yunvs.com/theme/t1129.html\" target=\"_blank\">三季报预增</a>  <a href=\"http://yunvs.com/theme/t1161.html\" target=\"_blank\">铁路营改增</a>  <a href=\"http://yunvs.com/theme/t1161.html\" target=\"_blank\">铁路营改增</a>  </td>
  31. <td align=\"center\"><a href=\"http://yunvs.com/600732\" target=\"_blank\">600732</a></td>
  32. <td align=\"center\"><a href=\"http://yunvs.com/600732\" target=\"_blank\">上海新梅</a></td>
  33. <td align=\"center\">4529.39</td>
  34. <td align=\"center\">894.01</td>
  35. <td align=\"center\"><font color=\"#C00\"><b>+406.64%</b></font></td>
  36. <td align=\"left\"><a href=\"http://yunvs.com/theme/t80.html\" target=\"_blank\">迪士尼</a>  <a href=\"http://yunvs.com/theme/t66.html\" target=\"_blank\">创投</a>  </td>
  37. <td align=\"center\"><a href=\"http://yunvs.com/600303\" target=\"_blank\">600303</a></td>
  38. <td align=\"center\"><a href=\"http://yunvs.com/600303\" target=\"_blank\">曙光股份</a></td>
  39. <td align=\"center\">4139.83</td>
  40. <td align=\"center\">131.78</td>
  41. <td align=\"center\"><font color=\"#C00\"><b>+3041.47%</b></font></td>
  42. <td align=\"left\"><a href=\"http://yunvs.com/theme/t241.html\" target=\"_blank\">客车</a>  <a href=\"http://yunvs.com/theme/t380.html\" target=\"_blank\">新能源客车</a>  <a href=\"http://yunvs.com/theme/t459.html\" target=\"_blank\">东北振兴</a>  <a href=\"http://yunvs.com/theme/t396.html\" target=\"_blank\">乙肝疫苗</a>  <a href=\"http://yunvs.com/theme/t588.html\" target=\"_blank\">校车</a>  <a href=\"http://yunvs.com/theme/t147.html\" target=\"_blank\">公路运输</a>  <a href=\"http://yunvs.com/theme/t147.html\" target=\"_blank\">公路运输</a>  <a href=\"http://yunvs.com/theme/t1266.html\"target=\"_blank\">镍碳超级电容电池</a>  </td>
  43. <td align=\"center\"><a href=\"http://yunvs.com/002130\" target=\"_blank\">002130</a></td>
  44. <td align=\"center\"><a href=\"http://yunvs.com/002130\" target=\"_blank\">沃尔核材</a></td>
  45. <td align=\"center\">3749.11</td>
  46. <td align=\"center\">1875.24</td>
  47. <td align=\"center\"><font color=\"#C00\"><b>+99.93%</b></font></td>
  48. <td align=\"left\"><a href=\"http://yunvs.com/theme/t174.html\" target=\"_blank\">核电</a>  <a href=\"http://yunvs.com/theme/t232.html\" target=\"_blank\">抗辐射</a>  <a href=\"http://yunvs.com/theme/t381.html\" target=\"_blank\">新型建材</a>  <a href=\"http://yunvs.com/theme/t444.html\" target=\"_blank\">新材料</a>  <a href=\"http://yunvs.com/theme/t456.html\" target=\"_blank\">珠三角区</a>  <a href=\"http://yunvs.com/theme/t97.html\" target=\"_blank\">电线电缆</a>  <a href=\"http://yunvs.com/theme/t1201.html\" target=\"_blank\">铁基超导</a>  <a href=\"http://yunvs.com/theme/t704.html\" target=\"_blank\">合肥综合保税区</a>  <a href=\"http://yunvs.com/theme/t1159.html\" target=\"_blank\">中英核电合作</a>  <a href=\"http://yunvs.com/theme/t58.html\" target=\"_blank\">超导材料</a>  <a href=\"http://yunvs.com/theme/t1321.html\" target=\"_blank\">新合成三维材料</a>  </td>
  49. <td align=\"center\"><a href=\"http://yunvs.com/002113\" target=\"_blank\">002113</a></td>
  50. <td align=\"center\"><a href=\"http://yunvs.com/002113\" target=\"_blank\">天润控股</a></td>
  51. <td align=\"center\">3741.65</td>
  52. <td align=\"center\">569.31</td>
  53. <td align=\"center\"><font color=\"#C00\"><b>+557.23%</b></font></td>
  54. <td align=\"left\"><a href=\"http://yunvs.com/theme/t754.html\" target=\"_blank\">足球</a>  </td>
  55. <td align=\"center\"><a href=\"http://yunvs.com/600315\" target=\"_blank\">600315</a></td>
  56. <td align=\"center\"><a href=\"http://yunvs.com/600315\" target=\"_blank\">上海家化</a></td>
  57. <td align=\"center\">3638.3</td>
  58. <td align=\"center\">1602.57</td>
  59. <td align=\"center\"><font color=\"#C00\"><b>+127.03%</b></font></td>
  60. <td align=\"left\"><a href=\"http://yunvs.com/theme/t193.html\" target=\"_blank\">化妆品</a>  <a href=\"http://yunvs.com/theme/t616.html\" target=\"_blank\">消毒</a>  <a href=\"http://yunvs.com/theme/t626.html\" target=\"_blank\">抗病毒产品</a>  <a href=\"http://yunvs.com/theme/t50.html\" target=\"_blank\">丙烯腈</a>  <a href=\"http://yunvs.com/theme/t383.html\" target=\"_blank\">信托</a>  <a href=\"http://yunvs.com/theme/t67.html\" target=\"_blank\">纯碱</a>  <a href=\"http://yunvs.com/theme/t1129.html\" target=\"_blank\">三季报预增</a>  <a href=\"http://yunvs.com/theme/t1068.html\" target=\"_blank\">易信</a>  <a href=\"http://yunvs.com/theme/t593.html\" target=\"_blank\">民族品牌</a>  <a href=\"http://yunvs.com/theme/t56.html\" target=\"_blank\">草甘膦</a>  <a href=\"http://yunvs.com/theme/t41.html\" target=\"_blank\">苯胺</a>  <a href=\"http://yunvs.com/theme/t211.html\" target=\"_blank\">己内酰胺</a>  </td>
  61. <td align=\"center\"><a href=\"http://yunvs.com/002009\" target=\"_blank\">002009</a></td>
  62. <td align=\"center\"><a href=\"http://yunvs.com/002009\" target=\"_blank\">天奇股份</a></td>
  63. <td align=\"center\">3566.27</td>
  64. <td align=\"center\">412.28</td>
  65. <td align=\"center\"><font color=\"#C00\"><b>+765.01%</b></font></td>
  66. <td align=\"left\"><a href=\"http://yunvs.com/theme/t126.html\" target=\"_blank\">风电叶片</a>  <a href=\"http://yunvs.com/theme/t370.html\" target=\"_blank\">低碳经济</a>  <a href=\"http://yunvs.com/theme/t460.html\" target=\"_blank\">江苏沿海地区</a>  <a href=\"http://yunvs.com/theme/t523.html\" target=\"_blank\">机器人</a>  <a href=\"http://yunvs.com/theme/t804.html\" target=\"_blank\">工业自动化</a>  <a href=\"http://yunvs.com/theme/t845.html\" target=\"_blank\">智能物流骨干网</a>  <a href=\"http://yunvs.com/theme/t742.html\" target=\"_blank\">供热管网改造</a>  <a href=\"http://yunvs.com/theme/t362.html\" target=\"_blank\">物流</a>  <a href=\"http://yunvs.com/theme/t998.html\" target=\"_blank\">报废车回收</a>  <a href=\"http://yunvs.com/theme/t871.html\" target=\"_blank\">万达文化旅游城</a>  <a href=\"http://yunvs.com/theme/t451.html\" target=\"_blank\">循环经济</a>  </td>
  67. <td align=\"center\"><a href=\"http://yunvs.com/000018\" target=\"_blank\">000018</a></td>
  68. <td align=\"center\"><a href=\"http://yunvs.com/000018\" target=\"_blank\">中冠A</a></td>
  69. <td align=\"center\">3354.35</td>
  70. <td align=\"center\">172.67</td>
  71. <td align=\"center\"><font color=\"#C00\"><b>+1842.63%</b></font></td>
  72. <td align=\"left\"><a href=\"http://yunvs.com/theme/t397.html\" target=\"_blank\">印染</a>  <a href=\"http://yunvs.com/theme/t1152.html\" target=\"_blank\">工业用地</a>  </td>
  73. <td align=\"center\"><a href=\"http://yunvs.com/000036\" target=\"_blank\">000036</a></td>
  74. <td align=\"center\"><a href=\"http://yunvs.com/000036\" target=\"_blank\">华联控股</a></td>
  75. <td align=\"center\">3131.94</td>
  76. <td align=\"center\">184.24</td>
  77. <td align=\"center\"><font color=\"#C00\"><b>+1599.93%</b></font></td>
  78. <td align=\"left\"><a href=\"http://yunvs.com/theme/t8.html\" target=\"_blank\">PTA(化工)</a>  <a href=\"http://yunvs.com/theme/t282.html\" target=\"_blank\">前海开发</a>  <a href=\"http://yunvs.com/theme/t456.html\" target=\"_blank\">珠三角区</a>  <a href=\"http://yunvs.com/theme/t494.html\" target=\"_blank\">深圳土地创新</a>  <a href=\"http://yunvs.com/theme/t681.html\" target=\"_blank\">家具建材</a>  <a href=\"http://yunvs.com/theme/t468.html\" target=\"_blank\">前海规划</a>  <a href=\"http://yunvs.com/theme/t1152.html\" target=\"_blank\">工业用地</a>  <a href=\"http://yunvs.com/theme/t1155.html\" target=\"_blank\">集体建设用地</a>  </td>
  79. <td align=\"center\"><a href=\"http://yunvs.com/002356\" target=\"_blank\">002356</a></td>
  80. <td align=\"center\"><a href=\"http://yunvs.com/002356\" target=\"_blank\">浩宁达</a></td>
  81. <td align=\"center\">2798.2</td>
  82. <td align=\"center\">257.86</td>
  83. <td align=\"center\"><font color=\"#C00\"><b>+985.16%</b></font></td>
  84. <td align=\"left\"><a href=\"http://yunvs.com/theme/t412.html\" target=\"_blank\">智能电表</a>  <a href=\"http://yunvs.com/theme/t413.html\" target=\"_blank\">智能电网</a>  <a href=\"http://yunvs.com/theme/t797.html\" target=\"_blank\">电力改革</a>  </td>
  85. <td align=\"center\"><a href=\"http://yunvs.com/300249\" target=\"_blank\">300249</a></td>
  86. <td align=\"center\"><a href=\"http://yunvs.com/300249\" target=\"_blank\">依米康</a></td>
  87. <td align=\"center\">2796.64</td>
  88. <td align=\"center\">713.37</td>
  89. <td align=\"center\"><font color=\"#C00\"><b>+292.03%</b></font></td>
  90. <td align=\"left\"></td>
  91. <td align=\"center\"><a href=\"http://yunvs.com/300282\" target=\"_blank\">300282</a></td>
  92. <td align=\"center\"><a href=\"http://yunvs.com/300282\" target=\"_blank\">汇冠股份</a></td>
  93. <td align=\"center\">2721.66</td>
  94. <td align=\"center\">488.97</td>
  95. <td align=\"center\"><font color=\"#C00\"><b>+456.61%</b></font></td>
  96. <td align=\"left\"><a href=\"http://yunvs.com/theme/t778.html\" target=\"_blank\">教育装备</a>  <a href=\"http://yunvs.com/theme/t857.html\" target=\"_blank\">联想供应链</a>  <a href=\"http://yunvs.com/theme/t63.html\" target=\"_blank\">触摸屏</a>  <a href=\"http://yunvs.com/theme/t997.html\" target=\"_blank\">游戏机</a>  </td>
  97. <td align=\"center\"><a href=\"http://yunvs.com/300279\" target=\"_blank\">300279</a></td>
  98. <td align=\"center\"><a href=\"http://yunvs.com/300279\" target=\"_blank\">和晶科技</a></td>
  99. <td align=\"center\">2669.16</td>
  100. <td align=\"center\">586.76</td>
  101. <td align=\"center\"><font color=\"#C00\"><b>+354.9%</b></font></td>
  102. <td align=\"left\"><a href=\"http://yunvs.com/theme/t635.html\" target=\"_blank\">手势控制</a>  <a href=\"http://yunvs.com/theme/t405.html\" target=\"_blank\">云计算</a>  <a href=\"http://yunvs.com/theme/t653.html\" target=\"_blank\">无锡物联网</a>  <a href=\"http://yunvs.com/theme/t577.html\" target=\"_blank\">智能家居</a>  <a href=\"http://yunvs.com/theme/t361.html\" target=\"_blank\">物联网</a>  </td>
  103. <td align=\"center\"><a href=\"http://yunvs.com/300220\" target=\"_blank\">300220</a></td>
  104. <td align=\"center\"><a href=\"http://yunvs.com/300220\" target=\"_blank\">金运激光</a></td>
  105. <td align=\"center\">2411.08</td>
  106. <td align=\"center\">873.71</td>
  107. <td align=\"center\"><font color=\"#C00\"><b>+175.96%</b></font></td>
  108. <td align=\"left\"><a href=\"http://yunvs.com/theme/t524.html\" target=\"_blank\">激光武器</a>  <a href=\"http://yunvs.com/theme/t826.html\" target=\"_blank\">激光</a>  <a href=\"http://yunvs.com/theme/t483.html\" target=\"_blank\">3D打印</a>  </td>
  109. <td align=\"center\"><a href=\"http://yunvs.com/600754\" target=\"_blank\">600754</a></td>
  110. <td align=\"center\"><a href=\"http://yunvs.com/600754\" target=\"_blank\">锦江股份</a></td>
  111. <td align=\"center\">2360.15</td>
  112. <td align=\"center\">387.22</td>
  113. <td align=\"center\"><font color=\"#C00\"><b>+509.51%</b></font></td>
  114. <td align=\"left\"><a href=\"http://yunvs.com/theme/t80.html\" target=\"_blank\">迪士尼</a>  <a href=\"http://yunvs.com/theme/t84.html\" target=\"_blank\">迪士尼旅游消费</a>  <a href=\"http://yunvs.com/theme/t234.html\" target=\"_blank\">酒店餐饮</a>  <a href=\"http://yunvs.com/theme/t1029.html\" target=\"_blank\">上海金融创新</a>  <a href=\"http://yunvs.com/theme/t441.html\" target=\"_blank\">镁矿</a>  <a href=\"http://yunvs.com/theme/t1143.html\" target=\"_blank\">国企改革</a>  <a href=\"http://yunvs.com/theme/t733.html\" target=\"_blank\">旅游行业</a>  </td>
  115. <td align=\"center\"><a href=\"http://yunvs.com/002619\" target=\"_blank\">002619</a></td>
  116. <td align=\"center\"><a href=\"http://yunvs.com/002619\" target=\"_blank\">巨龙管业</a></td>
  117. <td align=\"center\">2285.8</td>
  118. <td align=\"center\">1446.89</td>
  119. <td align=\"center\"><font color=\"#C00\"><b>+57.98%</b></font></td>
  120. <td align=\"left\"><a href=\"http://yunvs.com/theme/t481.html\" target=\"_blank\">城市管网建设</a>  <a href=\"http://yunvs.com/theme/t272.html\" target=\"_blank\">农田水利建设</a>  <a href=\"http://yunvs.com/theme/t607.html\" target=\"_blank\">防洪排水</a>  <a href=\"http://yunvs.com/theme/t1170.html\" target=\"_blank\">高标准农田建设</a>  <a href=\"http://yunvs.com/theme/t26.html\" target=\"_blank\">电子信息</a>  </td>
  121. <td align=\"center\"><a href=\"http://yunvs.com/002205\" target=\"_blank\">002205</a></td>
  122. <td align=\"center\"><a href=\"http://yunvs.com/002205\" target=\"_blank\">国统股份</a></td>
  123. <td align=\"center\">2283.95</td>
  124. <td align=\"center\">544.05</td>
  125. <td align=\"center\"><font color=\"#C00\"><b>+319.81%</b></font></td>
  126. <td align=\"left\"><a href=\"http://yunvs.com/theme/t165.html\" target=\"_blank\">管道管材</a>  <a href=\"http://yunvs.com/theme/t272.html\" target=\"_blank\">农田水利建设</a>  <a href=\"http://yunvs.com/theme/t321.html\" target=\"_blank\">塑料建材</a>  <a href=\"http://yunvs.com/theme/t476.html\" target=\"_blank\">水利设备</a>  <a href=\"http://yunvs.com/theme/t481.html\" target=\"_blank\">城市管网建设</a>  <a href=\"http://yunvs.com/theme/t652.html\" target=\"_blank\">大额中标</a>  <a href=\"http://yunvs.com/theme/t527.html\" target=\"_blank\">消暑抗旱</a>  <a href=\"http://yunvs.com/theme/t607.html\" target=\"_blank\">防洪排水</a>  <a href=\"http://yunvs.com/theme/t23.html\" target=\"_blank\">MDI(化工)</a>  <a href=\"http://yunvs.com/theme/t24.html\" target=\"_blank\">MTBE(化工)</a>  <a href=\"http://yunvs.com/theme/t27.html\" target=\"_blank\">PET瓶(化工)</a>  <a href=\"http://yunvs.com/theme/t28.html\" target=\"_blank\">PE(化工)</a>  <a href=\"http://yunvs.com/theme/t29.html\" target=\"_blank\">PP(化工)</a>  <a href=\"http://yunvs.com/theme/t17.html\" target=\"_blank\">HDPE(化工)</a>  <a href=\"http://yunvs.com/theme/t12.html\" target=\"_blank\">BDO(化工)</a>  <a href=\"http://yunvs.com/theme/t834.html\" target=\"_blank\">沧州本地</a>  <a href=\"http://yunvs.com/theme/t30.html\" target=\"_blank\">PS(化工)</a>  <a href=\"http://yunvs.com/theme/t235.html\" target=\"_blank\">PBT(化工)</a>  <a href=\"http://yunvs.com/theme/t237.html\" target=\"_blank\">PVC(化工)</a>  <a href=\"http://yunvs.com/theme/t238.html\" target=\"_blank\">PC(化工)</a>  <a href=\"http://yunvs.com/theme/t239.html\" target=\"_blank\">PA(化工)</a>  <a href=\"http://yunvs.com/theme/t252.html\" target=\"_blank\">OX(化工)</a>  <a href=\"http://yunvs.com/theme/t22.html\" target=\"_blank\">LDPE(化工)</a>  <a href=\"http://yunvs.com/theme/t16.html\" target=\"_blank\">DOP(化工)</a>  <a href=\"http://yunvs.com/theme/t7.html\" target=\"_blank\">PU(化工)</a>  <a href=\"http://yunvs.com/theme/t8.html\" target=\"_blank\">PTA(化工)</a>  <a href=\"http://yunvs.com/theme/t1040.html\" target=\"_blank\">新疆建设</a>  <a href=\"http://yunvs.com/theme/t916.html\" target=\"_blank\">喀什经济开发区</a>  <a href=\"http://yunvs.com/theme/t421.html\" target=\"_blank\">自来水供应</a>  </td>

PS:如果报错UnicodeEncodeError: 'gbk' codec can't encode character,则在程序头部加入字符集支持 #coding=utf-8
基本上我们需要的核心块都被抓取出来了
我们也可以以text文本的方式输出,这样就去掉了html标记

点击(此处)折叠或打开

  1. #coding=utf-8
    from pyquery import PyQuery as pq
    from lxml import etree
    from pyquery import PyQuery as pq
    from lxml import etree

    v_source=pq(url='http://yunvs.com/list/mai_1.html')

    for data in v_source('tr'):
        print pq(data).text()                           -----以text文本的方式进行输出

结果如下:

点击(此处)折叠或打开

  1. 代码 股票 市场关注度↓ 平均MAI MAI相对变动 相关概念
  2. 600401 海润光伏 17417.6 2006.94 +767.87% 光伏 太阳能 阶梯电价受益 多晶硅 券商(龙头) 金太阳工程
  3. 002143 高金食品 10391.3 1339.54 +675.74% 肉制品 猪肉 成渝特区 猪肉加工 农地林地 传媒
  4. 002070 众和股份 6022.89 611.21 +885.4% 印染 锂精矿 海西 己内酰胺
  5. 300213 佳讯飞鸿 5896.39 374.88 +1472.87% 光通信 探月工程 三季报预增 铁路营改增 铁路营改增
  6. 600732 上海新梅 4529.39 894.01 +406.64% 迪士尼 创投
  7. 600303 曙光股份 4139.83 131.78 +3041.47% 客车 新能源客车 东北振兴 乙肝疫苗 校车 公路运输 公路运输 镍碳超级电容电池
  8. 002130 沃尔核材 3749.11 1875.24 +99.93% 核电 抗辐射 新型建材 新材料 珠三角区 电线电缆 铁基超导 合肥综合保税区 中英核电合作 超导材料 新合成三维材料
  9. 002113 天润控股 3741.65 569.31 +557.23% 足球
  10. 600315 上海家化 3638.3 1602.57 +127.03% 化妆品 消毒 抗病毒产品 丙烯腈 信托 纯碱 三季报预增 易信 民族品牌 草甘膦 苯胺 己内酰胺
  11. 002009 天奇股份 3566.27 412.28 +765.01% 风电叶片 低碳经济 江苏沿海地区 机器人 工业自动化 智能物流骨干网 供热管网改造 物流 报废车回收 万达文化旅游城 循环经济
  12. 000018 中冠A 3354.35 172.67 +1842.63% 印染 工业用地
  13. 000036 华联控股 3131.94 184.24 +1599.93% PTA(化工) 前海开发 珠三角区 深圳土地创新 家具建材 前海规划 工业用地 集体建设用地
  14. 002356 浩宁达 2798.2 257.86 +985.16% 智能电表 智能电网 电力改革
  15. 300249 依米康 2796.64 713.37 +292.03%
  16. 300282 汇冠股份 2721.66 488.97 +456.61% 教育装备 联想供应链 触摸屏 游戏机
  17. 300279 和晶科技 2669.16 586.76 +354.9% 手势控制 云计算 无锡物联网 智能家居 物联网
  18. 300010 立思辰 2452.26 636.86 +285.06% 软件外包 网络安全 饮料包装 网络教育 棱镜计划 在线教育 空中交通管理 电子政务 职业教育 去IOE 阿里巴巴上市 信息安全 高校 智慧医疗 WAPI WAPI 国家安全
  19. 300220 金运激光 2411.08 873.71 +175.96% 激光武器 激光 3D打印
  20. 600754 锦江股份 2360.15 387.22 +509.51% 迪士尼 迪士尼旅游消费 酒店餐饮 上海金融创新 镁矿 国企改革 旅游行业
  21. 600016 民生银行 2338.14 1424.41 +64.15% 股份制银行 海洋工程 二维码 海洋产品养殖 棚户改造 民生电商 奢侈品 人民币升值 农业合作社 电子商务 电商 支付宝 无人岛 互联网金融 三季报预增 聚宝盆 T+0 券商 券商 影子银行 金枪鱼 金枪鱼 泉州金改 余额宝 金改 博鳌 港股互通 微信理财通 儿童节 小额贷款

可以看到,我们需要的数据以行记录的形式已经抓取下来了。

如果我们想获取每一行的第一个记录应该如何得到呢?

这里就要分析一下代码了,还是以这段代码为例:

点击(此处)折叠或打开

  1. <tr height=\"30\" > <td align=\"center\"><a href=\"http://yunvs.com/600401\" target=\"_blank\">600401</a></td>
  2. <td align=\"center\"><a href=\"http://yunvs.com/600401\" target=\"_blank\">海润光伏</a></td>
  3. <td align=\"center\">17876.8</td>
  4. <td align=\"center\">2005.74</td>
  5. <td align=\"center\"><font color=\"#C00\"><b>+791.28%</b></font></td>
  6. <td align=\"left\"><a href=\"http://yunvs.com/theme/t640.html\" target=\"_blank\">光伏</a>&nbsp;&nbsp;<a href=\"http://yunvs.com/theme/t323.html\" target=\"_blank\">太阳能</a>&nbsp;&nbsp;<a href=\"http://yunvs.com/theme/t225.html\" target=\"_blank\">阶梯电价受益</a>&nbsp;&nbsp;<a href=\"http://yunvs.com/theme/t105.html\" target=\"_blank\">多晶硅</a>&nbsp;&nbsp;<a href=\"http://yunvs.com/theme/t285.html\" target=\"_blank\">券商(龙头)</a>&nbsp;&nbsp;<a href=\"http://yunvs.com/theme/t230.html\" target=\"_blank\">金太阳工程</a>&nbsp;&nbsp;</td>
  7. </tr>

在最外面的tr段中,包含了6个小的td段,我们需要的数据都内嵌在这6个小的td段中,那么我们如果想调出单个td段的对象,可用如下代码测试:

点击(此处)折叠或打开

  1. #coding=utf-8
    from pyquery import PyQuery as pq
    from lxml import etree
    from pyquery import PyQuery as pq
    from lxml import etree

    v_source=pq(url='http://yunvs.com/list/mai_1.html')

    for data in v_source('tr'):
        print pq(data).text()
        for i in range(len(data)):
            print pq(data).find('td').eq(i).text()

截取一段输出如下:

600315 上海家化 3645.76 1602.69 +127.48% 化妆品 消毒 抗病毒产品 丙烯腈 信托 纯碱 三季报预增 易信 民族品牌 草甘膦 苯胺 己内酰胺
600315        ----eq(0)    组内第一个元素
上海家化       ---eq(1)    组内第二个元素
3645.76       ----eq(2)   组内第三个元素
1602.69       ----eq(3)   组内第四个元素 
+127.48%    ----eq(4)   组内第五个元素
化妆品 消毒 抗病毒产品 丙烯腈 信托 纯碱 三季报预增 易信 民族品牌 草甘膦 苯胺 己内酰胺    ---组内第六个元素

以上抓取代码解释如下:

pq(data).find('td')   意思是对第一次过滤的 v_source('tr')代码再次在内部进行二次查找,过滤'td'打头的段,可以看到一共有5个。
len(data)  输出代码里面的元素个数
pq(data).find('td').eq(i)    获取此段代码过滤后的第i个元素

从上面的输出可以看到,我们需要的数据就是第1,2,6 三个元素,那么我们的代码可以这样写:

点击(此处)折叠或打开

  1. #coding=utf-8
    from pyquery import PyQuery as pq
    from lxml import etree
    from pyquery import PyQuery as pq
    from lxml import etree

    v_source=pq(url='http://yunvs.com/list/mai_1.html')

    for data in v_source('tr'):
        print pq(data).find('td').eq(0).text()
        print pq(data).find('td').eq(1).text()
        print pq(data).find('td').eq(5).text()

输出结果如下(截取一段):
600401
海润光伏
光伏 太阳能 阶梯电价受益 多晶硅 券商(龙头) 金太阳工程

看到没有,我们需要的信息已经逐渐清晰了,目前股票代码和股票名称已经能解析出来后进行准确的定位,剩下的就是将以空格隔开的概念单个解析出来与股票进行匹配。

有了上面的经验,我们继续观察第一段代码,以便对概念进行第三次解析

点击(此处)折叠或打开

  1. <tr height=\"30\" > <td align=\"center\"><a href=\"http://yunvs.com/600401\" target=\"_blank\">600401</a></td>
  2. <td align=\"center\"><a href=\"http://yunvs.com/600401\" target=\"_blank\">海润光伏</a></td>
  3. <td align=\"center\">17876.8</td>
  4. <td align=\"center\">2005.74</td>
  5. <td align=\"center\"><font color=\"#C00\"><b>+791.28%</b></font></td>
  6. <td align=\"left\"><a href=\"http://yunvs.com/theme/t640.html\" target=\"_blank\">光伏</a>&nbsp;&nbsp;<a href=\"http://yunvs.com/theme/t323.html\" target=\"_blank\">太阳能</a>&nbsp;&nbsp;<a href=\"http://yunvs.com/theme/t225.html\" target=\"_blank\">阶梯电价受益</a>&nbsp;&nbsp;<a href=\"http://yunvs.com/theme/t105.html\" target=\"_blank\">多晶硅</a>&nbsp;&nbsp;<a href=\"http://yunvs.com/theme/t285.html\" target=\"_blank\">券商(龙头)</a>&nbsp;&nbsp;<a href=\"http://yunvs.com/theme/t230.html\" target=\"_blank\">金太阳工程</a>&nbsp;&nbsp;</td>
  7. </tr>

可以看到,概念的信息在'td'代码段里面又分了几组,组与组之间以'a'标签进行分隔,那么需要对'td'组内的第6个元素再次进行过滤,可用如下代码进行测试:

点击(此处)折叠或打开

  1. #coding=utf-8
    from pyquery import PyQuery as pq
    from lxml import etree
    from pyquery import PyQuery as pq
    from lxml import etree

    v_source=pq(url='http://yunvs.com/list/mai_1.html')

    for data in v_source('tr'):
        print pq(data).find('td').eq(0).text()
        print pq(data).find('td').eq(1).text()
        print pq(data).find('td').eq(5).text()
        v_ind = pq(data).find('td').eq(5)
        for i in range(len(pq(v_ind).find('a'))):       --输出概念元祖内以'a'打头标记的元素个数
            print pq(v_ind).find('a').eq(i).text()      --输出对应的元素

v_ind = pq(data).find('td').eq(5)
pq(v_ind).find('a')
以上两段代码是关键,第一行代码用于摘出概念模块的html代码,如下:

点击(此处)折叠或打开

  1. <td align=\\\"left\\\"><a href=\\\"http://yunvs.com/theme/t640.html\\\" target=\\\"_blank\\\">光伏</a>&nbsp;&nbsp;<a href=\\\"http://yunvs.com/theme/t323.html\\\" target=\\\"_blank\\\">太阳能</a>&nbsp;&nbsp;<a href=\\\"http://yunvs.com/theme/t225.html\\\" target=\\\"_blank\\\">阶梯电价受益</a>&nbsp;&nbsp;<a href=\\\"http://yunvs.com/theme/t105.html\\\" target=\\\"_blank\\\">多晶硅</a>&nbsp;&nbsp;<a href=\\\"http://yunvs.com/theme/t285.html\\\" target=\\\"_blank\\\">券商(龙头)</a>&nbsp;&nbsp;<a href=\\\"http://yunvs.com/theme/t230.html\\\" target=\\\"_blank\\\">金太阳工程</a>&nbsp;&nbsp;</td>

第二行代码则用于在上面的代码里面继续过滤以'a'为标签的元素,这样就把之前以空格分隔的数据单个过滤出来了。

从上至下,我们依次得到了股票代码,股票名称以及单个的概念名称,那么我们将这三者组合在一起并输出,可以像这样写代码:

点击(此处)折叠或打开

  1. #coding=utf-8
    from pyquery import PyQuery as pq
    from lxml import etree
    from pyquery import PyQuery as pq
    from lxml import etree

    v_source=pq(url='http://yunvs.com/list/mai_1.html')

    for data in v_source('tr'):
        v_code = pq(data).find('td').eq(0).text()
        v_name = pq(data).find('td').eq(1).text()
        v_ind = pq(data).find('td').eq(5)

    for i in range(len(pq(v_ind).find('a'))):
            v_indname = pq(v_ind).find('a').eq(i).text()
            print v_code
            print v_name
            print v_indname

这样,我们在最里面的循环里面即可将股票和概念单对单组合,最后可将结果写入数据库或文件系统中

输出结果如下:

点击(此处)折叠或打开

  1. 600401
  2. 海润光伏
  3. 光伏
  4. 600401
  5. 海润光伏
  6. 太阳能
  7. 600401
  8. 海润光伏
  9. 阶梯电价受益
  10. 600401
  11. 海润光伏
  12. 多晶硅
  13. 600401
  14. 海润光伏
  15. 券商(龙头)
  16. 600401
  17. 海润光伏
  18. 金太阳工程
  19. 002143
  20. 高金食品
  21. 肉制品
  22. 002143
  23. 高金食品
  24. 猪肉
  25. 002143
  26. 高金食品
  27. 成渝特区
  28. 002143
  29. 高金食品
  30. 猪肉加工
  31. 002143
  32. 高金食品
  33. 农地林地
  34. 002143
  35. 高金食品
  36. 传媒
  37. 002070
  38. 众和股份
  39. 印染
  40. 002070
  41. 众和股份
  42. 锂精矿
  43. 002070
  44. 众和股份
  45. 海西
  46. 002070
  47. 众和股份
  48. 己内酰胺
  49. 300213
  50. 佳讯飞鸿
  51. 光通信
  52. 300213
  53. 佳讯飞鸿
  54. 探月工程
  55. 300213
  56. 佳讯飞鸿
  57. 三季报预增
  58. 300213
  59. 佳讯飞鸿
  60. 铁路营改增
  61. 300213
  62. 佳讯飞鸿
  63. 铁路营改增
  64. 600732
  65. 上海新梅
  66. 迪士尼
  67. 600732
  68. 上海新梅
  69. 创投
  70. 600303
  71. 曙光股份
  72. 客车
  73. 600303
  74. 曙光股份
  75. 新能源客车
  76. 600303
  77. 曙光股份
  78. 东北振兴
  79. 600303
  80. 曙光股份
  81. 乙肝疫苗
  82. 600303
  83. 曙光股份
  84. 校车
  85. 600303
  86. 曙光股份
  87. 公路运输
  88. 600303
  89. 曙光股份
  90. 公路运输
  91. 600303
  92. 曙光股份
  93. 镍碳超级电容电池
  94. 002113
  95. 天润控股
  96. 足球
  97. 002130
  98. 沃尔核材
  99. 核电
  100. 002130
  101. 沃尔核材
  102. 抗辐??
  103. 002130
  104. 沃尔核材
  105. 新型建材
  106. 002130
  107. 沃尔核材
  108. 新材料
  109. 002130
  110. 沃尔核材
  111. 珠三角区
  112. 002130
  113. 沃尔核材
  114. 电线电缆
  115. 002130
  116. 沃尔核材
  117. 铁基超导
  118. 002130
  119. 沃尔核材
  120. 合肥综合保税区
  121. 002130
  122. 沃尔核材
  123. 中英核电合作
  124. 002130
  125. 沃尔核材
  126. 超导材料
  127. 002130
  128. 沃尔核材
  129. 新合成三维材料
  130. 600315
  131. 上海家化
  132. 化妆品
  133. 600315
  134. 上海家化
  135. 消毒
  136. 600315
  137. 上海家化
  138. 抗病毒产品
  139. 600315
  140. 上海家化
  141. 丙烯腈
  142. 600315
  143. 上海家化
  144. 信托
  145. 600315
  146. 上海家化
  147. 纯碱
  148. 600315
  149. 上海家化
  150. 三季报预增
  151. 600315
  152. 上海家化
  153. 易信
  154. 600315
  155. 上海家化
  156. 民族品牌
  157. 600315
  158. 上海家化
  159. 草甘膦
  160. 600315
  161. 上海家化
  162. 苯胺
  163. 600315
  164. 上海家化
  165. 己内酰胺
  166. 002009
  167. 天奇股份
  168. 风电叶片
  169. 002009
  170. 天奇股份
  171. 低碳经济
  172. 002009
  173. 天奇股份
  174. 江苏沿海地区
  175. 002009
  176. 天奇股份
  177. 机器人
  178. 002009
  179. 天奇股份
  180. 工业自动化
  181. 002009
  182. 天奇股份
  183. 智能物流骨干网
  184. 002009
  185. 天奇股份
  186. 供热管网改造
  187. 002009
  188. 天奇股份
  189. 物流
  190. 002009
  191. 天奇股份
  192. 报废车回收
  193. 002009
  194. 天奇股份
  195. 万达文化旅游城
  196. 002009
  197. 天奇股份
  198. 循环经济
  199. 000018
  200. 中冠A
  201. 印染
  202. 000018
  203. 中冠A
  204. 工业用地
  205. 000036
  206. 华联控股
  207. PTA(化工)
  208. 000036
  209. 华联控股
  210. 前海开发
  211. 000036
  212. 华联控股
  213. 珠三角区
  214. 000036
  215. 华联控股
  216. 深圳土地创新
  217. 000036
  218. 华联控股
  219. 家具建材
  220. 000036
  221. 华联控股
  222. 前海规划
  223. 000036
  224. 华联控股
  225. 工业用地
  226. 000036
  227. 华联控股
  228. 集体建设用地
  229. 300010
  230. 立思辰
  231. 软件外包
  232. 300010
  233. 立思辰
  234. 网络安全
  235. 300010
  236. 立思辰
  237. 饮料包装
  238. 300010
  239. 立思辰
  240. 网络教育
  241. 300010
  242. 立思辰
  243. 棱镜计划
  244. 300010
  245. 立思辰
  246. 在线教育
  247. 300010
  248. 立思辰
  249. 空中交通管理
  250. 300010
  251. 立思辰
  252. 电子政务
  253. 300010
  254. 立思辰
  255. 职业教育
  256. 300010
  257. 立思辰
  258. 去IOE
  259. 300010
  260. 立思辰
  261. 阿里巴巴上市
  262. 300010
  263. 立思辰
  264. 信息安全
  265. 300010
  266. 立思辰
  267. 高校
  268. 300010
  269. 立思辰
  270. 智慧医疗
  271. 300010
  272. 立思辰
  273. WAPI
  274. 300010
  275. 立思辰
  276. WAPI
  277. 300010
  278. 立思辰
  279. 国家安全
  280. 002356
  281. 浩宁达
  282. 智能电表
  283. 002356
  284. 浩宁达
  285. 智能电网
  286. 002356
  287. 浩宁达
  288. 电力改革
  289. 300282
  290. 汇冠股份
  291. 教育装备
  292. 300282
  293. 汇冠股份
  294. 联想供应链
  295. 300282
  296. 汇冠股份
  297. 触摸屏
  298. 300282
  299. 汇冠股份
  300. 游戏机
  301. 300279
  302. 和晶科技
  303. 手势控制
  304. 300279
  305. 和晶科技
  306. 云计算
  307. 300279
  308. 和晶科技
  309. 无锡物联网
  310. 300279
  311. 和晶科技
  312. 智能家居
  313. 300279
  314. 和晶科技
  315. 物联网
  316. 600754
  317. 锦江股份
  318. 迪士尼
  319. 600754
  320. 锦江股份
  321. 迪士尼旅游消费
  322. 600754
  323. 锦江股份
  324. 酒店餐饮
  325. 600754
  326. 锦江股份
  327. 上海金融创新
  328. 600754
  329. 锦江股份
  330. 镁矿
  331. 600754
  332. 锦江股份
  333. 国企改革
  334. 600754
  335. 锦江股份
  336. 旅游行业
  337. 600016
  338. 民生银行
  339. 股份制银行
  340. 600016
  341. 民生银行
  342. 海洋工程
  343. 600016
  344. 民生银行
  345. 二维码
  346. 600016
  347. 民生银行
  348. 海洋产品养殖
  349. 600016
  350. 民生银行
  351. 棚户改造
  352. 600016
  353. 民生银行
  354. 民生电商
  355. 600016
  356. 民生银行
  357. 奢侈品
  358. 600016
  359. 民生银行
  360. 人民币升值
  361. 600016
  362. 民生银行
  363. 农业合作社
  364. 600016
  365. 民生银行
  366. 电子商务
  367. 600016
  368. 民生银行
  369. 电商
  370. 600016
  371. 民生银行
  372. 支付宝
  373. 600016
  374. 民生银行
  375. 无人岛
  376. 600016
  377. 民生银行
  378. 互联网金融
  379. 600016
  380. 民生银行
  381. 三季报预增
  382. 600016
  383. 民生银行
  384. 聚宝盆
  385. 600016
  386. 民生银行
  387. T+0
  388. 600016
  389. 民生银行
  390. 券商
  391. 600016
  392. 民生银行
  393. 券商
  394. 600016
  395. 民生银行
  396. 影子银行
  397. 600016
  398. 民生银行
  399. 金枪鱼
  400. 600016
  401. 民生银行
  402. 金枪鱼
  403. 600016
  404. 民生银行
  405. 泉州金改
  406. 600016
  407. 民生银行
  408. 余额宝
  409. 600016
  410. 民生银行
  411. 金改
  412. 600016
  413. 民生银行
  414. 博鳌
  415. 600016
  416. 民生银行
  417. 港股互通
  418. 600016
  419. 民生银行
  420. 微信理财通
  421. 600016
  422. 民生银行
  423. 儿童节
  424. 600016
  425. 民生银行
  426. 小额贷款
  427. 300220
  428. 金运激光
  429. 激光武器
  430. 300220
  431. 金运激光
  432. 激光
  433. 300220
  434. 金运激光
  435. 3D打印

Python使用pyquery抓取数据实例相关推荐

  1. python爬虫定时抓取数据

    python爬虫定时抓取数据 from scrapy import cmdline import datetime import time def doSth(): # 把爬虫程序放在这个类中 shi ...

  2. Python爬虫处理抓取数据中文乱码问题

    乱码原因: 因为你的文件声明为utf-8,并且也应该是用utf-8的编码保存的源文件.但是windows的本地默认编码是cp936,也就是gbk编码,所以在控制台直接打印utf-8的字符串当然是乱码了 ...

  3. 系统检测到您正在使用网页抓取工具访问_从网站抓取数据的3种最佳方法

    halo,大家好,我是特仑苏,今天呢给大家分享一些Python从网站抓取数据的一些方法,希望可以给大家带来一些帮助! 原作者:Octoparse团队 原出处:作品文(从网站抓取数据的3种最佳方法)/网 ...

  4. python 定时自动爬取_python实现scrapy爬虫每天定时抓取数据的示例代码

    1. 前言. 1.1. 需求背景. 每天抓取的是同一份商品的数据,用来做趋势分析. 要求每天都需要抓一份,也仅限抓取一份数据. 但是整个爬取数据的过程在时间上并不确定,受本地网络,代理速度,抓取数据量 ...

  5. python抓取数据时失败_爬取数据缺失的补坑,Python数据爬取的坑坑洼洼如何铲平...

    渣渣业余选手讲解,关于爬取数据缺失的补坑,一点点关于Python数据爬取的坑坑洼洼如何铲平,个人的一些心得体会,还有结合实例的数据缺失的补全,几点参考,仅供观赏,如有雷同,那肯定是我抄袭的! 在使用P ...

  6. python定时爬取数据_python实现scrapy爬虫每天定时抓取数据的示例代码

    1. 前言. 1.1. 需求背景. 每天抓取的是同一份商品的数据,用来做趋势分析. 要求每天都需要抓一份,也仅限抓取一份数据. 但是整个爬取数据的过程在时间上并不确定,受本地网络,代理速度,抓取数据量 ...

  7. python自动抓取网管软件的数据_python实现scrapy爬虫每天定时抓取数据的示例代码...

    1. 前言. 1.1. 需求背景. 每天抓取的是同一份商品的数据,用来做趋势分析. 要求每天都需要抓一份,也仅限抓取一份数据. 但是整个爬取数据的过程在时间上并不确定,受本地网络,代理速度,抓取数据量 ...

  8. python实现scrapy爬虫每天定时抓取数据

    python实现scrapy爬虫每天定时抓取数据 1. 前言. 1.1. 需求背景. 每天抓取的是同一份商品的数据,用来做趋势分析. 要求每天都需要抓一份,也仅限抓取一份数据. 但是整个爬取数据的过程 ...

  9. python爬网页数据用什么_初学者如何用“python爬虫”技术抓取网页数据?

    原标题:初学者如何用"python爬虫"技术抓取网页数据? 在当今社会,互联网上充斥着许多有用的数据.我们只需要耐心观察并添加一些技术手段即可获得大量有价值的数据.而这里的&quo ...

最新文章

  1. 小团队 vs 大团队
  2. Docker问题记录
  3. 绥化a货翡翠,拉萨a货翡翠
  4. 带你从源码了解SpringBoot启动流程
  5. Asp.Net中using的使用的方法(转)
  6. [emacs] 用 ido 或 anything 进行选择
  7. 这种反人类的工作被机器人取代,我举双手双脚赞成
  8. 最近好颓废啊,改过自新就从收拾自己的东西开始吧
  9. 西门子wincc消息队列服务器,安装Wincc 7.0 ASIA时,消息队列装不上,提示错误-工业支持中心-西门子中国...
  10. matlab遗传工具箱ga,用遗传算法工具箱(GA)识别Bouc-Wen模型微分方程参数
  11. php仿it之家源码,织梦仿IT之家带wap手机版 v5.7
  12. 新手记录SPSS学习笔记1
  13. 注册页面获取手机验证码
  14. sumifs函数的使用方法,sumifs函数的多条件运用
  15. Libra最后的命运
  16. CSP第23次 202109-4 收集卡牌 C语言答案
  17. 2014年总结和2015年计划
  18. jQuery仿天猫完美加入购物车
  19. win7系统无法连接局域网服务器,Win7局域网无法访问如何解决?
  20. 白鹭(egret)引擎安装及使用

热门文章

  1. vivo2019秋招笔试真题 1.字符串排序 2.链表拆分 3.最长回文子串
  2. 车联网云控基础平台趋势
  3. ZBrush: Polypaint ZBrush教程之多边形着色 Lynda课程中文字幕
  4. 老外冒充海洋工程师骗_打工仔冒充老外骗取5名痴情女40余万
  5. 更改Windows IP 地址的bat脚本
  6. 挂外网时git clone出现的问题记录
  7. 编译原理——第二章-最左推导、最右推导以及语法树
  8. [转帖]高通推出八核笔电处理器骁龙8cx 能超英特尔吗?
  9. Cesium 中创建图层(imageryProvider)的几种方式
  10. 移动信号4g显示无服务器,手机没信号?4G变成E?简单几步,轻松搞定!