ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 307|回复: 3

[求助] 求正则表达式

[复制链接]

TA的精华主题

TA的得分主题

发表于 2023-4-19 10:14 | 显示全部楼层 |阅读模式
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
本帖最后由 mjzxlmg 于 2023-4-19 15:39 编辑

求国家统计局官网数据页网页原代码中的:统计用区划代码和城乡划分代码的年度数据名称和链接(http://www.stats.gov.cn/sj/tjbz/qhdm/)

字数限制部分代码如下,求红色部分的正则表达式:(只需要链接和年度,2009年到2022年)
  1. <div class="wrapper-list-title">
  2.                                                         统计用区划代码和城乡划分代码
  3.                                                         <p class="underline"></p>
  4.                                                 </div>
  5.                                                 <div class="list-content">
  6.                                                         <ul>
  7.                                                                
  8.                                                                         <li>
  9.                                                                                 <a class="fl pc_1600" href="<font color="#ff0000">/sj/tjbz/tjyqhdmhcxhfdm/2022/index.html</font>" target="_blank" title='<font color="#ff0000">2022年</font>'>
  10.                                                                                         2022年
  11.                                                                                 </a>
  12.                                                                                 <a class="fl mhide pc1200" href="/sj/tjbz/tjyqhdmhcxhfdm/2022/index.html" target="_blank" title='2022年'>
  13.                                                                                         2022年
  14.                                                                                 </a>
  15.                                                                                 <a class="fl pchide" href="/sj/tjbz/tjyqhdmhcxhfdm/2022/index.html" target="_blank" title='2022年'>
  16.                                                                                         2022年
  17.                                                                                 </a>
  18.                                                                                 <span>
  19.                                                                                         2022-12-29
  20.                                                                                 </span>
  21.                                                                         </li>
  22.                                                                
  23.                                                                         <li>
  24.                                                                                 <a class="fl pc_1600" href="/sj/tjbz/tjyqhdmhcxhfdm/2021/index.html" target="_blank" title='2021年'>
  25.                                                                                         2021年
  26.                                                                                 </a>
  27.                                                                                 <a class="fl mhide pc1200" href="/sj/tjbz/tjyqhdmhcxhfdm/2021/index.html" target="_blank" title='2021年'>
  28.                                                                                         2021年
  29.                                                                                 </a>
  30.                                                                                 <a class="fl pchide" href="/sj/tjbz/tjyqhdmhcxhfdm/2021/index.html" target="_blank" title='2021年'>
  31.                                                                                         2021年
  32.                                                                                 </a>
  33.                                                                                 <span>
  34.                                                                                         2021-12-30
  35.                                                                                 </span>
  36.                                                                         </li>
  37.                                                                
  38.                                                                         <li>
  39.                                                                                 <a class="fl pc_1600" href="/sj/tjbz/tjyqhdmhcxhfdm/2020/index.html" target="_blank" title='2020年'>
  40.                                                                                         2020年
  41.                                                                                 </a>
  42.                                                                                 <a class="fl mhide pc1200" href="/sj/tjbz/tjyqhdmhcxhfdm/2020/index.html" target="_blank" title='2020年'>
  43.                                                                                         2020年
  44.                                                                                 </a>
  45.                                                                                 <a class="fl pchide" href="/sj/tjbz/tjyqhdmhcxhfdm/2020/index.html" target="_blank" title='2020年'>
  46.                                                                                         2020年
  47.                                                                                 </a>
  48.                                                                                 <span>
  49.                                                                                         2020-11-06
  50.                                                                                 </span>
  51.                                                                         </li>
  52.                                                                
  53.                                                                         <li>
  54.                                                                                 <a class="fl pc_1600" href="/sj/tjbz/tjyqhdmhcxhfdm/2019/index.html" target="_blank" title='2019年'>
  55.                                                                                         2019年
  56.                                                                                 </a>
  57.                                                                                 <a class="fl mhide pc1200" href="/sj/tjbz/tjyqhdmhcxhfdm/2019/index.html" target="_blank" title='2019年'>
  58.                                                                                         2019年
  59.                                                                                 </a>
  60.                                                                                 <a class="fl pchide" href="/sj/tjbz/tjyqhdmhcxhfdm/2019/index.html" target="_blank" title='2019年'>
  61.                                                                                         2019年
  62.                                                                                 </a>
  63.                                                                                 <span>
  64.                                                                                         2020-02-25
  65.                                                                                 </span>
  66.                                                                         </li>
  67.                                                                
  68.                                                                         <li>
  69.                                                                                 <a class="fl pc_1600" href="/sj/tjbz/tjyqhdmhcxhfdm/2018/index.html" target="_blank" title='2018年'>
  70.                                                                                         2018年
  71.                                                                                 </a>
  72.                                                                                 <a class="fl mhide pc1200" href="/sj/tjbz/tjyqhdmhcxhfdm/2018/index.html" target="_blank" title='2018年'>
  73.                                                                                         2018年
  74.                                                                                 </a>
  75.                                                                                 <a class="fl pchide" href="/sj/tjbz/tjyqhdmhcxhfdm/2018/index.html" target="_blank" title='2018年'>
  76.                                                                                         2018年
  77.                                                                                 </a>
  78.                                                                                 <span>
  79.                                                                                         2019-01-31
  80.                                                                                 </span>
  81.                                                                         </li>
  82.                                                                
  83.                                                                         <li>
  84.                                                                                 <a class="fl pc_1600" href="/sj/tjbz/tjyqhdmhcxhfdm/2017/index.html" target="_blank" title='2017年'>
  85.                                                                                         2017年
  86.                                                                                 </a>
  87.                                                                                 <a class="fl mhide pc1200" href="/sj/tjbz/tjyqhdmhcxhfdm/2017/index.html" target="_blank" title='2017年'>
  88.                                                                                         2017年
  89.                                                                                 </a>
  90.                                                                                 <a class="fl pchide" href="/sj/tjbz/tjyqhdmhcxhfdm/2017/index.html" target="_blank" title='2017年'>
  91.                                                                                         2017年
  92.                                                                                 </a>
  93.                                                                                 <span>
  94.                                                                                         2018-06-20
  95.                                                                                 </span>
  96.                                                                         </li>
  97.                                                                
  98.                                                                         <li>
  99.                                                                                 <a class="fl pc_1600" href="/sj/tjbz/tjyqhdmhcxhfdm/2016/index.html" target="_blank" title='2016年'>
  100.                                                                                         2016年
  101.                                                                                 </a>
  102.                                                                                 <a class="fl mhide pc1200" href="/sj/tjbz/tjyqhdmhcxhfdm/2016/index.html" target="_blank" title='2016年'>
  103.                                                                                         2016年
  104.                                                                                 </a>
  105.                                                                                 <a class="fl pchide" href="/sj/tjbz/tjyqhdmhcxhfdm/2016/index.html" target="_blank" title='2016年'>
  106.                                                                                         2016年
  107.                                                                                 </a>
  108.                                                                                 <span>
  109.                                                                                         2017-05-16
  110.                                                                                 </span>
  111.                                                                         </li>
  112.                                                                
  113.                                                                         <li>
  114.                                                                                 <a class="fl pc_1600" href="/sj/tjbz/tjyqhdmhcxhfdm/2015/index.html" target="_blank" title='2015年'>
  115.                                                                                         2015年
  116.                                                                                 </a>
  117.                                                                                 <a class="fl mhide pc1200" href="/sj/tjbz/tjyqhdmhcxhfdm/2015/index.html" target="_blank" title='2015年'>
  118.                                                                                         2015年
  119.                                                                                 </a>
  120.                                                                                 <a class="fl pchide" href="/sj/tjbz/tjyqhdmhcxhfdm/2015/index.html" target="_blank" title='2015年'>
  121.                                                                                         2015年
  122.                                                                                 </a>
  123.                                                                                 <span>
  124.                                                                                         2016-07-27
  125.                                                                                 </span>
  126.                                                                         </li>
  127.                                                                
  128.                                                                         <li>
  129.                                                                                 <a class="fl pc_1600" href="/sj/tjbz/tjyqhdmhcxhfdm/2014/index.html" target="_blank" title='2014年'>
  130.                                                                                         2014年
  131.                                                                                 </a>
  132.                                                                                 <a class="fl mhide pc1200" href="/sj/tjbz/tjyqhdmhcxhfdm/2014/index.html" target="_blank" title='2014年'>
  133.                                                                                         2014年
  134.                                                                                 </a>
  135.                                                                                 <a class="fl pchide" href="/sj/tjbz/tjyqhdmhcxhfdm/2014/index.html" target="_blank" title='2014年'>
  136.                                                                                         2014年
  137.                                                                                 </a>
  138.                                                                                 <span>
  139.                                                                                         2016-01-19
  140.                                                                                 </span>
  141.                                                                         </li>
  142.                                                                
  143.                                                                         <li>
  144.                                                                                 <a class="fl pc_1600" href="/sj/tjbz/tjyqhdmhcxhfdm/2013/index.html" target="_blank" title='2013年'>
  145.                                                                                         2013年
  146.                                                                                 </a>
  147.                                                                                 <a class="fl mhide pc1200" href="/sj/tjbz/tjyqhdmhcxhfdm/2013/index.html" target="_blank" title='2013年'>
  148.                                                                                         2013年
  149.                                                                                 </a>
  150.                                                                                 <a class="fl pchide" href="/sj/tjbz/tjyqhdmhcxhfdm/2013/index.html" target="_blank" title='2013年'>
  151.                                                                                         2013年
  152.                                                                                 </a>
  153.                                                                                 <span>
  154.                                                                                         2014-01-16
  155.                                                                                 </span>
  156.                                                                         </li>
  157.                                                                
  158.                                                                         <li>
  159.                                                                                 <a class="fl pc_1600" href="/sj/tjbz/tjyqhdmhcxhfdm/2012/index.html" target="_blank" title='2012年'>
  160.                                                                                         2012年
  161.                                                                                 </a>
  162.                                                                                 <a class="fl mhide pc1200" href="/sj/tjbz/tjyqhdmhcxhfdm/2012/index.html" target="_blank" title='2012年'>
  163.                                                                                         2012年
  164.                                                                                 </a>
  165.                                                                                 <a class="fl pchide" href="/sj/tjbz/tjyqhdmhcxhfdm/2012/index.html" target="_blank" title='2012年'>
  166.                                                                                         2012年
  167.                                                                                 </a>
  168.                                                                                 <span>
  169.                                                                                         2013-11-06
  170.                                                                                 </span>
  171.                                                                         </li>
  172.                                                                
  173.                                                                         <li>
  174.                                                                                 <a class="fl pc_1600" href="/sj/tjbz/tjyqhdmhcxhfdm/2011/index.html" target="_blank" title='2011年'>
  175.                                                                                         2011年
  176.                                                                                 </a>
  177.                                                                                 <a class="fl mhide pc1200" href="/sj/tjbz/tjyqhdmhcxhfdm/2011/index.html" target="_blank" title='2011年'>
  178.                                                                                         2011年
  179.                                                                                 </a>
  180.                                                                                 <a class="fl pchide" href="/sj/tjbz/tjyqhdmhcxhfdm/2011/index.html" target="_blank" title='2011年'>
  181.                                                                                         2011年
  182.                                                                                 </a>
  183.                                                                                 <span>
  184.                                                                                         2013-11-06
  185.                                                                                 </span>
  186.                                                                         </li>
  187.                                                                
  188.                                                                         <li>
  189.                                                                                 <a class="fl pc_1600" href="/sj/tjbz/tjyqhdmhcxhfdm/2010/index.html" target="_blank" title='2010年'>
  190.                                                                                         2010年
  191.                                                                                 </a>
  192.                                                                                 <a class="fl mhide pc1200" href="/sj/tjbz/tjyqhdmhcxhfdm/2010/index.html" target="_blank" title='2010年'>
  193.                                                                                         2010年
  194.                                                                                 </a>
  195.                                                                                 <a class="fl pchide" href="/sj/tjbz/tjyqhdmhcxhfdm/2010/index.html" target="_blank" title='2010年'>
  196.                                                                                         2010年
  197.                                                                                 </a>
  198.                                                                                 <span>
  199.                                                                                         2013-11-06
  200.                                                                                 </span>
  201.                                                                         </li>
  202.                                                                
  203.                                                                         <li>
  204.                                                                                 <a class="fl pc_1600" href="/sj/tjbz/tjyqhdmhcxhfdm/2009/index.html" target="_blank" title='2009年'>
  205.                                                                                         2009年
  206.                                                                                 </a>
  207.                                                                                 <a class="fl mhide pc1200" href="/sj/tjbz/tjyqhdmhcxhfdm/2009/index.html" target="_blank" title='2009年'>
  208.                                                                                         2009年
  209.                                                                                 </a>
  210.                                                                                 <a class="fl pchide" href="/sj/tjbz/tjyqhdmhcxhfdm/2009/index.html" target="_blank" title='2009年'>
  211.                                                                                         2009年
  212.                                                                                 </a>
  213.                                                                                 <span>
  214.                                                                                         2013-11-06
  215.                                                                                 </span>
  216.                                                                         </li>
  217.                                                                
  218.                                                         </ul>
  219.                                                 </div>
复制代码


TA的精华主题

TA的得分主题

发表于 2023-4-19 15:25 | 显示全部楼层
这个红色字体的特征还是比较明显的,感觉月不需要用到正则表达式

TA的精华主题

TA的得分主题

 楼主| 发表于 2023-4-19 15:30 | 显示全部楼层
本帖最后由 mjzxlmg 于 2023-4-19 15:39 编辑
LIUZHU 发表于 2023-4-19 15:25
这个红色字体的特征还是比较明显的,感觉月不需要用到正则表达式

原代码比较长无法上传,要先到网页中查看原代码,然后再写正则。


TA的精华主题

TA的得分主题

发表于 2023-4-19 19:32 | 显示全部楼层
本帖最后由 sheeboard 于 2023-4-19 19:58 编辑

哈哈,我三年前爬过的,有反爬的时间快了要输验证码的。
截图 2023-04-19 19-30-32.png

北京.7z

137.56 KB, 下载次数: 7

您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-9-27 22:20 , Processed in 0.032936 second(s), 9 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表