ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 977|回复: 4

[求助] 求助,如何批量提取本地html网页中文字内容

[复制链接]

TA的精华主题

TA的得分主题

发表于 2020-11-28 14:43 | 显示全部楼层 |阅读模式
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
各位前辈:
      能不能帮忙编辑个代码,可以批量提取本地html网页中指定的内容,现在只能一个一个手动复制粘贴,拜谢!

求助.zip

32.39 KB, 下载次数: 26

TA的精华主题

TA的得分主题

发表于 2020-11-28 15:40 来自手机 | 显示全部楼层
y用正则应该可以,可以搜索一下

TA的精华主题

TA的得分主题

 楼主| 发表于 2020-11-28 15:45 | 显示全部楼层
zpy2 发表于 2020-11-28 15:40
y用正则应该可以,可以搜索一下

能给个站内学习链接吗,我学习一下,谢谢

TA的精华主题

TA的得分主题

发表于 2020-11-28 16:57 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
以txt方式读取源代码正则处理下就差不多了。

TA的精华主题

TA的得分主题

发表于 2020-11-28 22:11 来自手机 | 显示全部楼层
arecluse 发表于 2020-11-28 15:45
能给个站内学习链接吗,我学习一下,谢谢

dir遍历文件
正则匹配
下面是php的,也写了一下,供你参考。
<?php
//https://www.php.net/manual/zh/class.recursivedirectoryiterator.php
function get_all_html(){

$Directory = new RecursiveDirectoryIterator('./');
$Iterator = new RecursiveIteratorIterator($Directory);

$Regex = new RegexIterator($Iterator, '/^.+\.html$/i',RegexIterator::MATCH);

$arr=[];
foreach($Regex as $r){
$arr[]=$r->getPathname();
}
//print_r(iterator_to_array($Regex));

return $arr;
}
$files=get_all_html();
$i=0;
foreach($files as $k=>$v){

        $html=file_get_contents($v);
        $patten='~[男女]~u';
        if(preg_match($patten,$html,$matches)){
        //echo $matches[0];
        $result[$i]["性别"]=$matches[0];
        }else{
        echo $v."<br>";
        }

        $patten='~1\d{10}~u';
        if(preg_match($patten,$html,$matches)){
        //echo $matches[0];
        $result[$i]["手机号"]=$matches[0];
        }else{
        echo $v."<br>";
        }
        $i++;
}
//print_r($result);
$file_out="result.txt";
unlink($file_out);
foreach($result as $v){
        $str=implode("\t",$v)."\r\n";
        file_put_contents($file_out,$str,FILE_APPEND);
}
$s=file_get_contents($file_out);
echo $s;
die();
?>
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-10-7 07:11 , Processed in 0.040212 second(s), 10 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表