ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
楼主: VBA万岁

[求助] VSTO入门问题集

[复制链接]

TA的精华主题

TA的得分主题

发表于 2016-1-1 12:31 来自手机 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
VBA万岁 发表于 2016-1-1 10:48
至此,我对类库的认识如下(不知是否正确):
如果自定义类库函数是工作表函数,则须注册;
若仅用于在 ...

其实对于.net来说,没有什么工作表函数。之所以这个用途要注册,多数是因为,像这些通过com来提供的插件,excel需要读取注册表里面的信息才可以得以加载…所以需要dll要把自己的相关信息注册到注册表…所以vsto也签名并安装,很大程度上也是这原因…

评分

1

查看全部评分

TA的精华主题

TA的得分主题

 楼主| 发表于 2016-1-4 16:31 | 显示全部楼层
VBA万岁 发表于 2015-12-28 09:26
九、C#.NET如何封装类库?

看了如下帖子的第44~45楼的代码及附件,

十、C#.NET如何提取网页数据?
先提供以下相关链接(见楼下):
(一)需添加哪些引用?

TA的精华主题

TA的得分主题

 楼主| 发表于 2016-1-4 16:41 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2016-1-4 17:41 | 显示全部楼层
VBA万岁 发表于 2016-1-4 16:41
1、C# .net 如何抓取网页内容 .
2、C# 抓取网页内容的方法
3、C#实现网页内容正文抓取 .

其实网络爬虫(很多资料不算是爬虫,只能算是采集数据而已)都是基本套路,知识点多,但都没有什么难以理解的知识,C#也没有特别的.也就是用一些网络功能类而已(System.Net命名空间里面).
然后就是解析html,json,xml之类的,有时候要解压缩(System.IO.Compression命名空间里面).
但建议不要花太多精力在正则表达式来解析xml内容,除非你不考虑项目的维护性.使用xpath或linqpath(实际是xpath的linq表达式树形式而已).一般在爬虫里面,使用正则表达式来挖掘url比较多吧.

小小建议,不一定准确.

TA的精华主题

TA的得分主题

 楼主| 发表于 2016-1-6 09:21 | 显示全部楼层
excelhomesnake 发表于 2016-1-4 17:41
其实网络爬虫(很多资料不算是爬虫,只能算是采集数据而已)都是基本套路,知识点多,但都没有什么难以理解的 ...

估计这个得花费一段时间——网页数据采集我仅会一点,C#尚未入门。故提醒自己不要急于求成,从点滴学起,慢慢来......

TA的精华主题

TA的得分主题

发表于 2016-1-6 14:14 来自手机 | 显示全部楼层
VBA万岁 发表于 2016-1-6 09:21
估计这个得花费一段时间——网页数据采集我仅会一点,C#尚未入门。故提醒自己不要急于求成,从点滴学起, ...

是的,学好语言的各种特性…其他的,几乎是使用库而已…加油

评分

1

查看全部评分

TA的精华主题

TA的得分主题

 楼主| 发表于 2016-1-6 15:40 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
本帖最后由 VBA万岁 于 2016-1-6 16:57 编辑
VBA万岁 发表于 2016-1-6 09:21
估计这个得花费一段时间——网页数据采集我仅会一点,C#尚未入门。故提醒自己不要急于求成,从点滴学起, ...


今百度到以下帖子,代码较完整,而且示例网址大部分都能打开,故有空准备测试一下:
9、网页抓取数据并分析,特别包括分页数据的抓取

TA的精华主题

TA的得分主题

 楼主| 发表于 2016-1-8 20:49 | 显示全部楼层
VBA万岁 发表于 2016-1-6 15:40
今百度到以下帖子,代码较完整,而且示例网址大部分都能打开,故有空准备测试一下:
9、网页抓取数据 ...

测试成功,主要代码如下:
  1. using System;
  2. using System.Collections.Generic;
  3. using System.ComponentModel;
  4. using System.Data;
  5. using System.Drawing;
  6. using System.Linq;
  7. using System.Text;
  8. using System.Windows.Forms;

  9. using System.IO;
  10. using System.Net;

  11. namespace ExcelHelpTaskPane
  12. {
  13.     public partial class Form5 : Form
  14.     {
  15.         public Form5()
  16.         {
  17.             InitializeComponent();
  18.         }

  19.         //根据Url地址得到网页的html源码   
  20.         private string GetWebContent(string Url)
  21.         {
  22.             string strResult = "";
  23.             try
  24.             {
  25.                 HttpWebRequest request = (HttpWebRequest)WebRequest.Create(Url); //声明一个HttpWebRequest请求   
  26.                 request.Timeout = 30000; //设置连接超时时间   
  27.                 request.Headers.Set("Pragma", "no-cache");
  28.                 HttpWebResponse response = (HttpWebResponse)request.GetResponse();
  29.                 Stream streamReceive = response.GetResponseStream();
  30.                 Encoding encoding = Encoding.GetEncoding("GB2312");
  31.                 StreamReader streamReader = new StreamReader(streamReceive, encoding);
  32.                 strResult = streamReader.ReadToEnd();
  33.             }
  34.             catch
  35.             {
  36.                 MessageBox.Show("出错");
  37.             }
  38.             return strResult;
  39.         }

  40.         private void button1_Click(object sender, EventArgs e)
  41.         {
  42.             Microsoft.Office.Interop.Excel.Range cel = Globals.ThisAddIn.Application.ActiveCell;
  43.             try
  44.             {
  45.                 //要抓取的URL地址  
  46.                 string Url = "http://list.mp3.baidu.com/topso/mp3topsong.html?id=1#top2";
  47.                 //得到指定Url的源码  
  48.                 string strWebContent = GetWebContent(Url);
  49.                 //取出和数据有关的那段源码  
  50.                 int iBodyStart = strWebContent.IndexOf("<body", 0);
  51.                 int iStart = strWebContent.IndexOf("歌曲TOP500", iBodyStart);
  52.                 int iTableStart = strWebContent.IndexOf("<table", iStart);
  53.                 int iTableEnd = strWebContent.IndexOf("</table>", iTableStart);
  54.                 string strWeb = strWebContent.Substring(iTableStart, iTableEnd - iTableStart + 8);
  55.                 //生成HtmlDocument  
  56.                 WebBrowser webb = new WebBrowser();
  57.                 webb.Navigate("about:blank");
  58.                 HtmlDocument htmldoc = webb.Document.OpenNew(true);
  59.                 htmldoc.Write(strWeb);
  60.                 HtmlElementCollection htmlTR = htmldoc.GetElementsByTagName("TR");
  61.                 int n = 0;
  62.                 foreach (HtmlElement tr in htmlTR)
  63.                 {
  64.                     n++;
  65.                     cel.Cells[n, 1].Value = tr.GetElementsByTagName("TD")[0].InnerText;
  66.                     cel.Cells[n, 2].Value = tr.GetElementsByTagName("TD")[1].InnerText;
  67.                     cel.Cells[n, 4].Value = tr.GetElementsByTagName("TD")[2].InnerText;
  68.                     cel.Cells[n, 5].Value = tr.GetElementsByTagName("TD")[3].InnerText;
  69.                     cel.Cells[n, 7].Value = tr.GetElementsByTagName("TD")[4].InnerText;
  70.                     cel.Cells[n, 8].Value = tr.GetElementsByTagName("TD")[5].InnerText;
  71.                 }
  72.             }
  73.             catch (Exception exception)
  74.             {
  75.                 MessageBox.Show(exception.Message);
  76.             }
  77.         }
  78.     }
  79. }
复制代码

TA的精华主题

TA的得分主题

 楼主| 发表于 2016-1-9 09:23 | 显示全部楼层
VBA万岁 发表于 2016-1-8 20:49
测试成功,主要代码如下:

附上制作测试源码: ExcelHelpTaskPane.rar (619.47 KB, 下载次数: 6)

TA的精华主题

TA的得分主题

发表于 2016-1-9 19:31 | 显示全部楼层
支持一下,建议看看HtmlAgilityPack,网上有许多例子,数据提取很方便。
一个提取天气预报的例子:http://www.cnblogs.com/asxinyu/p ... h_Weather_Data.html

评分

1

查看全部评分

您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-11-23 22:59 , Processed in 0.038020 second(s), 10 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表