|
在表格中写公式抓取网页中的数据,推荐使用Excel网络函数库的网页抓取公式
GetWebContentById(Url, Element_id, [Encoding], [Method], [Headers])。根据网页元素id查找指定网页Url中的数据。Encoding指网页编码,默认GB2312;Method指访问类型包括GET或POST两种方式,默认GET方式;Headers指请求头,多个Header每一行放置一个,例如Host: open.onebox.so.com
GetWebContentByClassName(Url, Element_id,[Encoding], [Method], [Headers])。根据网页元素的样式class属性查找指定网页Url中的数据。
GetTableByIdW(Url, Table_id)。在Excel表格或WPS表格中,抓取指定网页中某张表格的数据。Url指网页的网址,Table_id指网页中待抓取表格的id。
GetTableByClassNameW(Url, Class_name, [Index])。Url指网页的网址,Class_name指网页中待抓取表格的class名称,由于相同class名称的表格可能有多个,可使用参数Index来标识,默认取第一个表格。
GetXPathW()(Url)其中Url指待抓取网页地址
GetWebContentByXPathW(Url, XPath)其中XPath指的是网页XPath地址,可通过GetXPathW()返回地址。这里不能直接使用Firefox或Chrome浏览器拾取的XPath,存在差异,导致无法正确返回结果。示例:如何查汉字拼音和音标
GetWebContentByIdW(Url, XPath)
GetWebContentByClassNameW(Url, XPath)
GetImgW(Url, Filter)
其中Filter指筛选关键词,如果设置了Filter,那么函数仅返回包含了Filter关键词的图片地址。
GetLinkW(Url, Filter)
其中Filter指筛选关键词,如果设置了Filter,那么函数仅返回包含了Filter关键词的Link地址。
基本原理:先通过GetXPathW()函数与Excel浏览器将待抓取网页的数据下载到本地数据库,再通过数据抓取函数抓取目标数据。这样做的好处是提供数据抓取效率,尤其是一个网页抓取的数据项比较多的情形。
网页数据抓取W系列函数,包括GetXPathW()、GetWebContentByXPathW()、GetWebContentByIdW()、GetWebContentByClassNameW()、GetImgW()、GetLinkW()等函数,其中W指Web browser的简称,指浏览器,W系列函数需要借助Excel浏览器。
|
|