搜索教程

网页抓取公式之从网页源码抓取

作者:辉耀软件
阅读量: | 发表日期:2024/1/26 0:00:00

摘要:在Excel表格或WPS表格中,使用正在表达式公式RegexStringW(Url,Rule,Advance,Inde)从指定网页中提取需要的字符(数据)。公式中的W表示Web Browser,指的是该公式需借助Excel浏览器完成数据抓取。

正文:

公式名称:RegexStringW(Url,Rule,Advance,Index)

参数说明:参数Url指待抓取网页的网址;Rule指正则表达式匹配规则,这里使用的是C#.NET支持的正则表达式规则;Advance指是否是高级模式,0表示默认,1表示使用高级模式,即直接输入正则表达式;Index指当匹配结果多个时按顺序返回给定序号(索引)的值,默认为0,表示返回全部,填N表示返回结果中第N个值,如果N大于结果中的数量,则返回最后一个值。


公式名称:GetWebContentByJavaScriptW(Url,Variable_name)

参数说明:参数Url指待抓取网页的网址;Variable_name指网页源码中的JavaScript变量,通常这些变量包含了Json格式的数据。

比如某网站商品详情页的信息,其实都在变量window.__INIT_DATA中。

a3047459-2440-4870-9759-62e076bffe63.png

9d85cb12-3862-4f09-bd91-e7f3408bdfdc.png


相关附件