Skip to content
本页内容目录

文本内容提取

🚩【组件功能】:通过前后截取、通配符参数组合或纯正则方式提取源字符串中指定的文本内容

配置预览

alt 文本内容提取

配置说明

源内容 支持T或# 默认FLOW输入项

进行处理、匹配的对象,若为空,以上一个组件的输出为源内容。

提取方式

前后截取/通配符参数组合/纯正则

前字符串 支持T或#

指定结果字符串的前字符串,作为截取源内容的开始字符,需能准确定位到指定结果字符串,不可匹配到其他字符串,造成处理结果错误。若前字符串中包含可能变化的字符串,使用通配符[*]替代。

后字符串 支持T或#

指定结果字符串的后字符串,作为截取源内容的结束字符,需能明确指定结果字符串的范围。若后字符串中包含可能变化的字符串,使用通配符[*]替代。

匹配内容 支持T或#

使用[参数]代表最终所需的指定结果字符串,用指定结果字符串的前后字符来定位参数,这个前后字符串的写法同前后截取。若前后字符串中包含可能变化的字符串,使用通配符[*]替代。

组合结果 支持T或#

[参数1] [参数2] [参数N]等参数中对应的值是按照匹配内容中的[参数]的位置顺序来匹配。

纯正则表达式 支持T或#

纯正则方式,填写正则表达式从源内容提取结果,“(?<content>?)”表示匹配所有。需注意此方法用到了正则表达式相关知识,需了解正则表达式使用方法,才能熟练使用此功能。

提取结果

循环匹配提取多条:匹配源内容中所有符合截取规律的指定结果字符串,输出至list变量
仅提取第一条单条:仅匹配源内容中第一条符合截取规律的指定结果字符串,输出至string变量

忽略大小写

在执行提取方式时,通过此项确定是否忽略截取字符的大小写。

输入输出

输入类型

字符串(System.String)

输出类型

字符串(System.String)
字符串列表(System.Collections.Generic.List<System.String>)

🏁 上一组件的输出类型如果也是字符串,则可以直接输入到本组件的流变量(FLOW,类型也为字符串),如果不是则不接收,在本组件内任何文本配置区域都可以使用T模式下的 ~flow 或#模式下的FLOW格式直接调用该流变量,流变量FLOW在该组件内可能被修改,本组件完成功能处理后,将结果按字符串(System.String)类型、字符串列表(System.Collections.Generic.List<System.String>)输出到下一组件。

组件依赖

该组件无任何依赖,可以随意安装卸载,可以在流程内任何地方使用,可以理解为火语言的普通静态函数。

支持平台

~win-yes ~mac-yes ~linux-yes

更新历史及框架依赖

组件当前最新版本为 V1.0,暂无版本更新历史,暂无主程序框架依赖要求。

所在组件市场链接:文本内容提取 V1.0

组件同时安装多版本操作提示

➡️ 一个组件存在功能升级及Bug完善后会发布成新更新的版本,比如V1.0, V1.1, V2.0

➡️ 如果在本地以前安装了旧的组件版本,发现了新的组件版本后,可以在线安装新的版本到本地,多个版本可以在本地共存;

➡️ 本地安装有当前组件多个版本时,新编辑的流程内拖拽该组件使用时,都会默认使用组件的最新版本;

➡️ 如果流程中已经保存使用了组件的比较旧版本:

  • 默认不会对用户的应用流程内该组件进行任何操作,使用组件旧的版本及配置以保证原流程完整功能的正常使用;

  • 用户可以在流程编辑时对存在更新的组件,自行选择确认是否升级切换到较高版本,当切换时,新的组件用户配置信息可能需要您做细节确认以保证功能适用;

    例如:输出日志组件最新版为1.0.1,当前流程使用的版本为1.0.0,在组件名称后点击历史版本下拉列表,选中要更新的版本1.0.1。 alt 组件更新 然后弹出提示框,确定是否更新。 alt 组件更新 成功更新到指定版本后,组件历史版本较旧的版本列表将不再显示,如果更新的版本是该组件的最新版本,则版本选择框整体不再显示。 alt 组件更新

  • 切换到新版本并进行规则保存后,不再提供组件的向下降级,提醒您在进行流程内组件版本的升级时,请确认应用流程规则已进行过保存备份。

➡️ 多段流程使用了组件的多个版本,运行时相互之间不会受到影响;

➡️ 在某些极端情况下,用户开发的相同组件的不同版本可能调用了外部动态链接库的不同版本而未做命名空间隔离,敬请尽量不要在单段流程内使用组件的不同版本。

示例

前后截取

描述

获取文章https://www.huoyuyan.com/help/demo-pages/spider/demo.html的html源码,获取文章发布时间

配置

Http请求请求https://www.huoyuyan.com/help/demo-pages/spider/demo.html获取源码
② 获取文章发布时间,通过分析发布时间在源码中所处位置,确定前字符串为发布于,前字符串在源码中唯一,不会匹配到错误字符,后字符串为</span>,为发布时间结束字符串
③ 发布时间仅有一条,因此选择 仅提取第一条单条alt 文本内容提取

输出结果

alt 文本内容提取

通配符参数组合

描述

组件获取文章https://www.huoyuyan.com/help/demo-pages/spider/demo.html的html源码,提取img图片链接,并补全图片链接

配置

Http请求请求https://www.huoyuyan.com/help/demo-pages/spider/demo.html获取源码
② 获取图片链接,图片有多张,通过分析多张图片共同的前后字符,确定匹配内容为<img src=".[参数]",因要补全链接,因此组合结果中需添加图片前缀为https://www.huoyuyan.com/help/demo-pages/spider[参数1]
③ 图片有多张,因此选择 循环匹配提取多条
④ 输出结果至List变量 alt 文本内容提取

输出结果

alt 文本内容提取

纯正则

描述

组件获取文章https://www.huoyuyan.com/help/demo-pages/spider/demo.html的html源码,提取文章标题

配置

Http请求请求https://www.huoyuyan.com/help/demo-pages/spider/demo.html获取源码
② 获取标题,运用正则表达式相关知识,确定纯正则表达式为<title>(?<content>[\s\S]*)</title>
③ 标题仅有一条,因此选择 仅提取第一条单条

alt 文本内容提取

输出结果

alt 文本内容提取

评论