Skip to content
本页内容目录

采集分组

此分组包含采集内容时常用的提取操作以及内容处理操作等等。

采集

序号组件功能描述
1Http请求对指定地址进行Http请求获取响应结果或进行文件下载
2文本内容提取通过前后截取、通配符参数组合或纯正则方式提取源字符串中指定的文本内容
3正文/智能提取AI自动分析提取文本内的标题、正文、时间、电话号码、邮箱等信息
4Xpath提取在HTML文本中提取通过XPath选择器提取指定节点内容
5CSS选择器提取在HTML文本中提取通过CSS选择器提取指定节点内容
6JSON提取在JSON文本中提取通过JSON选择器提取指定节点内容
7XML提取在XML文本中提取通过XML选择器提取指定节点内容
8网址/图片地址获取根据配置获取源HTML代码中a标签、img标签内的链接或图片地址
9网址过滤通过包含不包含关键字对网址/图片列表进行筛选过滤
10关键词自动分类通过关键词匹配返回指定分类信息
11HTML标签过滤删除过滤删除处理内容中指定的HTML标签
12拼音/简繁转换对中文文本进行拼音/简繁转换

评论