Appearance
采集分组
此分组包含采集内容时常用的提取操作以及内容处理操作等等。
采集
序号 | 组件 | 功能描述 |
---|---|---|
1 | Http请求 | 对指定地址进行Http请求获取响应结果或进行文件下载 |
2 | 文本内容提取 | 通过前后截取、通配符参数组合或纯正则方式提取源字符串中指定的文本内容 |
3 | 正文/智能提取 | AI自动分析提取文本内的标题、正文、时间、电话号码、邮箱等信息 |
4 | Xpath提取 | 在HTML文本中提取通过XPath选择器提取指定节点内容 |
5 | CSS选择器提取 | 在HTML文本中提取通过CSS选择器提取指定节点内容 |
6 | JSON提取 | 在JSON文本中提取通过JSON选择器提取指定节点内容 |
7 | XML提取 | 在XML文本中提取通过XML选择器提取指定节点内容 |
8 | 网址/图片地址获取 | 根据配置获取源HTML代码中a标签、img标签内的链接或图片地址 |
9 | 网址过滤 | 通过包含不包含关键字对网址/图片列表进行筛选过滤 |
10 | 关键词自动分类 | 通过关键词匹配返回指定分类信息 |
11 | HTML标签过滤删除 | 过滤删除处理内容中指定的HTML标签 |
12 | 拼音/简繁转换 | 对中文文本进行拼音/简繁转换 |