算子库

80+

文本长度

按文本长度过滤

语言检测

按语言类型过滤

困惑度

按困惑度分数过滤

特殊字符

过滤特殊字符

词数统计

按词数过滤

清理HTML

移除HTML标签

清理邮箱

移除邮箱地址

清理IP

移除IP地址

标点规范

规范化标点符号

空白字符

规范化空白字符

MinHash

模糊去重

SimHash

近似重复检测

精确匹配

精确去重

文档级

文档级去重

Top-K

选择前K个样本

随机采样

随机抽样

范围选择

按范围选择

100%

拖拽算子到此处构建流水线

连接节点以定义数据处理流程