算子库
80+文本长度
按文本长度过滤
语言检测
按语言类型过滤
困惑度
按困惑度分数过滤
特殊字符
过滤特殊字符
词数统计
按词数过滤
清理HTML
移除HTML标签
清理邮箱
移除邮箱地址
清理IP
移除IP地址
标点规范
规范化标点符号
空白字符
规范化空白字符
MinHash
模糊去重
SimHash
近似重复检测
精确匹配
精确去重
文档级
文档级去重
Top-K
选择前K个样本
随机采样
随机抽样
范围选择
按范围选择
100%
拖拽算子到此处构建流水线
连接节点以定义数据处理流程