¥
立即购买

根据数据集特征和清理需求,自动生成可执行的Python脚本,精准检测并处理缺失值,支持多种数据类型和清理策略,高效完成数据预处理,为后续分析和建模提供可靠基础。

免费试用多模型对比变量与模板化文本输出
完整提示词模板
¥25.00

提示词变量

正在加载表单组件...

提示词生成结果

📝
暂无试用结果

变量说明

  • 数据集特征
    待处理数据集的特征描述
    示例:“数据集包含10万条记录,20个字段,包括数值型(如年龄、收入)、类别型(如城市、产品类型)和文本型(如评论)。缺失值主要集中在‘收入’和‘城市’字段,业务背景是客户分析。”
  • 清理策略
    清理数据集缺失值所采用的策略
    示例:“删除含缺失值的行”
  • 输出脚本语言
    输出清理脚本所使用的编程语言
    示例:“Python”
  • 特定字段处理规则
    针对特定字段的个性化缺失值处理方式
    示例:“字段‘年龄’使用中位数填充,字段‘城市’使用‘未知’标记填充。”
  • 缺失值检测阈值
    处理缺失值时所依据的阈值规则
    示例:“删除缺失率超过50%的列,或仅处理缺失率低于10%的行。”

使用场景案例

  • 电商订单清洗
    电商订单数据以省份+渠道为粒度进行数值中位数填充,类别字段统一众数或‘未知’,关键主键与时间缺失直接删行,并输出双语清洗报告。
  • 医疗记录清洗
    住院就诊数据结合KNN与回归模型进行插补,控制医学合理区间与目标泄露风险,并对高缺失文本列执行删除,输出完整清洗摘要。
  • 物联时序清洗
    物联网分钟级时序对数值传感器用限窗插值并辅以前后向填充,类别状态统一‘未知’,关键索引缺失删行,产出设备级质量报告。