一、比较知名的工具(非完全免费)
-
Trifacta:Trifacta:是一种自动数据质量检测和数据预处理工具,它使用机器学习算法来自动识别数据中的潜在问题,并建议数据清理操作。
-
Talend Data Quality:Talend Data Quality是一种数据质量和数据清理工具,它使用机器学习算法来自动识别数据中的问题,并提供数据清理操作和数据验证功能。
-
Google Data Quality Scanner:Google Data Quality Scanner是一种基于机器学习的数据质量检测工具,它可以检测数据中的缺失值、异常值、重复值等问题,并提供数据清理建议。
-
IBM Watson Knowledge Catalog:IBM Watson Knowledge Catalog是一种数据管理平台,它使用机器学习算法来自动识别数据中的问题,并提供数据质量评分和数据清理建议。
-
DataRobot:DataRobot是一种自动化机器学习平台,它可以自动训练机器学习模型来检测数据中的潜在问题,并提供数据清理建议。
需要注意的是,这些工具并非完全免费,大多数提供了免费试用版或限制功能的免费版,完整的功能需要付费购买。
二、质量测试工具(免费)
-
Great Expectations:Great Expectations是一个开源的数据质量测试工具,使用了基于机器学习的数据质量自动化工作流程。它可以轻松地对数据进行验证、建模和监控。Great Expectations支持多种数据源,包括CSV、Excel、JSON和SQL数据库。此外,它也可以与Apache Spark和AWS Glue等大数据处理平台集成。
-
DataProfiler:DataProfiler是一个使用机器学习算法进行数据质量测试的开源工具,它可以检查数据集的一致性、完整性、准确性和规范性等方面。DataProfiler还提供了一个可视化的用户界面,可以轻松地查看数据质量报告和摘要信息。此外,它也支持与Jupyter Notebook集成,以便进行更高级的数据分析和可视化。
-
Deequ:Deequ是一个使用机器学习技术进行数据质量测试的开源工具,它是由Amazon Web Services (AWS)开发的。Deequ支持多种数据源,包括CSV、JSON、Apache Parquet和AWS Glue等。它可以检查数据集的完整性、一致性和准确性,并提供了一个可视化的用户界面来查看数据质量报告。