OpenRefine 是一款功能强大、易于使用的开源数据清理工具。它支持 Windows、Linux 和 Mac 多个平台,无需编程经验,即可通过可视化界面轻松完成数据清洗、转换和分析。无论是处理 CSV、Excel 还是其他格式的数据,OpenRefine 都能胜任。
特性
-
清理杂乱数据: 如果处理的是包含半结构化数据的文本文件,可以使用转换、分类和聚类等方法将其编辑成干净的结构化数据。
-
数据转换: 将值转换为其他格式,进行规范化和反规范化。
-
从网站解析数据: OpenRefine 具有 URL 获取功能以及 jsoup HTML 解析器和 DOM 引擎。
-
通过从网络服务(如返回 JSON)获取数据来添加到数据集: 例如,可用于将地址地理编码为地理坐标。
-
与 Wikidata(以前称为 Freebase)对齐: 这涉及协调 - 将单元格中的字符串值映射到 Wikidata 中的实体。
安装
从源代码运行,下载对应版本后,可以使用以下命令运行 OpenRefine:
Mac OS 和 Linux: ./refine
Windows: refine.bat
这需要 JDK 11 或更高版本、Apache Maven 和 Node.js 18 或更高版本。