OpenRefine – 一款功能强大易于使用的开源数据清理工具

OpenRefine 是一款功能强大、易于使用的开源数据清理工具。它支持 Windows、Linux 和 Mac 多个平台,无需编程经验,即可通过可视化界面轻松完成数据清洗、转换和分析。无论是处理 CSV、Excel 还是其他格式的数据,OpenRefine 都能胜任。

file

特性

  • 清理杂乱数据: 如果处理的是包含半结构化数据的文本文件,可以使用转换、分类和聚类等方法将其编辑成干净的结构化数据。

  • 数据转换: 将值转换为其他格式,进行规范化和反规范化。

  • 从网站解析数据: OpenRefine 具有 URL 获取功能以及 jsoup HTML 解析器和 DOM 引擎。

  • 通过从网络服务(如返回 JSON)获取数据来添加到数据集: 例如,可用于将地址地理编码为地理坐标。

  • 与 Wikidata(以前称为 Freebase)对齐: 这涉及协调 - 将单元格中的字符串值映射到 Wikidata 中的实体。

安装

从源代码运行,下载对应版本后,可以使用以下命令运行 OpenRefine:

Mac OS 和 Linux: ./refine
Windows: refine.bat

这需要 JDK 11 或更高版本、Apache MavenNode.js 18 或更高版本。

官方链接

Comments

No comments yet. Why don’t you start the discussion?

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注