В Google обновили и выпустили под новым названием программную систему с открытым кодом для очистки, анализа и преобразования наборов данных. Изначально инструментарий носил название Freebase Gridworks, а новый вариант выпущен под именем Google Refine 2.0. Разработчиком ПО является компания Metaweb, которую Google купила в июле.

Google Refine помогает извлекать полезную информацию из наборов данных, которые могут содержать неточности. Например, приложение находит все варианты написания одного и того же слова и заменяет их на верный вариант.

Эксперты отмечают, что преимуществом Gridworks является универсальность — система штатно поддерживает большое количество типов данных. В Google Refine имеется язык выражений для анализа наборов данных. Он позволяет с помощью фильтров изолировать подмножества данных, которые затем можно изменять с помощью команд преобразования. ПО работает с простыми текстовыми файлами, разбитыми на столбцы с помощью запятых. 

В Google Refine 2.0 специалисты Google добавили возможность подключения записей к внешним базам данных и реализовали ряд новых выражений и команд преобразования.

Поделитесь материалом с коллегами и друзьями