При анализе больших данных прежде всего необходимо выделить в них признаки — наиболее ценные для анализа или прогноза элементы, но пока при выборе признаков специалистам, как правило, приходится полагаться на собственную интуицию. Исследователи из Массачусетского технологического института попытались применить для решения этой задачи методы краудсорсинга. Они разработали систему FeatureHub, с помощью которой специалисты могут ознакомиться с данными и предложить свои варианты выбора признаков. Затем система автоматически пробует строить прогнозы на основе различных комбинаций этих признаков. В эксперименте 32 специалистам предложили две задачи с конкурса по анализу данных Kaggle. Качество полученных системой моделей по 100-балльной шкале оказалось всего на три и на пять баллов хуже, чем моделей, победивших в конкурсе. Но участники конкурса работали над задачами в течение недель и месяцев, тогда как каждому из специалистов было выделено на работу с FeatureHub всего пять часов, а в целом решение заняло несколько дней. Авторы надеются, что в будущем этот метод удастся применить в более крупном масштабе.

В МТИ разработали систему для коллективного анализа больших данных
Источник: MIT