Чистые данные можно описать как полные, точные, релевантные, актуальные, неповрежденные, продублированные только для создания резервных копий наборы данных, таблицы, тома объектного хранение или базы данных. Обеспечение чистоты данных — важнейшее условие точного анализа. Многие предприятия производят очистку и подготовку данных вручную, что неэффективно. Таков главный вывод опубликованного 17 мая исследования американской компании Trifacta, выпускающей инструменты управления данными. Во всемирном опросе участвовало 294 человек, занимающихся подготовкой данных. Из них 179 — специалисты, готовящие данные для группы бизнес-пользователей и 115 — аналитики, которые готовят и/или анализируют данные для самих себя.

Trifacta хорошо знает этот рынок. Ее платформа подготовки данных помогает аналитикам изучать, оценивать и уточнять данные для анализа и решать крупные проблемы своих предприятий. Опрос компании был призван выявить препятствия на пути использования данных и аналитики в организациях.

Основные выводы таковы:

  • слишком сильная зависимость от ИТ-ресурсов при подготовке данных обходится компаниям в миллиарды долларов. 65% ИТ-специалистов более половины времени уделяют обеспечению качества данных, их очистке или подготовке. Если опираться на сведения компании Glassdoor о размере зарплат и на оценку IDC, согласно которой в мире насчитывается 18 млн. специалистов по ИТ-операциям и управлению, организации тратят на подготовку данных примерно 500 млрд. долл. в год;
  • 59% респондентов (ИТ-специалистов и аналитиков данных) считают, что большинство аналитиков данных в их организациях зависят от ИТ-ресурсов при подготовке данных или доступе к ним;
  • 83% аналитиков утверждают, в случае снижения их зависимости от ИТ могли бы извлечь больше пользы из аналитики;
  • изменения требований бизнес-пользователей многократно увеличивают стоимость подготовки данных. Исследование показало, что аналитики, для которых ИТ-специалисты готовят данные, часто меняют свои первоначальные требования. Вероятно, из-за неожиданностей, которые они обнаруживают в сырых данных. 82% аналитиков сообщили, что регулярно передают ИТ-специалистам новые требования. В их число входят 11% тех, кто делает это всегда;
  • Excel остается главным инструментом подготовки данных. 37% аналитиков и 30% ИТ-специалистов используют электронные таблицы чаще, чем другие инструменты. Trifacta прогнозирует, что подготовка данных вручную с помощью таких инструментов, как Excel, будет и далее сдерживать инициативы в области подготовки данных и получение новых знаний;
  • аналитики признают, что требующая больших затрат времени подготовка данных наносит ущерб их организациям. 58% считают, что затраты времени на обеспечение качества данных или их очистку превышают приносимую организациям пользу;
  • специалисты по данным также тратят слишком много времени на подготовку данных. 92% предпочли бы заниматься аналитикой, а не подготовкой данных. 65% посвящают не менее половины времени подготовке данных для анализа;
  • высок риск утраты важнейших данных. Хотя сегодня компании весьма озабочены защитой данных, 74% аналитиков и 56% ИТ-специалистов признались, что их личные компьютеры являются одним из трех основных мест хранения данных.