IBM Research, исследовательская организация корпорации IBM, сегодня сообщила о разработке метода, основанного на математическом алгоритме, который уменьшает на два порядка вычислительную сложность, расходы и потребление электроэнергии при анализе качества больших объемов данных. Новый метод поможет предприятиям быстрее и эффективнее извлекать и использовать данные для создания более точных и лучше прогнозирующих моделей.
Исследователи IBM использовали суперкомпьютер, занимающий четвертую позицию в рейтинге самых мощных вычислительных систем в мире – Blue Gene/P, развернутый в научно-исследовательском центре города Юлих, Германия (Forschungszentrum Julich) – для проверки достоверности девяти терабайт данных. Этот суперкомпьютер справился с этой задачей менее чем за 20 минут, причем без ущерба качеству. Для сравнения: на решение подобной задачи при использовании существующей типовой методики на этой же системе уйдет более одного дня. Кроме того, в рекордном эксперименте расход электроэнергии составил всего один процент от обычного уровня энергопотребления этого вычислительного процесса.
Новое достижение было представлено на конференции Общества промышленной и прикладной математики (Society for Industrial and Applied Mathematics, SIAM), проходящей в Сиэтле, штат Вашингтон.
«В мире, где на каждого человека приходится один миллиард транзисторов, и цифра эта продолжает увеличиваться с каждым днем, объемы данных растут беспрецедентными темпами, — отметил доктор Алессандро Куриони (Alessandro Curioni), руководитель группы вычислительных систем исследовательской лаборатории IBM в Цюрихе (IBM Research – Zurich). — Анализ таких громадных массивов постоянно накапливающихся данных является сложнейшей задачей, которую приходится решать в целом ряде прикладных областей науки, техники и бизнеса. Это выдающееся достижение значительно расширяет способность анализировать качество крупных массивов данных с высокими скоростями».
Одним из наиболее критичных и требующих большого объема вычислений факторов в аналитике считается измерение качества данных, показывающее, насколько надежными (или достоверными) являются данные, которые используются при анализе и, также, генерируются аналитической моделью. Во многих прикладных областях, от организации дорожного движения и ведения финансовых операций до управления водными ресурсами, новый метод, разработанный учеными IBM, может проложить путь к созданию более мощных, комплексных и точных моделей с расширенными возможностями прогнозирования.
«Службы, ответственные за управление водными ресурсами, смогут анализировать поступающую в реальном времени картографическую информацию и обработанные геофизические данные для разработки прогнозирующих моделей, которые предсказывают потенциальные проблемы прежде, чем они могут возникнуть. Модели учитывают состояние всех компонентов постоянно расширяющейся инфраструктуры «водного хозяйства» – водопроводных труб, клапанов, вентилей и другой гидротехнической арматуры, пожарных гидрантов, водосборников, счетчиков расхода воды и т.д. Подобное прогнозирование требует анализа огромных объемов данных и выявления закономерностей, связанных с погодными условиями, потреблением воды и сотнями других переменных параметров», - говорят в IBM.
«Определение, насколько типичными или статистически релевантными являются данные, помогает нам оценивать общее качество анализа и указывает на недостатки аналитической модели или скрытые взаимосвязи в данных, — пояснил доктор Костас Бекас из IBM Research Zurich. — Эффективный анализ огромных массивов данных требует разработки нового поколения математических методик, которые направлены на уменьшение вычислительной сложности и, в то же время, могут быть развернуты на современных высокопроизводительных вычислительных платформах с массовым параллелизмом».
Новый метод уменьшает вычислительную сложность и обладает очень хорошими характеристиками масштабируемости, которые позволяет использовать его «на полную мощность» суперкомпьютера JuGene в научно-исследовательском центре города Юлих (Forschungszentrum Julich), с его 72 аппаратными стойками системы IBM Blue Gene/P, 294912 процессорами и пиковой производительностью в один петафлоп.
«В ближайшие годы вычисления на суперкомпьютерах будут снабжать нас уникальными знаниями и предоставлять дополнительные преимущества вместе с новыми технологиями, — подчеркнул профессор, доктор Томас Липперт (Thomas Lippert), руководитель центра высокопроизводительных вычислений в Юлихе, — Краеугольным камнем будущего станут инновационные инструменты и алгоритмы, помогающие нам анализировать громадные объемы данных, которые получены в результате моделирования различных прикладных процессов на самых мощных компьютерах».