Авторизация | Регистрация нового пользователя

> > >

Новости ИТ-бизнеса

27.02.2026
Dell виводить на ринок герметичний сервер PowerEdge XR9700

26.02.2026
Vodafone Україна запустив сьомий курс з підготовки фахівців Data Science

26.02.2026
Rakuten Viber анонсував функцію швидкого поліпшення тексту на базі ШІ

26.02.2026
Укртелеком приєднався до європейської телеком-спільноти ETIS

25.02.2026
Держспецзв’язку кардинально змінює систему реагування на кіберзагрози

Другие новости

Современные решения

Взгляд ЕМС на дедупликацию данных при резервном копировании

Решения EMC для работы в средах мейнфреймов

Novell ZENworks Configuration Management

Другие решения

Інфраструктурні рішення

	Версия для печати
	Версия для печати с изображениями
	Отправить ссылку
	Поместить в блог
	Добавить комментарий
	Написать в редакцию
	Подписаться на рассылки

ИИ переходит от сбора данных к созданию алгоритма

Автор: Алекс Сидоров

08.04.2019

Складывается впечатление, что с каждым днем мы слышим все больше разговоров о высоком потенциале искусственного интеллекта (ИИ) и машинного обучения (МО). Чем большую известность приобретает ИИ, тем больше появляется рассказов о его применении или потенциальном, будущем применении. Но есть вещи, о которых не принято говорить.

1. Аннотирование

Если, например, найти с помощью Google изображения улиц и обработать их посредством алгоритма автономного транспортного средства, результат, вероятно, не позволит предпринять никаких действий. Потребуется человек, который перед передачей данных модели составит аннотации данных или создаст метки. На каждой фотографии человеку необходимо будет пометить обочины дороги, каждый пожарный гидрант и телефонный столб, каждого человека и многое другое.

Для создания модели автономного транспортного средства организация, вероятно, захочет пойти дальше, чем позволяют сделанные человеком аннотации или метки. Она может воспользоваться семантической сегментацией, при которой каждый пиксел изображения получает метку. Если модель должна делать нечто столь важное, как управление транспортным средством, необходимо, чтобы ИИ знал об обстановке как можно больше.

Процесс аннотирования особенно важен для обеспечения качества и точности данных. Поэтому используемые для аннотирования инструменты должны адекватно применять человеческий интеллект. Еще до расстановки меток организации захотят в первую очередь подумать над своими подходами к сбору данных.

2. Дополнение данных

При отсутствии совершенного набора данных для вашего алгоритма обычно производится пополнение имеющегося набора данными. Рассмотрим модель для распознавания речи (такую, как Alexa или Siri). Если получить из студии звукозаписи чистые звуки, алгоритм может столкнуться с трудностями в реальном мире. Поскольку модель обучена распознавать чистые звуки в стерильном окружении, она сможет не воспринимать голосовое управление, засоренное шумами или помехами. К счастью, можно сделать данные более реалистичными, если создать для чистых данных шумовой фон с помощью дополненных данных.

3. Перенос обучения

Если вы пытаетесь создать алгоритм МО для коммерческого приложения, велика вероятность, что набора данных для вашего случая не существует. Рассмотрим модель для выявления рака с помощью рентгеновского аппарата. Общедоступных снимков больных, вероятно, будет немного. Перенос обучения позволяет использовать имеющиеся модели. Возможно, удастся использовать имеющуюся модель, обученную правилам распознавания границ объектов на уровне пикселов и общей идентификации компонентов изображений на других наборах данных.

Вместо того, чтобы обучать свою модель на миллионах изображений, вы можете удалять слои имеющейся модели, пока не достигнете подходящей точки отсчета. Затем обработать ее по алгоритму, который идентифицирует определенные пикселы. Можно переобучить модель для лучшего распознавания тонкостей рентгеновских снимков. В процессе переобучения вы разработаете подходящую для вашего случая нейронную сеть.

4. Итерации

Хотя это трудно себе представить, но можно запросто собрать слишком много данных. При обучении модели самое правильное — работать итеративно. Если у вас 1 тыс. рентгеновских снимков, используйте их в первую очередь. Обучив модель, вы будете увидите, работает она или нет. Допустим, вашей целью является 85%-ная точность. Если вы этого уже добились, нет нужды собирать дополнительные данные.

Даже если у вас нет доступа к большому набору данных, лучше всего создавать модель итеративно. Возьмем данные, для которых необходимо составить аннотации или создать метки. Вы можете использовать имеющиеся данные с метками для обучения модели, которая сама разметит дополнительные данные. Когда вы пропустите размеченные данные через модель, та создаст собственную нейронную сеть и, в конечном итоге, повысит степень достоверности вашего алгоритма.

Модель может разметить одно изображение со степенью достоверности 20%, а другое — 80%. Изображения с достоверностью разметки ниже определенного порога следует передать людям для аннотирования или расстановки меток, а затем обучить модель на правильно размеченных данных.

5. Постановка цели

Главная из стоящих перед компаниями проблем с данным заключается в том, что они не знают, как их лучше всего использовать. Одна компания пыталась прогнозировать цены акций. Например, когда речь шла об Apple, были собраны все возможные данные о связанных с этой корпорацией настроениях. В конечном итоге выяснилось, что для более точного прогноза следовало учесть данные, характеризующие не только Apple, и что сбор различных типов данных давал более стабильный алгоритм долгосрочного прогноза.

Компаниям следует в первую очередь поставить перед собой цель понять, что они собираются создать с помощью данных. Если бы мы заранее поставили перед собой такую цель, мы могли бы с самого начала создать более точную модель. Определив цель, вы получите систему отсчета, которую сможете использовать при разработке стратегий и реализации инициатив в области ИИ.

Со временем специфика ваших данных и проблемы, которые вы пытаетесь решить, изменятся. Но если вы знаете, какого состояния хотите достичь, то сможете разработать необходимые для этого инструменты и алгоритмы. При использовании названных инструментов для создания моделей возрастает вероятность, что ваши проекты будут более эффективными, точными и экономичными.

Поместить в блог

<table border="0" width="75%" style="margin:10px; border:2px solid #036; background-color:#FFF;"><tr><td align="right"><a href="http://www.pcweek.ua" target="_blank"><img src="http://www.pcweek.ua/images/pcweek/logo-blog.gif" style="width:100px; height:30px; border:0;" alt="PC Week/UE"></a></td></tr><tr><td><a href="http://www.pcweek.ua/themes/detail.php?ID=158570" target="_blank"><img src="http://www.pcweek.ua/upload/iblock/048/Artif_intelligence070.jpg" alt="Открыть материал" style="width:70px; height:50px; border:1px solid #000; float:left; margin:0 5px 5px 0;"></a><a href="http://www.pcweek.ua/themes/detail.php?ID=158570" target="_blank" style="font:14px Arial; color:#000; text-decoration:none; font-weight:bold;">ИИ переходит от сбора данных к созданию алгоритма</a><br><a href="http://www.pcweek.ua/themes/detail.php?ID=158570" target="_blank" style="font:12px Arial; color:#000; text-decoration:none;">Главная из стоящих перед компаниями проблем с данным заключается в том, что они не знают, как их лучше всего использовать. Одна компания пыталась прогнозировать цены акций...</a></td></tr><tr><td align="right"><a href="http://www.pcweek.ua/themes/detail.php?ID=158570" target="_blank" style="font:12px Arial;">Открыть материал</a></td></tr></table>

Комментарии к статье

Статьи по теме

D-Link презентувала лінійку мобільних точок доступу з підтримкою 5G

Флагман серії F530 5G NR AX3000 оснащений 2,4-дюймовим сенсорним дисплеєм для керування пристроєм і додатковим слотом для карт пам’яті microSD. Модель забезпечує швидкість завантаження даних у мобільних мережах до 7 Гбіт/с...

IBM анонсує нові системи зберігання даних серії FlashSystem

Максимальна продуктивність систем становить приблизно 2,6; 4,3 та 6,3 млн IOPS відповідно. За даними IBM, нові моделі забезпечують до 40 % вищу щільність зберігання даних порівняно з попереднім поколінням...

D-Link оновила лінійку смарткомутаторів DGS-1250

За даними виробника, пристрої серії DGS-1250 займають проміжну нішу між некерованими комутаторами та повноцінними L3-рішеннями. Вони поєднують гігабітну продуктивність, розширені функції безпеки та спрощене адміністрування мережевої інфраструктури.

Schneider Electric запускає високопотужну зарядку для електромобілів

Система забезпечує потужність до 720 кВт та дозволяє одночасно заряджати до 12 транспортних засобів, відповідаючи зростаючому попиту на електромобілі у Європі...

Dell Technologies оновила лінійку СЗД PowerStore 3200Q і 5200Q

За словами виробника, система з новими накопичувачами забезпечує щільність зберігання 1 Пбайт на один монтажний юніт (U). Також Dell представила нову версію операційної системи PowerStore 4.3...

Форум

Наступило время экспериментов (Noname, 08.04.2016 09:45:00)

Укртелеком в 4 раза снижает стоимость звонков на мобильные (СЕргей, 06.04.2016 19:11:59)

Укравтодор отмечает дорожные работы и перекрытия на Яндекс.Картах (Noname, 05.04.2016 17:30:44)

Яндекс.Карты объявляют конкурс для киевлян (Хтось, 17.02.2016 12:24:08)

Информационная безопасность: в поисках совершенной защиты (Лариса Ершова, 09.11.2015 18:39:47)

Другие темы

Газета PC Week Ukrainian Edition печатается по лицензионному соглашению с компанией Ziff Davis Publishing Inc. Перепечатка материалов допускается только c разрешения редакции. За содержание рекламных объявлений редакция ответственности не несет. Editorial items appearing in PC Week/UE that were originally published in the U.S. edition of PC Week are the copyright property of Ziff Davis Publishing Inc. Copyright 2015 Ziff Davis Inc. All rights reserved. PC Week is trademark of Ziff Davis Publishing Holding Inc.
© 2026 ООО “ПИСИВИК УКРАИНА”. Информация об авторских правах и порядке использования материалов сайта