WINWIN AI Center of Excellence при Мінцифрі та оператор Київстар оголосили про старт розробки національної великої мовної моделі (LLM). Модель має стати основою для створення цифрових державних та бізнес-продуктів зі штучним інтелектом, що дозволить покращити послуги для користувачів і підвищить ефективність організацій.

Нагадаємо, що Велика мовна модель (Large Language Model) — це нейромережа, яка працює за принципом людського мозку і здатна аналізувати та генерувати тексти. Моделі використовуються як база для роботи чатботів, AI-асистентів тощо.

«Створення української LLM — важливий крок до лідерства України у сфері ШІ. Ми як держава зможемо створювати зручні AI-сервіси для громадян і зробимо штучний інтелект помічником уряду. При цьому цей ШІ буде якісним та безпечним для громадян. Так AI стане частиною оборони, освіти, науки та інших стратегічних сфер. З іншого боку, національна LLM дозволить бізнесу створювати інноваційні продукти — дешевші, безпечніші й адаптовані до українського контексту. Для реалізації цього амбітного проєкту ми об'єднуємо зусилля Мінцифри з Київстар. Це приклад ефективного партнерства, коли провідний бізнес долучається до створення рішень національного масштабу», — зазначив Михайло Федоров, Віцепрем'єр-міністр з інновацій, розвитку освіти, науки та технологій — Міністр цифрової трансформації.

Мінцифра координуватиме процес розробки моделі та формуватиме технологічну й етичну візію створення LLM. Зокрема створить усі ключові структури для якісної розробки моделі — координаційний комітет й етичний та технічний борди.

Координаційний комітет відповідатиме за візію і стратегію розробки, до нього ввійдуть представники Мінцифри, зокрема WINWIN AI Center of Excellence, інших профільних державних інституцій, Київстар, технічного та етичного бордів. Етичний борд відстежуватиме відповідність законодавству та етичність моделі, а технічний борд відповідатиме за архітектуру, тренування моделі на даних тощо. Безпосередньою розробкою моделі займатиметься проєктний офіс, сформований компанією Київстар як операційним виконавцем розробки моделі.

Мінцифра також буде забезпечувати збір даних для навчання моделі, для чого залучатиме державні та приватні інституції, як-от університети, профільні спільноти тощо. Важливо, що серед цих даних будуть відсутні персональні дані, дані з реєстрів та будь-яка інша сенситивна інформація. Модель буде натренована на даних з відкритих джерел українською мовою, зібраних у датасетах. Потенційно розглядаємо «Малюк» (113 гігабайтів вичищеного тексту), NER-UK, UA-GEC тощо. Також міністерство залучатиме університети, наукові структури, національні бібліотеки та інтелектуальні фонди до збору даних для тренування моделі.

Стратегічним партнером держави у створенні першої української великої мовної моделі став національний оператор електронних комунікацій Київстар. Компанія активно інвестує в технологічні інновації та цифрові сервіси, має глибоку експертизу та стратегічне бачення в галузі штучного інтелекту, інтегруючи AI-рішення в довгострокову стратегію технологічної трансформації, ефективно поєднуючи передові LLM-моделі та RAG-системи з практичними бізнес-процесами, сервісною підтримкою, аналітикою даних і дотриманням високих етичних та безпекових стандартів. Окрім цього, Київстар має прямий доступ до міжнародної експертизи через материнську компанію VEON, яка вже володіє успішним досвідом реалізації національних AI-проєктів. Це дозволяє Київстар виступити надійним технологічним партнером на етапі пілотного запуску, забезпечивши швидкий старт процесу та якісний фундамент для створення LLM, максимально адаптованої до лінгвістичних рис та культури України.

Київстар виступає операційним виконавцем процесу і формуватиме проєктний офіс для розробки моделі: підбиратиме команду, забезпечить обчислювальні потужності для попереднього навчання (pre-train) української моделі тощо. Також компанія повністю покриває фінансову частину розробки LLM, адже національна LLM розробляється коштом бізнесу без використання державного бюджету.

Після запуску LLM буде перебувати на етапі бета-тестування. Очікується, що під час цього періоду державні, громадські, наукові, освітні та інші організації зможуть завантажити модель і першими спробувати її роботу. Після тестового періоду модель буде передана державі та буде доступна open source.

На базі мовної моделі держава має на меті створення AI-сервісів для громадян та інструментів для оптимізації внутрішніх процесів. У планах Мінцифри та WINWIN AI Center of Excellence — запуск AI-асистента у Дії, AI-інструментів для аналізу нормативно-правових актів та роботи з європейським законодавством, AI-інструментів у Мрії для створення індивідуальних освітніх траєкторій для школярів тощо. Усього це понад 10 продуктів на базі ШІ.

Україномовна LLM надаватиме більш релевантні та точні відповіді для користувачів, ніж глобальні моделі, оскільки буде додатково натренована (pre-trained) на українських даних. Завдяки глибшому розумінню мовної специфіки (діалектів, термінології та контексту) вона краще орієнтуватиметься в багатьох темах, зокрема пов’язаних з українською історією, культурою і суспільним досвідом. Це забезпечить не лише лінгвістичну, а й змістовну точність відповідей.

 

Національна LLM дає змогу зберігати та обробляти дані всередині країни, що стратегічно важливо для використання ШІ в обороні, урядових організаціях, медицині й фінансовому секторі. Так, LLM забезпечить захист персональних даних і національної безпеки України під час інтеграції AI в різні сектори.

 

Ще одна перевага — фінансова. Очікується, що використання українськомовної моделі коштуватиме дешевше для українських користувачів порівняно з англомовними аналогами.

 

Поява українськомовної LLM сприятиме появі нових AI-стартапів, залученню міжнародних інвестицій у країну та підвищуватиме ВВП завдяки розробці AI-рішень для різних секторів економіки.

 

Українськомовна модель буде створена на одному з open-source рішень, без залучення державних коштів. Першу версію моделі планують запустити до грудня 2025 року.