Інструменти для резюмування новин на базі ШІ часто створюють неточні або оманливі підсумки, причому 51% відповідей містять суттєві помилки. Про це говорить опубліковане дослідження BBC.
Дослідження було сфокусоване на сервісах ChatGPT від OpenAI, Copilot від Microsoft, Gemini від Google і Perplexity, оцінюючи їхню здатність надавати «точні відповіді на запитання про новини, а також те, чи їхні відповіді точно відображають новини BBC, які використовуються в якості джерел». Асистентам надали доступ до веб-сайту BBC на час проведення дослідження і поставили 100 запитань про новини, запропонувавши їм, де це можливо, використовувати в якості джерел статті з новин BBC News. Як виявилося:
-
- 51% усіх відповідей ШІ на запитання про новини були оцінені як такі, що мають суттєві проблеми в тій чи іншій формі.
-
- 19% відповідей ШІ, які цитували матеріали Бі-Бі-Сі, містили фактичні помилки - неправильні фактичні твердження, цифри та дати.
-
- 13% цитат, взятих зі статей ВВС, були або змінені порівняно з першоджерелом, або не були присутні в цитованій статті.
Притому 34 відсотки відповідей Gemini, 27 відсотків Copilot, 17 відсотків Perplexity і 15 відсотків ChatGPT були оцінені як такі, що мають значні проблеми з тим, як вони представляють контент Бі-Бі-Сі, використаний як джерело. Найпоширенішими проблемами були фактичні неточності, джерела та відсутність контексту.
Дослідники вважають, що подібне функціонування штучного інтелекту може підірвати і без того крихку віру людей у факти та перевірену інформацію. Дослідження оголює слабкі сторони генеративного ШІ в узагальненні контенту. Навіть маючи прямий доступ до інформації, про яку їх запитують, ці чат-боти все одно регулярно витягують «факти» з повітря.















