Клонирование голоса – это когда компьютерная программа создает синтетическую адаптируемую копию голоса человека.

На основе записи речи какого-либо человека приложение может затем воспроизвести голос, произнося любые слова или предложения, которые вы вводите на клавиатуре. Притом программа может улавливать не только акцент, но и его тембр, высоту звука, темп, ход речи и ваше дыхание.

Клонированный голос можно настроить для отображения любых эмоций, таких как гнев, страх, счастье, любовь или скука. Для создания качественной копии чьего-то голоса программе требуется запись чьей-либо речи продолжительностью всего 10 минут.

По словам экспертов, когда искусственный интеллект анализирует человеческий голос, он определяет многие его характеристики, например, такие как тембр, высота и интенсивность. Дополнительно он изучает множество других особенностей, которые не столь очевидны на первый взгляд.

С одной стороны, все более искусное клонирование голоса имеет очевидный коммерческий потенциал. Но с другой все больше людей опасается, что его могут использовать киберпреступники с целью обмана. Такое клонирование голоса называется «дипфейком». Эксперты по кибербезопасности уверяют, что синтезированные голоса создают «огромный риск для безопасности».

Мы уже знаем, что мошенники пытаются обмануть нас с помощью писем по электронной почте или текстовых сообщений, и потому с недоверием относимся к таким вещам. Однако разговор по телефону с людьми, которым ты доверяешь, был одним из наиболее надежных способов убедиться в том, что ты действительно говоришь со знакомым человеком.

С появлением голосового дипфейка ситуация изменилась. Так, в 2019 году одного британского менеджера при помощи голосового клонирования вынудили перевести 220 тысяч евро мошенникам, которые использовали клонированную копию голоса его начальника.

Правительства разных стран и правоохранительные органы уже начали заниматься этим вопросом. В прошлом году Европол, правоохранительный орган Европейского Союза, призвал государства-члены сделать «значительные инвестиции» в технологии, которые помогут обнаруживать дипфейки. А в США Калифорния запретила их использование в политических кампаниях.

И первые инструменты для анализа голосовых фейков уже созданы. Такие приложения могут отслеживать звук, чтобы определить, является ли он фальшивым, также выявлять некоторые контрольные признаки, такие как повторение, цифровой шум и использование определенных фраз или слов.