百科-青少年科技创新网

当前位置：首页 > 百科> 文章详情

仅凭声音或视频就能确认对方的真实身份？

来源：青少年创新科技网时间：2025-09-03

　　流言：P图容易，模仿口音难，只要口音是本人，就是本人。

　　真相：这种说法不符合当下科技发展情况。

　　近两年，声音克隆的技术模型经过多方、多次迭代升级，在部分开源模型中，几秒钟语音就能生成高度相似的音色，再利用文本转语音技术，就可以通过文本朗读，任意编造“某个人”说话的内容。那么这是怎么做到的，我们又该如何防范呢?

　　这些技术模型很大一部分是开源的，虽然这方便了技术交流，促进了技术进步，但这也意味着“作案工具”唾手可得了。在此基础上，已经有了各种可以直接使用的剪辑APP、网站应用，某些教程甚至宣称“30秒学会”。这样就极大地降低了使用门槛和成本，使得造假合成的音频、视频普及度日益提升。

　　那为什么声音克隆仿真度可以这么高?

　　说话的声音本质上是一种时序信号，或者说是空气分子震动产生的波。也可以简单理解成，每个人的声音都可以分解为不同频率波的叠加，这些频率分布特征就是声纹的重要基础。

　　被麦克风采样输入后，声音会变成一串离散数据点，每个点就是某一时刻空气压力的数值，形成波形。声音的这种数学上的一维结构非常直观，也为算法处理提供了很多便利性。

　　你可以把它想象成一条连续的曲线，许多经典的信号处理技术，如“傅里叶变换”能够非常高效地将这个时域信号分解成不同频率的正弦波和余弦波的叠加。这等于将声音的“配方”给解构了出来，让算法能清晰地“看到”声音的频率组成(音高、音色等)，这是声音分析的一个巨大优势。

　　相比而言，图像和文本的数学化更偏向“抽象”，更复杂，影响因素更多元。比如图像，虽然像素值本身是数字，但要理解如“这是一只猫”，算法需要从像素矩阵中学习和抽象出边缘、角点、纹理，再到“猫的耳朵”“猫的眼睛”等更高层次的概念。这个过程是层层抽象的。而文本的抽象就更加极致。算法必须从零开始学习整个语言体系中符号(词语)所代表的复杂含义和它们之间的关系。而且，和复杂的人脸相比，声音变化维度有限(主要是频率、音高、节奏等)，模型更容易捕捉到核心特征。

　　可以通过这些方法进行辨别：

　　看音画同步：如果一个视频，背景声音听起来像是“某个人”的讲话，但画面完全不同步，或者没有这个人的正脸，嘴巴没有跟着动，就要警惕是否是语音合成，或者移花接木。

　　对口型细节：就算有某个人正脸讲话的视频，还需要观察口型细节是否自然。目前有种视频生成技术叫“对口型”，它可以让人的口型根据所配的音频内容“动”起来，而这项技术也在不断强化。

(科辟)

　　流言：P图容易，模仿口音难，只要口音是本人，就是本人。

　　真相：这种说法不符合当下科技发展情况。

　　那为什么声音克隆仿真度可以这么高?

　　可以通过这些方法进行辨别：

(科辟)