借助深度学习算法实现5秒内克隆你的声音-电子发烧友网

大家应该都知道声音克隆技术，通俗的来说就是借助深度学习算法，可以完全模拟某个人的声音，而且由机器合成的语音连情绪都能够完美表达出来，基本可以以假乱真，只要不见面，你根本就察觉不出来向你发出声音的知识一个机器。

语音克隆最大的创新之一是减少创建语音所需的原始数据量。过去，该系统需要数十甚至数百小时的音频。但是，今天猿妹要和大家分享的这个工具5秒钟就可以克隆成功，这个工具名叫——MockingBird。

MockingBird已经登上Github热榜，收获3.5K的Star，累计分支 303（Github地址：https://github.com/babysor/MockingBird）

MockingBird具有如下特性：

支持普通话并使用多种中文数据集进行测试

适用于 pytorch，已在 1.9.0 版本（最新于 2021 年 8 月）中测试，GPU Tesla T4 和 GTX 2060

支持 Windows + Linux

仅使用新训练的合成器（synthesizer）就有良好效果，复用预训练的编码器/声码器

MockingBird如何使用

MockingBird的安装要求如下：

首先，MockingBird需要Python 3.7 或更高版本

安装 PyTorch

安装 ffmpeg。

运行pip install -r requirements.txt 来安装剩余的必要包。

安装 webrtcvad 用 pip install webrtcvad-wheels。

接着，你需要使用数据集训练合成器：

下载数据集并解压：确保您可以访问 train 文件夹中的所有音频文件（如.wav）

使用音频和梅尔频谱图进行预处理：python synthesizer_preprocess_audio.py 《datasets_root》可以传入参数 --dataset {dataset} 支持 adatatang_200zh， magicdata， aishell3

预处理嵌入：python synthesizer_preprocess_embeds.py 《datasets_root》/SV2TTS/synthesizer

训练合成器：python synthesizer_train.py mandarin 《datasets_root》/SV2TTS/synthesizer

当你在训练文件夹 synthesizer/saved_models/ 中看到注意线显示和损失满足您的需要时，请转到下一步。

使用预先训练好的合成器，如果没有设备或者不想慢慢调试，可以使用网友贡献的模型。

训练声码器

预处理数据： python vocoder_preprocess.py 《datasets_root》

训练声码器： python vocoder_train.py mandarin 《datasets_root》

启动工具箱

然后你可以尝试使用工具箱：python demo_toolbox.py -d 《datasets_root》

责任编辑：haq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

开源

开源

+关注

关注
3

文章
3348

浏览量
42496
克隆

克隆

+关注

关注
0

文章
22

浏览量
7799
深度学习

深度学习

+关注

关注
73

文章
5503

浏览量
121157

原文标题：5秒内克隆你的声音，并生成任何内容，这个工具细思极恐...还特么的开源~

文章出处：【微信号：AndroidPush，微信公众号：Android编程精选】欢迎添加关注！文章转载请注明出处。

NPU在深度学习中的应用

设计的硬件加速器，它在深度学习中的应用日益广泛。 1. NPU的基本概念 NPU是一种专门针对深度学习算法优化的处理器，它与传统的CPU和G

发表于 11-14 15:17 •565次阅读

AI大模型与深度学习的关系

人类的学习过程，实现对复杂数据的学习和识别。AI大模型则是指模型的参数数量巨大，需要庞大的计算资源来进行训练和推理。深度学习

发表于 10-23 15:25 •727次阅读

用TPA3112设计的一个音频功放威廉希尔官方网站，上电1-3秒后就没有声音输出了，怎么解决？

用TPA3112设计的一个音频功放威廉希尔官方网站输入采用差分的，后来把1个输入接地，变成了单端的了问题很奇怪接信号发生器，上电后，1-3秒内有音频输出，能够听到声音然后就没有声音了 FAULT输出低折腾了很久，望高手指点一二

发表于 10-12 07:17

FPGA做深度学习能走多远？

。FPGA的优势就是可编程可配置，逻辑资源多，功耗低，而且赛灵思等都在极力推广。不知道用FPGA做深度学习未来会怎样发展，能走多远，你怎么看。 A：FPGA 在深度

发表于 09-27 20:53

深度识别算法包括哪些内容

：CNN是深度学习中处理图像和视频等具有网格结构数据的主要算法。它通过卷积层、池化层和全连接层等组件，实现对图像特征的自动提取和识别。应用领域：CNN在图像识别、目标检测、视频分

发表于 09-10 15:28 •382次阅读

深度学习算法在嵌入式平台上的部署

随着人工智能技术的飞速发展，深度学习算法在各个领域的应用日益广泛。然而，将深度学习算法部署到资源

发表于 07-15 10:03 •1396次阅读

深度学习算法在集成威廉希尔官方网站测试中的应用

随着半导体技术的快速发展，集成威廉希尔官方网站（IC）的复杂性和集成度不断提高，对测试技术的要求也日益增加。深度学习算法作为一种强大的数据处理和模式识别工具，在集成威廉希尔官方网站测试领域展现出了巨大的应用潜力。本文将从

发表于 07-15 09:48 •1004次阅读

利用Matlab函数实现深度学习算法

在Matlab中实现深度学习算法是一个复杂但强大的过程，可以应用于各种领域，如图像识别、自然语言处理、时间序列预测等。这里，我将概述一个基本的流程，包括环境设置、数据准备、模型设计、训

发表于 07-14 14:21 •2215次阅读

深度学习中的无监督学习方法综述

应用中往往难以实现。因此，无监督学习在深度学习中扮演着越来越重要的角色。本文旨在综述深度学习中的

发表于 07-09 10:50 •729次阅读

深度学习的基本原理与核心算法

处理、语音识别等领域取得了革命性的突破。本文将详细阐述深度学习的原理、核心算法以及实现方式，并通过一个具体的代码实例进行说明。

发表于 07-04 11:44 •2049次阅读

深度学习模型训练过程详解

深度学习模型训练是一个复杂且关键的过程，它涉及大量的数据、计算资源和精心设计的算法。训练一个深度学习模型，本质上是通过优化

发表于 07-01 16:13 •1268次阅读

基于深度学习的鸟类声音识别系统

具体的软硬件实现点击http://mcu-ai.com/MCU-AI技术网页_MCU-AI 鸟叫声识别在鸟类保护中具有重要意义。通过适当的声音分类，研究可以自动预测该地区的生活质量。如今，深度

发表于 05-30 20:30

深度解析深度学习下的语义SLAM

随着深度学习技术的兴起，计算机视觉的许多传统领域都取得了突破性进展，例如目标的检测、识别和分类等领域。近年来，研究人员开始在视觉SLAM算法中引入深度

发表于 04-23 17:18 •1290次阅读

【技术科普】主流的深度学习模型有哪些？AI开发工程师必备！

深度学习在科学计算中获得了广泛的普及，其算法被广泛用于解决复杂问题的行业。所有深度学习算法都使用

发表于 01-30 15:26 •628次阅读

目前主流的深度学习算法模型和应用案例

深度学习在科学计算中获得了广泛的普及，其算法被广泛用于解决复杂问题的行业。所有深度学习算法都使用

发表于 01-03 10:28 •1956次阅读

搜索历史

借助深度学习算法实现5秒内克隆你的声音

评论