WaveNet

WaveNet är en AI-modell för ljud- och talgenerering som utvecklades av DeepMind, ett företag som ägs av Alphabet. Modellen är känd för sin förmåga att generera realistiskt ljud och tal, inklusive olika röster och språk, med hjälp av en neural nätverksarkitektur. WaveNet tränades på stora mängder ljud- och taldata, och använder sig av den här kunskapen för att generera nya ljud och talsekvenser som inte har existerat tidigare.^[1]^[2]

WaveNet har använts i olika sammanhang, till exempel för att skapa röstfunktioner i Google Assistent och förbättra kvaliteten på röstöversättningar. Modellen har även väckt uppmärksamhet för sin förmåga att generera realistiskt ljud och tal, och har använts för att skapa nya röster och ljudeffekter i musikproduktion.^[3]

WaveNet är en del av DeepMinds forskningssatsning kring AI, där man utforskar möjligheterna med tekniken och hur den kan användas på olika områden. Målet med forskningen är att bidra till att utveckla AI på ett ansvarsfullt sätt och att hitta sätt att använda tekniken för att lösa viktiga problem och förbättra människors liv.^[3]^[4]

Referenser

Den här artikeln är helt eller delvis baserad på material från engelskspråkiga Wikipedia, WaveNet, 27 december 2021.

v • r

Differentierbar datoranvändning

General

Differentierbar programmering • Neural Turing maskin • Differentierbar neural dator • Automatisk differentiering • Neuromorf ingenjörskonst • Cable theory • Mönsterigenkänning • Beräkningslärandeteori • Tensorkalkyl

Begrepp

Gradient descent • SGD • Klusteranalys • Regression • Overfitting • Adversary • Attention • Faltning • Förlustfunktioner • Backpropagation • Normalization • Activation • Softmax • Sigmoid • Rectifier • Regularization • Datasets • Augmentation

Programmeringsspråk

Python • Julia

Applikationer

Maskininlärning • Artificiellt neuronnät • Djupinlärning • Numerisk analys • Federerad inlärning • Artificiell intelligens

Hårdvara

IPU • TPU • VPU • Memristor • SpiNNaker

Mjukvarubibliotek

TensorFlow • PyTorch • Keras • Theano

Implementation

Audiovisuellt	AlexNet • WaveNet • Mänsklig bildsyntes • Handskriftsigenkänning • Maskinläsning • Talsyntes • Taligenkänning • Ansiktsigenkänning • AlphaFold • DALL-E

Verbal	Word2vec • Transformator • BERT • NMT • Project Debater • Watson • GPT-2 • GPT-3

Beslutande	Alphago • AlphaZero • Q-learning • SARSA • OpenAI Five • Självkörande bil • MuZero • Action selection • Robot control

Personer

Alex Graves • Ian Goodfellow • Yoshua Bengio • Geoffrey Hinton • Yann LeCun • Andrew Ng • Demis Hassabis • David Silver • Fei-Fei Li

Organisationer

Deepmind • Hi! PARIS • Openai • MIT CSAIL • Mila • Google Brain

Noter

^ ”WaveNet: A generative model for raw audio” (på engelska). www.deepmind.com. https://www.deepmind.com/blog/wavenet-a-generative-model-for-raw-audio. Läst 3 januari 2023.
^ ”WaveNet: A Generative Model for Raw Audi”. Deepmind. 3 januari 2023. Arkiverad från originalet den 27 maj 2017. https://web.archive.org/web/20170527161520/https://deepmind.com/blog/wavenet-generative-model-raw-audio/. Läst 3 januari 2023.
^ [a b] ”What Is Google WaveNet | Speechify” (på amerikansk engelska). speechify.com. 27 juni 2022. https://speechify.com/blog/what-is-google-wavenet/. Läst 3 januari 2023.
^ ”DeepMind's WaveNet Takes on Text-to-Speech”. Technology Review. 3 januari 2023. https://www.technologyreview.com/s/602846/deepminds-wavenet-takes-on-text-to-speech/. Läst 3 januari 2023. ^{[död länk]}

WaveNet

Referenser

Noter

ToC

Trending

Stig Salming

Henrik Schyffert

Magnus Eriksson

Stellan Skarsgård

Birger jarl

Facebook

Nour El Refai

Engelsbergs bruk

Björn Bengtsson

Fagersta

Lo Kauppi

Anna Sahlin

Recent Change