WaveNet

WaveNet är en AI-modell för ljud- och talgenerering som utvecklades av DeepMind, ett företag som ägs av Alphabet. Modellen är känd för sin förmåga att generera realistiskt ljud och tal, inklusive olika röster och språk, med hjälp av en neural nätverksarkitektur. WaveNet tränades på stora mängder ljud- och taldata, och använder sig av den här kunskapen för att generera nya ljud och talsekvenser som inte har existerat tidigare.[1][2]

WaveNet har använts i olika sammanhang, till exempel för att skapa röstfunktioner i Google Assistent och förbättra kvaliteten på röstöversättningar. Modellen har även väckt uppmärksamhet för sin förmåga att generera realistiskt ljud och tal, och har använts för att skapa nya röster och ljudeffekter i musikproduktion.[3]

WaveNet är en del av DeepMinds forskningssatsning kring AI, där man utforskar möjligheterna med tekniken och hur den kan användas på olika områden. Målet med forskningen är att bidra till att utveckla AI på ett ansvarsfullt sätt och att hitta sätt att använda tekniken för att lösa viktiga problem och förbättra människors liv.[3][4]

Referenser

Den här artikeln är helt eller delvis baserad på material från engelskspråkiga Wikipedia, WaveNet, 27 december 2021.
v  r
Differentierbar datoranvändning
General
Differentierbar programmering Neural Turing maskin Differentierbar neural dator Automatisk differentiering Neuromorf ingenjörskonst Cable theory Mönsterigenkänning Beräkningslärandeteori Tensorkalkyl
Begrepp
Gradient descent SGD Klusteranalys Regression Overfitting Adversary Attention Faltning Förlustfunktioner Backpropagation Normalization Activation Softmax Sigmoid Rectifier Regularization Datasets Augmentation
Programmeringsspråk
Python Julia
Applikationer
Maskininlärning Artificiellt neuronnät Djupinlärning Numerisk analys Federerad inlärning Artificiell intelligens
Hårdvara
IPU TPU VPU Memristor SpiNNaker
Mjukvarubibliotek
TensorFlow PyTorch Keras Theano
Implementation
Audiovisuellt
Verbal
Word2vec Transformator BERT NMT Project Debater Watson GPT-2 GPT-3
Beslutande
Alphago AlphaZero Q-learning SARSA OpenAI Five Självkörande bil MuZero Action selection Robot control
Personer
Alex Graves Ian Goodfellow Yoshua Bengio Geoffrey Hinton Yann LeCun Andrew Ng Demis Hassabis David Silver Fei-Fei Li
Organisationer
Deepmind Hi! PARIS Openai MIT CSAIL Mila Google Brain

Noter

  1. ^ ”WaveNet: A generative model for raw audio” (på engelska). www.deepmind.com. https://www.deepmind.com/blog/wavenet-a-generative-model-for-raw-audio. Läst 3 januari 2023. 
  2. ^ ”WaveNet: A Generative Model for Raw Audi”. Deepmind. 3 januari 2023. Arkiverad från originalet den 27 maj 2017. https://web.archive.org/web/20170527161520/https://deepmind.com/blog/wavenet-generative-model-raw-audio/. Läst 3 januari 2023. 
  3. ^ [a b] ”What Is Google WaveNet | Speechify” (på amerikansk engelska). speechify.com. 27 juni 2022. https://speechify.com/blog/what-is-google-wavenet/. Läst 3 januari 2023. 
  4. ^ ”DeepMind's WaveNet Takes on Text-to-Speech”. Technology Review. 3 januari 2023. https://www.technologyreview.com/s/602846/deepminds-wavenet-takes-on-text-to-speech/. Läst 3 januari 2023. [död länk]