Generative pre-trained transformer

Generative pre-trained transformer (GPT) – rodzaj modelu LLM (Large Language Model), czyli dużego modelu językowego. LLM to rodzaj modelu uczenia maszynowego (Machine Learning), który został wytrenowany na ogromnych zbiorach danych tekstowych i potrafi generować tekst na podstawie podanego mu kontekstu. GPT jest jednym z największych i najbardziej zaawansowanych modeli LLM. Pierwszy model GPT został przedstawiony przez firmę OpenAI w 2018 roku[1]. Do tej pory OpenAI przedstawiła cztery wersje GPT. Modele GPT są również rozwijane przez inne firmy, takie jak: EleutherAI[2], Cerebras[3].

W uproszczeniu można powiedzieć, że GPT jest programem komputerowym, który przetwarza ogromne ilości tekstu, aby nauczyć się reguł języka. Następnie, gdy dostanie fragment tekstu, potrafi wygenerować sensowne i poprawne gramatycznie kontynuacje zdania, a gdy dostanie zapytanie, potrafi wygenerować sensowne odpowiedzi[4]. Model GPT był trenowany na różnorodnych źródłach danych, w tym na artykułach z Wikipedii, artykułach prasowych i różnorodnych tekstach z internetu[4].

Tym, co odróżnia GPT od innych rozwiązań LLM jest fakt, że model może być trenowany metodą uczenia nienadzorowanego. Dzieje się tak w pierwszej fazie treningu. W kolejnej fazie model jest trenowany metodą nadzorowaną, ale skupioną na konkretnych zastosowaniach[1].

GPT jest modelem opartym na sieciach neuronowych (artificial neural networks) typu Transformer, które zostały specjalnie zaprojektowane do przetwarzania sekwencji danych, takich jak tekst[1]. Sieci neuronowe są matematycznymi modelami, które próbują naśladować sposób działania ludzkiego mózgu, dzięki czemu potrafią uczyć się na podstawie przykładów i przetwarzać duże ilości danych. W przypadku GPT, sieci neuronowe są wykorzystywane do trenowania modelu językowego na dużym zbiorze danych tekstowych.

Jednym z najbardziej znanych zastosowań modelu GPT jest aplikacja ChatGPT udostępniona przez OpenAI.

Rozwój modeli GPT

Kolejne generacje modeli GPT wprowadzały liczne ulepszenia oraz zwiększały ich zdolności, co pozwoliło na ich szerokie zastosowanie w dziedzinach takich jak przetwarzanie języka naturalnego, analiza danych czy tworzenie syntetycznych tekstów.

GPT-1, pierwszy model z serii, został wydany w 2018 roku. GPT-1 jako pierwszy model w serii GPT zastosował innowacyjne podejście do uczenia nienadzorowanego i uczenia transferowego. Umożliwiło to generowanie tekstów o większej spójności i zrozumiałości w porównaniu do wielu wcześniejszych modeli przetwarzania języka naturalnego, co stanowiło istotny krok w rozwoju sztucznej inteligencji opartej na NLP.

GPT-2 zostało wydane w lutym 2019 roku, a GPT-3 w czerwcu 2020 roku.

Kolejne wersje wprowadzały fundamentalne zmiany w architekturze i usprawnienia względem GPT-1, takie jak: zwiększenie liczby parametrów (co pozwoliło na lepsze modelowanie języka), oraz wytrenowanie na znacznie większym i bardziej zróżnicowanym zbiorze danych (dzięki czemu modele były w stanie lepiej generalizować i radzić sobie z różnorodnymi zadaniami związanymi z przetwarzaniem języka naturalnego).

Postęp w rozwoju modelu GPT-3 pozwolił na przełom w postaci nabycia przez model umiejętności wykonywania prostych zadań arytmetycznych, w tym tworzenia fragmentów kodu i wykonywania zadań wymagających pewnego poziomu inteligencji[5]. GPT-4, najnowsza generacja modeli GPT, została udostępniona 14 marca 2023 roku. Nowszy model charakteryzuje się o 82% niższym prawdopodobieństwem udzielenia odpowiedzi na żądania użytkowników dotyczących treści niedozwolonych oraz o 40% większym prawdopodobieństwem przedstawienia odpowiedzi zgodnych z faktami w porównaniu z modelem GPT-3.5[6].

Postęp i złożoność kolejnych wersji modelu GPT obrazuje tabela:

Model Parametry Warstwy dekodera Rozmiar kontekstu tokenów Warstwa ukryta Rozmiar partii
GPT-1 117 milionów 12 512 768 64
GPT-2 1,5 miliarda 48 1024 1600 512
GPT-3 175 miliardów 96 2048 12 288 3,2 mln
GPT-4 1 bilion[potrzebny przypis] 768 8192 do 32 768 49 152 Nieznany

Przypisy

  1. a b c Improving Language Understanding by Generative Pre-Training.
  2. EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J. [dostęp 2023-04-08]. (ang.).
  3. Cerebras Systems Releases Seven New GPT Models Trained on CS-2 Wafer-Scale Systems.
  4. a b GPT-3: Its Nature, Scope, Limits, and Consequences. „Minds & Machines”. 30, 681–694, 2020. DOI: 10.1007/s11023-020-09548-1. 
  5. ChatGPT – historia i wersje [online], Wszystko O ChatGPT [dostęp 2023-04-17]  (pol.).
  6. GPT-4 [online], openai.com [dostęp 2023-04-17]  (ang.).

Linki zewnętrzne

  • Andrej Karpathy: State of GPT. Microsoft Build. (wideo)
  • But what is a GPT? Visual intro to transformers | Chapter 5, Deep Learning w serwisie YouTube