BERT

BERT pracuje s kontextem v textu zleva u zprava.

Bidirectional Encoder Representations from Transformers (BERT), volně Obousměrné kódovací reprezentace z transformátorů, je velký jazykový model, tedy předtrénovaný základní model pro zpracování přirozeného jazyka (NLP). Je založený na transformerech.[1] Je schopen pracovat s kontextem textu zleva i zprava, tedy v celé větě[2], na rozdíl od GPT, který je autoagresivní model a rozumí jen kontextu zleva.[3][4] Důvodem je sada trénovacích dat, základní model u BERT je maskovaný jazykový model, u GPT se jedná o kauzální jazykový model.[5]

Historie a využití

BERT vytvořil a v roce 2018 zveřejnil Jacob Devlin a jeho kolegové ze společnosti Google.[6][7] V roce 2019 společnost Google oznámila, že začala využívat BERT ve svém vyhledávači,[8] a koncem roku 2020 používala BERT téměř v každém dotazu v anglickém jazyce. Průzkum literatury z roku 2020 dospěl k závěru, že "za něco málo přes rok se BERT stal všudypřítomným základem v experimentech NLP", přičemž napočítal přes 150 výzkumných publikací analyzujících a vylepšujících tento model.[9] BERT je též vědci využíván i v kombinaci s konvolučními neuronovými sítěmi (CNN) pro výzkum nenávistných projevů[10] či detekci emocí.[11]

Způsob fungování

BERT se snaží o kontextové porozumění neoznačeného textu v široké škále úloh tím, že se naučí předvídat text, který může být před a po (obousměrném) jiném textu,[12] což je rozdíl oproti GPT, kde je tok v neuronové síti jednosměrný.[13]

Původní anglickojazyčný BERT má dva modely:[5]

  1. BERTBASE: 12 kódovačů s 12 obousměrnými samočinnými hlavami,
  2. BERTLARGE: 24 kódovačů s 16 obousměrnými samočinnými hlavami.

Oba modely jsou předem natrénovány z neoznačených dat získaných z korpusu BooksCorpus[14] s 800 miliony slov a anglické Wikipedie s 2 500 miliony slov.

Využití je například následující:[12]

  • Určení, zda jsou recenze filmu pozitivní nebo negativní.
  • Pomáhá chatbotům odpovídat na otázky.
  • Pomáhá předvídat text při psaní e-mailu
  • Dokáže rychle shrnout obsah dlouhých textů.
  • Rozlišuje slova, která mají více významů, na základě okolního textu.

Odkazy

Reference

V tomto článku byl použit překlad textu z článku BERT (language model) na anglické Wikipedii.

  1. HOREV, Rani. BERT Explained: State of the art language model for NLP. Medium [online]. 2018-11-17 [cit. 2023-08-19]. Dostupné online. (anglicky) 
  2. Transformer: A Novel Neural Network Architecture for Language Understanding. ai.googleblog.com [online]. 2017-08-31 [cit. 2023-08-20]. Dostupné online. (anglicky) 
  3. MOTTESI, Celeste. GPT-3 vs. BERT: Comparing the Two Most Popular Language Models. blog.invgate.com [online]. [cit. 2023-08-19]. Dostupné online. (anglicky) 
  4. AJAYI, Demi. How BERT and GPT models change the game for NLP [online]. 2020-12-03 [cit. 2023-08-19]. Dostupné online. (anglicky) 
  5. a b KUMAR, Ajitesh. BERT vs GPT Models: Differences, Examples [online]. 2023-08-19 [cit. 2023-08-20]. Dostupné online. (anglicky) 
  6. DEVLIN, Jacob; CHANG, Ming-Wei; LEE, Kenton. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805 [cs]. 2019-05-24. ArXiv: 1810.04805 version: 2. Dostupné online [cit. 2022-10-27]. 
  7. Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing. ai.googleblog.com [online]. [cit. 2022-10-27]. Dostupné online. (anglicky) 
  8. Understanding searches better than ever before. Google [online]. 2019-10-25 [cit. 2023-08-19]. Dostupné online. (anglicky) 
  9. ROGERS, Anna; KOVALEVA, Olga; RUMSHISKY, Anna. A Primer in BERTology: What we know about how BERT works. arXiv:2002.12327 [cs]. 2020-11-09. ArXiv: 2002.12327. Dostupné online [cit. 2022-10-27]. 
  10. https://web.archive.org/web/20230819220049/https://aclanthology.org/2020.semeval-1.271.pdf
  11. ABAS, Ahmed; ELHENAWY, Ibrahim; ZIDAN, Mahinda. BERT-CNN: A Deep Learning Model for Detecting Emotions from Text. Computers, Materials & Continua. 2021, roč. 71, čís. 2, s. 2943–2961. Dostupné online [cit. 2023-08-19]. ISSN 1546-2218. DOI 10.32604/cmc.2022.021671. (anglicky) 
  12. a b BERT Basics: What It Is, Creation, and Uses in AI. h2o.ai [online]. [cit. 2022-10-27]. Dostupné online. 
  13. Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing. ai.googleblog.com [online]. 2018-11-02 [cit. 2023-08-20]. Dostupné online. (anglicky) 
  14. ZHU, Yukun; KIROS, Ryan; ZEMEL, Richard. Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books. arXiv:1506.06724 [cs]. 2015-06-22. ArXiv: 1506.06724. Dostupné online [cit. 2022-10-27]. 

Média použitá na této stránce

Language model context understanding.jpg
Autor: Cepice, Licence: CC BY-SA 4.0
Chápání kontextu u jazykového modelu