Paano Gamitin ang mga Tokenizer sa Hugging Face Transformers?

Paano Gamitin Ang Mga Tokenizer Sa Hugging Face Transformers



Ang Natural Language Processing (NLP) ay gumagana sa raw form ng data. Ang mga modelo ng machine learning ay sinanay sa kumplikadong data, ngunit hindi nila maintindihan ang raw data. Ang raw na anyo ng data na ito ay dapat na may ilang numerical na halaga na nauugnay dito. Tinutukoy ng halagang ito ang halaga at kahalagahan ng salita sa data at sa batayan na ito, isinasagawa ang mga kalkulasyon.

Ang artikulong ito ay nagbibigay ng sunud-sunod na gabay tungkol sa paggamit ng mga Tokenizer sa Hugging Face Transformers.

Ano ang Tokenizer?

Ang Tokenizer ay isang mahalagang konsepto ng NLP, at ang pangunahing layunin nito ay isalin ang hilaw na teksto sa mga numero. Mayroong iba't ibang mga pamamaraan at pamamaraan para sa layuning ito. Gayunpaman, nararapat na tandaan na ang bawat pamamaraan ay nagsisilbi ng isang tiyak na layunin.
Paano Gamitin ang mga Tokenizer sa Hugging Face Transformers?







Paano Gamitin ang mga Tokenizer sa Hugging Face Transformers?

Kailangang mai-install muna ang tokenizer library bago ito gamitin at mag-import ng mga function mula dito. Pagkatapos nito, sanayin ang isang modelo gamit ang AutoTokenizer, at pagkatapos ay ibigay ang input para magsagawa ng tokenization.



Ang Hugging Face ay nagpapakilala ng tatlong pangunahing kategorya ng Tokenization na ibinigay sa ibaba:



  • Word-based na Tokenizer
  • Tokenizer na nakabatay sa karakter
  • Tokenizer na nakabatay sa subword

Narito ang isang hakbang-hakbang na gabay sa paggamit ng mga Tokenizer sa Mga Transformer:





Hakbang 1: I-install ang Mga Transformer
Upang mag-install ng mga transformer, gamitin ang pip command sa sumusunod na command:

! pip i-install mga transformer



Hakbang 2: Mag-import ng Mga Klase
Mula sa mga transformer, import pipeline , at AutoModelForSequenceClassification aklatan upang maisagawa ang pag-uuri:

mula sa mga transformer import pipeline, AutoModelForSequenceClassification

Hakbang 3: Mag-import ng Modelo
Ang ' AutoModelForSequenceClassification ” ay isang paraan na kabilang sa Auto-Class para sa tokenization. Ang from_pretrained() paraan ay ginagamit upang ibalik ang tamang klase ng modelo batay sa uri ng modelo.

Dito ibinigay namin ang pangalan ng modelo sa ' pangalan ng modelo ” variable:

pangalan ng modelo = 'distilbert-base-uncased-finetuned-sst-2-english'
pre_trainingmodel =AutoModelForSequenceClassification.from_pretrained ( pangalan ng modelo )

Hakbang 4: Mag-import ng AutoTokenizer
Ibigay ang sumusunod na command upang makabuo ng mga token sa pamamagitan ng pagpasa ng “ pangalan ng modelo ' bilang argumento:

mula sa mga transformer import AutoTokenizer

ang nabuong token =AutoTokenizer.from_pretrained ( pangalan ng modelo )

Hakbang 5: Bumuo ng Token
Ngayon, bubuo tayo ng mga token sa isang pangungusap “Mahilig ako sa masarap na pagkain” sa pamamagitan ng paggamit ng ' ang nabuong token ” variable:

mga salita =generatetoken ( 'Mahilig ako sa masarap na pagkain' )
print ( mga salita )

Ang output ay ibinigay tulad ng sumusunod:

Ang code sa itaas Google Co ay ibinigay dito.

Konklusyon

Para magamit ang Mga Tokenizer sa Hugging Face, i-install ang library gamit ang pip command, sanayin ang isang modelo gamit ang AutoTokenizer, at pagkatapos ay ibigay ang input para magsagawa ng tokenization. Sa pamamagitan ng paggamit ng tokenization, magtalaga ng mga timbang sa mga salita batay sa pagkakasunod-sunod ng mga ito upang mapanatili ang kahulugan ng pangungusap. Tinutukoy din ng markang ito ang kanilang halaga para sa pagsusuri. Ang artikulong ito ay isang detalyadong gabay sa kung paano gamitin ang mga Tokenizer sa Hugging Face Transformers.