Ang artikulong ito ay nagbibigay ng sunud-sunod na gabay tungkol sa paggamit ng mga Tokenizer sa Hugging Face Transformers.
Ano ang Tokenizer?
Ang Tokenizer ay isang mahalagang konsepto ng NLP, at ang pangunahing layunin nito ay isalin ang hilaw na teksto sa mga numero. Mayroong iba't ibang mga pamamaraan at pamamaraan para sa layuning ito. Gayunpaman, nararapat na tandaan na ang bawat pamamaraan ay nagsisilbi ng isang tiyak na layunin.
Paano Gamitin ang mga Tokenizer sa Hugging Face Transformers?
Paano Gamitin ang mga Tokenizer sa Hugging Face Transformers?
Kailangang mai-install muna ang tokenizer library bago ito gamitin at mag-import ng mga function mula dito. Pagkatapos nito, sanayin ang isang modelo gamit ang AutoTokenizer, at pagkatapos ay ibigay ang input para magsagawa ng tokenization.
Ang Hugging Face ay nagpapakilala ng tatlong pangunahing kategorya ng Tokenization na ibinigay sa ibaba:
- Word-based na Tokenizer
- Tokenizer na nakabatay sa karakter
- Tokenizer na nakabatay sa subword
Narito ang isang hakbang-hakbang na gabay sa paggamit ng mga Tokenizer sa Mga Transformer:
Hakbang 1: I-install ang Mga Transformer
Upang mag-install ng mga transformer, gamitin ang pip command sa sumusunod na command:
Hakbang 2: Mag-import ng Mga Klase
Mula sa mga transformer, import pipeline , at AutoModelForSequenceClassification aklatan upang maisagawa ang pag-uuri:
Hakbang 3: Mag-import ng Modelo
Ang ' AutoModelForSequenceClassification ” ay isang paraan na kabilang sa Auto-Class para sa tokenization. Ang from_pretrained() paraan ay ginagamit upang ibalik ang tamang klase ng modelo batay sa uri ng modelo.
Dito ibinigay namin ang pangalan ng modelo sa ' pangalan ng modelo ” variable:
pangalan ng modelo = 'distilbert-base-uncased-finetuned-sst-2-english'pre_trainingmodel =AutoModelForSequenceClassification.from_pretrained ( pangalan ng modelo )
Hakbang 4: Mag-import ng AutoTokenizer
Ibigay ang sumusunod na command upang makabuo ng mga token sa pamamagitan ng pagpasa ng “ pangalan ng modelo ' bilang argumento:
ang nabuong token =AutoTokenizer.from_pretrained ( pangalan ng modelo )
Hakbang 5: Bumuo ng Token
Ngayon, bubuo tayo ng mga token sa isang pangungusap “Mahilig ako sa masarap na pagkain” sa pamamagitan ng paggamit ng ' ang nabuong token ” variable:
print ( mga salita )
Ang output ay ibinigay tulad ng sumusunod:
Ang code sa itaas Google Co ay ibinigay dito.
Konklusyon
Para magamit ang Mga Tokenizer sa Hugging Face, i-install ang library gamit ang pip command, sanayin ang isang modelo gamit ang AutoTokenizer, at pagkatapos ay ibigay ang input para magsagawa ng tokenization. Sa pamamagitan ng paggamit ng tokenization, magtalaga ng mga timbang sa mga salita batay sa pagkakasunod-sunod ng mga ito upang mapanatili ang kahulugan ng pangungusap. Tinutukoy din ng markang ito ang kanilang halaga para sa pagsusuri. Ang artikulong ito ay isang detalyadong gabay sa kung paano gamitin ang mga Tokenizer sa Hugging Face Transformers.