Paano Gamitin ang mga Tokenizer sa Hugging Face Transformers?

Ang Natural Language Processing (NLP) ay gumagana sa raw form ng data. Ang mga modelo ng machine learning ay sinanay sa kumplikadong data, ngunit hindi nila maintindihan ang raw data. Ang raw na anyo ng data na ito ay dapat na may ilang numerical na halaga na nauugnay dito. Tinutukoy ng halagang ito ang halaga at kahalagahan ng salita sa data at sa batayan na ito, isinasagawa ang mga kalkulasyon.

Ang artikulong ito ay nagbibigay ng sunud-sunod na gabay tungkol sa paggamit ng mga Tokenizer sa Hugging Face Transformers.

Ano ang Tokenizer?

Ang Tokenizer ay isang mahalagang konsepto ng NLP, at ang pangunahing layunin nito ay isalin ang hilaw na teksto sa mga numero. Mayroong iba't ibang mga pamamaraan at pamamaraan para sa layuning ito. Gayunpaman, nararapat na tandaan na ang bawat pamamaraan ay nagsisilbi ng isang tiyak na layunin.
Paano Gamitin ang mga Tokenizer sa Hugging Face Transformers?

Paano Gamitin ang mga Tokenizer sa Hugging Face Transformers?

Kailangang mai-install muna ang tokenizer library bago ito gamitin at mag-import ng mga function mula dito. Pagkatapos nito, sanayin ang isang modelo gamit ang AutoTokenizer, at pagkatapos ay ibigay ang input para magsagawa ng tokenization.

Ang Hugging Face ay nagpapakilala ng tatlong pangunahing kategorya ng Tokenization na ibinigay sa ibaba:

Word-based na Tokenizer
Tokenizer na nakabatay sa karakter
Tokenizer na nakabatay sa subword

Narito ang isang hakbang-hakbang na gabay sa paggamit ng mga Tokenizer sa Mga Transformer:

Hakbang 1: I-install ang Mga Transformer
Upang mag-install ng mga transformer, gamitin ang pip command sa sumusunod na command:

! pip i-install mga transformer

Hakbang 2: Mag-import ng Mga Klase
Mula sa mga transformer, import pipeline , at AutoModelForSequenceClassification aklatan upang maisagawa ang pag-uuri:

mula sa mga transformer import pipeline, AutoModelForSequenceClassification

Hakbang 3: Mag-import ng Modelo
Ang ' AutoModelForSequenceClassification ” ay isang paraan na kabilang sa Auto-Class para sa tokenization. Ang from_pretrained() paraan ay ginagamit upang ibalik ang tamang klase ng modelo batay sa uri ng modelo.

Dito ibinigay namin ang pangalan ng modelo sa ' pangalan ng modelo ” variable:

pangalan ng modelo = 'distilbert-base-uncased-finetuned-sst-2-english'
pre_trainingmodel =AutoModelForSequenceClassification.from_pretrained ( pangalan ng modelo )

Hakbang 4: Mag-import ng AutoTokenizer
Ibigay ang sumusunod na command upang makabuo ng mga token sa pamamagitan ng pagpasa ng “ pangalan ng modelo ' bilang argumento:

mula sa mga transformer import AutoTokenizer

ang nabuong token =AutoTokenizer.from_pretrained ( pangalan ng modelo )

Hakbang 5: Bumuo ng Token
Ngayon, bubuo tayo ng mga token sa isang pangungusap “Mahilig ako sa masarap na pagkain” sa pamamagitan ng paggamit ng ' ang nabuong token ” variable:

mga salita =generatetoken ( 'Mahilig ako sa masarap na pagkain' )
print ( mga salita )

Ang output ay ibinigay tulad ng sumusunod:

Ang code sa itaas Google Co ay ibinigay dito.

Konklusyon

Para magamit ang Mga Tokenizer sa Hugging Face, i-install ang library gamit ang pip command, sanayin ang isang modelo gamit ang AutoTokenizer, at pagkatapos ay ibigay ang input para magsagawa ng tokenization. Sa pamamagitan ng paggamit ng tokenization, magtalaga ng mga timbang sa mga salita batay sa pagkakasunod-sunod ng mga ito upang mapanatili ang kahulugan ng pangungusap. Tinutukoy din ng markang ito ang kanilang halaga para sa pagsusuri. Ang artikulong ito ay isang detalyadong gabay sa kung paano gamitin ang mga Tokenizer sa Hugging Face Transformers.

Paano Gamitin ang mga Tokenizer sa Hugging Face Transformers?

Ano ang Tokenizer?

Paano Gamitin ang mga Tokenizer sa Hugging Face Transformers?

Konklusyon

Kategorya

Patok Na Mga Post

Paano Kopyahin, Paghambingin, at Pagsamahin ang isang Buffer sa Node.js?

Paano Mag-install at Gumamit ng Docker sa Fedora at CentOS?

Ano ang define() Function sa PHP

Pamamahala ng Gawain ng Elasticsearch

Ano ang File Handling sa C Programming?

Paano i-overclock ang GPU at CPU ng Raspberry Pi.

Thevenin's Theorem: Isang Step-by-Step na Gabay sa Pagsusuri ng Circuit ng DC

Paano I-disable ang isang Link Gamit ang CSS Lamang

Gaano katagal ang isang MacBook Pro?

Mga Tip sa Pag-troubleshoot ng Pag-crash ng Explorer.exe - Winhelponline

Paano Mag-install ng MongoDB Enterprise Gamit ang Docker?

Paano Isama ang YouTube sa Discord

Paano Kontrolin ang Servo Motor gamit ang Arduino

Ano ang Android System WebView – Paano Ito I-disable?

Paano Mag-install ng Windows sa isang Laptop Pagkatapos Palitan ang isang Hard Drive?

Paano i-install at i-configure ang Wine sa Ubuntu 22.04

MySQL CAST Function

Paano I-validate ang Pin Code at Mobile Number sa JavaScript

7 Madaling Pag-aayos para sa Mga Problema Sa Wireless Adapter o Access Point sa PC

Ano ang Vector of Objects C++