Paraan ng Hugging Face Filter().

Paraan Ng Hugging Face Filter



Ang Hugging Face ay may ilang natural language processing (NLP) na modelo at dataset. Ang napakalaking dataset na ito ay naglalaman ng maraming impormasyon na nakakatulong na sanayin ang modelo nang tumpak. Gayunpaman, minsan hindi namin kailangan ang buong dataset dahil kailangan lang namin ng isang maliit na bahagi nito upang matugunan ang aming mga kasalukuyang pangangailangan. Kung gusto naming gamitin ang parehong dataset gaya ng dati sa lahat ng impormasyon, ang pagsasanay at pag-optimize ng modelo ay tumatagal ng maraming oras na isang pag-aaksaya ng oras.

Kaya, kailangan namin ng ilang uri ng paraan o package na maaaring kunin ang nauugnay na impormasyon mula sa mga dataset. Sa simpleng wika, masasabi naming kailangan namin ng karagdagang opsyon sa filter upang i-filter ang mga dataset ayon sa aming mga kinakailangan.

Ang Hugging Face ay nagbibigay ng iba't ibang opsyon para i-filter ang mga dataset na tumutulong sa mga user na gumawa ng mga customized na dataset na naglalaman lang ng mga halimbawa o impormasyong nakakatugon sa mga partikular na kundisyon.







Piliin ang() Paraan

Gumagana ang pamamaraang ito sa isang listahan ng mga indeks na nangangahulugan na kailangan nating tukuyin ang isang listahan. Sa loob ng listahang iyon, kailangan nating banggitin ang lahat ng mga halaga ng index ng mga hilera na gusto nating kunin. Ngunit ang paraang ito ay gumagana lamang para sa maliliit na dataset at hindi para sa malalaking dataset, dahil hindi namin makikita ang buong dataset kung ito ay nasa GBs (giga bytes) o TBs (tera bytes).



Halimbawa :

new_dataset = dataset. pumili ( [ 0 , labing-isa , dalawampu't isa , Apat. Lima , limampu , 55 ] )

print ( lamang ( new_dataset ) )

Sa halimbawang ito, ginamit namin ang 'piliin' na paraan upang i-filter ang kinakailangang impormasyon mula sa dataset.



Paraan ng Filter().

Ang filter() na paraan ay nagtagumpay sa select() na mga isyu sa proseso dahil walang partikular na kundisyon. Ibinabalik ng filter() method ang lahat ng row na tumutugma sa isang partikular na sitwasyon o kundisyon.





Halimbawa: Ise-save namin ang Python program na ito gamit ang pangalang 'test.py'.

mula sa mga dataset angkat load_dataset

# Hakbang 1: I-load ang dataset
dataset = load_dataset ( 'imdb' )

# Hakbang 2: Tukuyin ang pag-filter ng function
def custom_filter ( halimbawa ) :
'''
Isang custom na pag-filter na function upang mapanatili ang mga halimbawa na may positibo
damdamin (label == 1).
'''

bumalik halimbawa [ 'label' ] == 1

# Hakbang 3: Ilapat ang filter para gumawa ng bagong na-filter na dataset
filtered_dataset = dataset. salain ( custom_filter )

# Hakbang 4: Suriin ang mga available na pangalan ng column sa na-filter na dataset
print ( 'Mga available na column sa na-filter na dataset:' ,
filtered_dataset. column_names )

# Hakbang 5: I-access ang impormasyon mula sa na-filter na dataset
filtered_examples = filtered_dataset [ 'tren' ]
num_filtered_examples = lamang ( filtered_examples )

# Hakbang 6: I-print ang kabuuang bilang ng mga na-filter na halimbawa
print ( 'Kabuuang na-filter na mga halimbawa:' , num_filtered_examples )

Output:



Paliwanag:

Linya 1: Ini-import namin ang kinakailangang load_dataset package mula sa mga dataset.

Linya 4: Nilo-load namin ang dataset ng 'imdb' gamit ang load_dataset.

Mga Linya 7 hanggang 12: Tinutukoy namin ang custom na pag-filter na function custom_filter upang panatilihin ang mga halimbawa na may positibong damdamin (label == 1). Ibinabalik lamang ng function na ito ang mga row na ang value ng label ay 1.

Linya 15: Ipinapakita ng linyang ito na ang dataset ay may 'imdb' na data ng pagsusuri ng pelikula. Inilapat na namin ngayon ang function ng filter sa database na ito upang paghiwalayin ang mga positibong review mula sa database na higit pang nakaimbak sa 'filtered_dataset.'

Mga Linya 18 at 19: Ngayon, tinitingnan namin kung anong mga pangalan ng column ang available sa filtered_dataset. Kaya, ang code na 'filtered_dataset.column_names' ay nagbibigay ng mga detalye ng aming mga kinakailangan.

Linya 22 at 23: Sa mga linyang ito, sinasala namin ang column na 'tren' ng filtered_dataset at ini-print ang kabuuang bilang (haba) ng column ng tren.

Linya 26: Sa huling linyang ito, ini-print namin ang resulta mula sa numero ng linya 23.

Filter() na may mga Index

Ang filter() na paraan ay maaari ding gamitin sa mga indeks na makikita sa select() mode. Ngunit para diyan, kailangan nating banggitin na ang keyword na 'with_indices=true' ay kailangang tukuyin sa labas ng filter() na paraan tulad ng ipinapakita sa sumusunod na halimbawa:

odd_dataset = dataset. salain ( lambda halimbawa , idx: idx % 2 != 0 , may_mga indeks = totoo )

print ( lamang ( odd_dataset ) )

Sa halimbawang ito, ginamit namin ang filter() na paraan upang i-filter ang kinakailangang impormasyon mula sa dataset, kasama lang ang mga row na kakaiba.

Ang kumpletong mga detalye ng bawat parameter ng filter() na pamamaraan ay matatagpuan dito link .

Konklusyon

Ang Hugging Face dataset library ay nagbibigay ng makapangyarihan at user-friendly na toolset upang mahusay na gumana sa iba't ibang dataset, lalo na sa konteksto ng Natural Language Processing (NLP) at mga gawain sa machine learning. Ang filter() function na ipinakita sa programa ay nagbibigay-daan sa mga mananaliksik at practitioner na kunin ang mga nauugnay na subset ng data sa pamamagitan ng pagtukoy sa pamantayan ng pag-filter na tinukoy ng gumagamit. Gamit ang functionality na ito, walang kahirap-hirap na makakagawa ang mga user ng mga bagong dataset na nakakatugon sa mga partikular na kundisyon gaya ng pagpapanatili ng positibong sentimento sa mga review ng pelikula o pagkuha ng partikular na data ng text.

Ang sunud-sunod na demonstrasyon na ito ay naglalarawan kung gaano kadali ang pag-load ng isang dataset, ilapat ang mga custom na function ng filter, at i-access ang na-filter na data. Bilang karagdagan, ang flexibility ng mga parameter ng function ay nagbibigay-daan para sa mga custom na pagpapatakbo ng pag-filter, kabilang ang suporta para sa maramihang pagpoproseso para sa malalaking set ng data. Gamit ang Hugging Face dataset library, maaaring i-streamline ng mga user ang kanilang data.