Paano Pagsamahin ang Mga Dataset sa Hugging Mukha

Paano Pagsamahin Ang Mga Dataset Sa Hugging Mukha



Ang library ng 'mga dataset' mula sa Hugging Face ay nagbibigay ng isang maginhawang paraan upang magamit at manipulahin ang mga dataset para sa mga natural na gawain sa pagproseso ng wika. Ang isang kapaki-pakinabang na function na inaalok ng library ay ang concatenate_datasets() na nagbibigay-daan sa iyong pagsama-samahin ang maraming dataset sa isang dataset. Ang sumusunod ay isang maikling pangkalahatang-ideya ng concatenate_datasets() function at kung paano ito gamitin.

concatenate_datasets()

Paglalarawan:

Ang library ng 'datasets' ng Hugging Face ay nagbibigay ng function na concatenate_datasets(). Ito ay ginagamit upang pagsama-samahin ang maramihang mga dataset, pagsasama-sama ng mga ito sa isang solong dataset kasama ng isang tinukoy na axis. Ang function na ito ay partikular na kapaki-pakinabang kapag mayroon kang maramihang mga dataset na may parehong istraktura at gusto mong pagsamahin ang mga ito sa isang pinag-isang dataset para sa karagdagang pagproseso at pagsusuri.







Syntax:



mula sa mga dataset angkat concatenate_datasets

concatenated_dataset = concatenate_datasets ( mga dataset , aksis = 0 , impormasyon = wala )

Mga Parameter:

mga dataset (listahan ng Dataset): Isang listahan ng mga dataset na gusto mong pagsamahin. Ang mga dataset na ito ay dapat magkaroon ng mga katugmang feature na nangangahulugan na mayroon silang parehong schema, mga pangalan ng column, at mga uri ng data.



aksis (int, opsyonal, default=0): Ang axis kung saan dapat isagawa ang concatenation. Para sa karamihan ng mga NLP dataset, ginagamit ang default na value na 0 na nangangahulugan na ang mga dataset ay pinagsama-sama nang patayo. Kung itatakda mo ang axis=1, ang mga dataset ay pinagsama-sama nang pahalang, sa pag-aakalang may iba't ibang column ang mga ito bilang mga feature.





impormasyon (datasets.DatasetInfo, opsyonal): Ang impormasyon tungkol sa pinagsama-samang dataset. Kung hindi ibinigay, mahihinuha ang impormasyon mula sa unang dataset sa listahan.

Ibinabalik:

concatenated_dataset (Dataset): Ang resultang dataset pagkatapos pagsamahin ang lahat ng input dataset.



Halimbawa:

# Hakbang 1: I-install ang library ng mga dataset

# Maaari mong i-install ito gamit ang pip:

# !pip install datasets

# Hakbang 2: Mag-import ng mga kinakailangang aklatan

mula sa mga dataset angkat load_dataset , concatenate_datasets

# Hakbang 3: I-load ang mga dataset ng pagsusuri ng pelikula sa IMDb

# Gagamit kami ng dalawang dataset ng IMDb, isa para sa mga positibong review

#at isa pa para sa mga negatibong review.

# Mag-load ng 2500 positibong review

dataset_pos = load_dataset ( 'imdb' , hati = 'tren[:2500]' )

# Mag-load ng 2500 negatibong review

dataset_neg = load_dataset ( 'imdb' , hati = 'tren[-2500:]' )

# Hakbang 4: Pagsamahin ang mga dataset

# Pinagsasama namin ang parehong mga dataset sa kahabaan ng axis=0, tulad ng mayroon sila

ang parehong schema ( parehong mga tampok ) .

concatenated_dataset = concatenate_datasets ( [ dataset_pos , dataset_neg ] )

# Hakbang 5: Suriin ang pinagsama-samang dataset

# Para sa pagiging simple, bilangin natin ang bilang ng positibo at negatibo

# na review sa pinagsama-samang dataset.

num_positive_reviews = sum ( 1 para sa label sa

concatenated_dataset [ 'label' ] kung label == 1 )

num_negative_reviews = sum ( 1 para sa label sa

concatenated_dataset [ 'label' ] kung label == 0 )

# Hakbang 6: Ipakita ang mga resulta

print ( 'Bilang ng mga positibong review:' , num_positive_reviews )

print ( 'Bilang ng mga negatibong review:' , num_negative_reviews )

# Hakbang 7: Mag-print ng ilang halimbawang review mula sa pinagsama-samang dataset

print ( ' \n Ilang halimbawa ng mga review:' )

para sa i sa saklaw ( 5 ) :

print ( f 'Suriin {i + 1}: {concatenated_dataset['text'][i]}' )

Output:

Ang sumusunod ay ang paliwanag para sa programa ng library na 'mga dataset' ng Hugging Face na pinagsasama ang dalawang dataset ng pagsusuri ng pelikula sa IMDb. Ipinapaliwanag nito ang layunin ng programa, ang paggamit nito, at ang mga hakbang na kasangkot sa code.

Magbigay tayo ng mas detalyadong paliwanag ng bawat hakbang sa code:

# Hakbang 1: Mag-import ng Mga Kinakailangang Aklatan

mula sa mga dataset angkat load_dataset , concatenate_datasets

Sa hakbang na ito, ini-import namin ang mga kinakailangang aklatan para sa programa. Kailangan namin ang function na 'load_dataset' upang i-load ang mga dataset ng pagsusuri ng pelikula ng IMDb, at ang 'concatenate_datasets' upang pagsama-samahin ang mga ito sa ibang pagkakataon.

# Hakbang 2: I-load ang IMDb Movie Review Datasets

# Mag-load ng 2500 positibong review

dataset_pos = load_dataset ( 'imdb' , hati = 'tren[:2500]' )

# Mag-load ng 2500 negatibong review

dataset_neg = load_dataset ( 'imdb' , hati = 'tren[-2500:]' )

Dito, ginagamit namin ang function na 'load_dataset' para kumuha ng dalawang subset ng dataset ng IMDb. Ang 'dataset_pos' ay mayroong 2500 positibong review at ang 'dataset_neg' ay naglalaman ng 2500 negatibong review. Ginagamit namin ang split parameter upang tukuyin ang hanay ng mga halimbawang ilo-load na nagbibigay-daan sa aming pumili ng subset ng buong dataset.

# Hakbang 3: Pagsamahin ang Mga Dataset

concatenated_dataset = concatenate_datasets ( [ dataset_pos , dataset_neg ] )

Sa hakbang na ito, pinagsasama-sama namin ang dalawang subset ng dataset ng IMDb sa isang dataset na tinatawag na 'concatenated_dataset.' Ginagamit namin ang function na 'concatenate_datasets' at ipinapasa ito kasama ng isang listahan na naglalaman ng dalawang dataset upang pagsamahin. Dahil ang parehong mga dataset ay may parehong mga tampok, pinagsama namin ang mga ito sa kahabaan ng axis=0 na nangangahulugan na ang mga hilera ay nakasalansan sa ibabaw ng bawat isa.

# Hakbang 4: Suriin ang Pinagsama-samang Dataset

num_positive_reviews = sum ( 1 para sa label sa

concatenated_dataset [ 'label' ] kung label == 1 )

num_negative_reviews = sum ( 1 para sa label sa

concatenated_dataset [ 'label' ] kung label == 0 )

Dito, nagsasagawa kami ng isang simpleng pagsusuri ng pinagsama-samang dataset. Ginagamit namin ang mga pag-unawa sa listahan kasama ang function na 'sum' upang mabilang ang bilang ng mga positibo at negatibong pagsusuri. Ulitin namin ang label' na column ng 'concatenated_dataset' at dagdagan ang mga bilang sa tuwing makakatagpo kami ng positibong label (1) o negatibong label (0).

# Hakbang 5: Ipakita ang Mga Resulta

print ( 'Bilang ng mga positibong review:' , num_positive_reviews )

print ( 'Bilang ng mga negatibong review:' , num_negative_reviews )

Sa hakbang na ito, ini-print namin ang mga resulta ng aming pagsusuri – ang bilang ng mga positibo at negatibong pagsusuri sa pinagsama-samang dataset.

# Hakbang 6: Mag-print ng Ilang Halimbawang Review

print ( ' \n Ilang halimbawa ng mga review:' )

para sa i sa saklaw ( 5 ) :

print ( f 'Suriin ang {i + 1}: {concatenated_dataset['text'][i]}' )

Sa wakas, nagpapakita kami ng ilang halimbawang review mula sa pinagsama-samang dataset. Nag-iikot kami sa unang limang halimbawa sa dataset at nagpi-print ng kanilang text content gamit ang column na 'text'.

Ang code na ito ay nagpapakita ng isang direktang halimbawa ng paggamit sa library ng 'mga dataset' ng Hugging Face upang i-load, pagsama-samahin, at pag-aralan ang mga dataset ng pagsusuri ng pelikula ng IMDb. Itinatampok nito ang kakayahan ng library na i-streamline ang paghawak ng NLP dataset at ipinapakita ang potensyal nito para sa pagbuo ng mas sopistikadong mga modelo at application sa pagproseso ng natural na wika.

Konklusyon

Ang Python program na gumagamit ng Hugging Face's 'datasets' library ay matagumpay na nagpapakita ng pagsasama-sama ng dalawang IMDb movie review datasets. Sa pamamagitan ng paglo-load ng mga subset ng positibo at negatibong mga review, pinagsama-sama ng programa ang mga ito sa isang dataset gamit ang function na concatenate_datasets(). Pagkatapos ay gagawa ito ng simpleng pagsusuri sa pamamagitan ng pagbibilang ng bilang ng mga positibo at negatibong pagsusuri sa pinagsamang dataset.

Pinapasimple ng library ng 'mga dataset' ang proseso ng paghawak at pagmamanipula sa mga NLP dataset, na ginagawa itong isang mahusay na tool para sa mga mananaliksik, developer, at NLP practitioner. Gamit ang user-friendly na interface at malawak na functionality, ang library ay nagbibigay-daan sa walang hirap na preprocessing, exploration, at transformation ng data. Ang programa na ipinakita sa dokumentasyong ito ay nagsisilbing isang praktikal na halimbawa kung paano magagamit ang library upang i-streamline ang mga gawain sa pagsasama-sama ng data at pagsusuri.

Sa totoong buhay na mga sitwasyon, ang program na ito ay maaaring magsilbing pundasyon para sa isang mas kumplikadong natural na mga gawain sa pagproseso ng wika tulad ng pagsusuri ng damdamin, pag-uuri ng teksto, at pagmomodelo ng wika. Gamit ang library ng 'mga dataset,' mahusay na mapamahalaan ng mga mananaliksik at developer ang malalaking dataset, mapadali ang pag-eksperimento, at mapabilis ang pagbuo ng mga makabagong modelo ng NLP. Sa pangkalahatan, ang Hugging Face 'datasets' na library ay isang mahalagang asset sa pagtugis ng mga pagsulong sa natural na pagproseso at pag-unawa sa wika.