Paano Gamitin ang Hugging Face Datasets

Paano Gamitin Ang Hugging Face Datasets



Sinusubukan sa data ang applicability at usability ng mga modelo ng Machine Learning. Ang pagiging maaasahan ng mga pagsubok ay lubos na nakasalalay sa dami at kalidad ng data kung saan inilalapat ang mga modelong ito. Ito ay isang kumpletong gawain sa sarili nito na lumikha, kumuha, at linisin ang isang angkop na malaking dataset upang subukan ang iyong ' Natural na Pagproseso ng Wika (NLP) ” Modelo ng Machine Learning.

Nag-aalok ang Hugging Face ng maayos na solusyon para dito kasama ang napakalaking library ng mga dataset na mapagpipilian at hanapin ang isa na perpektong akma sa iyong mga kinakailangan. Dito, ipapakita namin sa iyo kung paano hanapin ang perpektong dataset at ihanda ito para masubukan nang sapat ang iyong modelo.







Paano Gamitin ang Hugging Face Datasets?

Ipapakita namin sa iyo kung paano gamitin ang Hugging Face Datasets gamit ang halimbawa ng ' TinyStories ” Dataset mula sa Hugging Face.



Halimbawa

Ang TinyStories Dataset ay may higit sa 2 milyong row ng data sa train split at mayroon itong higit sa 2 thousand download sa Hugging Face platform. Gagamitin namin ito sa code sa Google Colab na ibinigay sa ibaba:



! pip i-install mga transformer
! pip i-install mga dataset

mula sa mga dataset ay nag-import ng load_dataset

dataset = load_dataset ( 'roneneldan/TinyStories' )

TinyStories_Story = 3
example_string = dataset [ 'tren' ] [ TinyStories_Story ] [ 'text' ]

print ( halimbawa_string )


Sa code na ito, isaalang-alang ang mga nakasaad na hakbang sa ibaba:





Hakbang 01 : Ang unang hakbang ay ang “ pag-install ” ng mga dataset ng transformer.

Hakbang 02 : Susunod, i-import ang kinakailangang dataset, ' TinyStories ” sa iyong proyekto.



Hakbang 03 : Susunod, i-load ang napiling dataset gamit ang “ load_dataset() ” function.

Hakbang 04 : Ngayon, tinutukoy namin ang Story number na gusto namin mula sa TinyStories Dataset. Tinukoy namin ang numero 03 sa aming halimbawa ng code.

Hakbang 05 : Panghuli, gagamitin namin ang 'print()' na paraan upang ipakita ang output.

Output



Tandaan: Ang code at ang output ay maaari ding direktang matingnan sa aming Google Colab .

Konklusyon

Mga dataset ng Hugging Face ” gawin itong napakahusay para sa mga user na subukan ang kanilang mga modelo ng Machine Learning habang direktang nag-i-import ng malalaking dataset mula sa kanilang online na library. Bilang resulta, ang aplikasyon ng mga NLP algorithm ay naging mas madali at mas mabilis dahil nagagawa ng mga programmer na masuri ang kanilang mga proyekto laban sa isang dataset na may parehong kalidad at dami.