Sample() Function sa R

Sample Function Sa R



Sa R, nakakakuha kami ng random na sample na mga value mula sa isang vector o isang listahan gamit ang sample() function. Nagbibigay-daan ito sa amin na random na pumili ng subset ng data na kapaki-pakinabang sa maraming mga application na pang-istatistika. Kung ang input ay isang listahan sa sample() function, ang output ay magiging isang listahan din na may parehong bilang ng mga elemento, ngunit may mga napiling elemento. Ipinapakita ng artikulong ito ang sample() function ng R kasama ang pagpapatupad na nagtatakda ng iba't ibang argumento.

Halimbawa 1: Paggamit ng Sample() Function kasama ang Data Argument

Ang sample() function ng R ay dapat ibigay kasama ng sample na data upang random na makabuo ng isang numero. Ang sample na data ay ang kinakailangang argumento ng sample() function na ang code ay ibinigay sa sumusunod:

dataX < - c ( 10 , dalawampu , 30 , 40 , limampu , 60 , 70 , 80 , 90 , 100 )

sample ( dataX , 3 )

sample ( dataX , 3 )

Dito, binubuo muna namin ang mga vector ng mga elemento ng integer sa loob ng variable na 'dataX'. Susunod, tinawag namin ang sample() function nang dalawang beses sa code at ipasa ang 'dataX' vector na dati naming nabuo bilang argumento dito. Ang unang paggamit ng sample(dataX, 3) ay kumukuha ng random na sample ng tatlong elemento mula sa 'dataX' vector. Ang mga resulta ay isang random na permutasyon ng tatlong elemento mula sa 'dataX'. Pagkatapos nito, gagamitin namin muli ang sample(a, 5) na kumukuha ng isa pang independiyenteng random na sample ng tatlong elemento mula sa 'dataX' vector. Sa pagkakataong ito, ang kinalabasan ay ganap na naiiba mula sa huli.







Ipinapakita ng output ang iba't ibang elemento sa pagtawag sa sample() function nang dalawang beses. Tandaan na sa tuwing gagawa kami ng sample nang random, iba't ibang elemento mula sa mga vector ang nakukuha:





Halimbawa 2: Paggamit ng Sample() Function na may Replace Argument

Higit pa rito, mayroon kaming 'palitan' na argumento ng sample() function na kumukuha ng mga lohikal na halaga. Ang isang katulad na elemento ay maaaring mapili ng higit sa isang beses kung ang elemento ay na-sample na may kapalit na opsyon, TRUE. Gayunpaman, kung ang halaga ay nakatakda sa FALSE, maaari lamang magkaroon ng isang seleksyon ng bawat elemento na nagiging sanhi ng pag-sample ng mga elemento nang walang kapalit.





random_numbers = c ( labing-isa , 25 , 12 , 89 , Apat. Lima , 16 , 67 , 38 , 96 , 55 , 73 )

sample ( random_numbers , 4 , palitan = TOTOO )

sample ( random_numbers , 5 , palitan = TOTOO )

Dito, una naming tinukoy ang vector na may ilang mga numerong halaga sa variable na 'random_numbers'. Pagkatapos nito, ginagamit namin ang sample() function kung saan ipinapasa ang 'random_numbers' bilang argumento. Ang halaga ng '4' ay tinukoy sa sample() function na nagpapahiwatig na pumipili lamang ito ng apat na random na halaga mula sa mga vector sa 'random_numbers'.

Susunod, ang replace=TRUE sa sample() function ay tumutukoy na ang bawat value ay maaaring mapili ng higit sa isang beses. Pagkatapos, i-deploy namin muli ang sample() function na pumipili ng '5' na mga random na halaga mula sa mga vector sa pagkakataong ito. Katulad nito, itinakda namin ang argumentong palitan na may 'TRUE' tulad ng dati para sa maramihang mga pagpipilian sa pagpili para sa bawat halaga.



Tulad ng nakikita natin, ang unang output ay nagpapakita ng vector ng 4 na random na napiling elemento mula sa 'random_numbers' vector. Ang susunod na output, gayunpaman, ay nagpapakita ng isang vector ng '5' na random na piniling mga elemento:

Halimbawa 3: Paggamit ng Sample() na Function na may Size Argument

Ang susunod na argumento na ipinapasa ng sample() function ay ang 'laki'. Ang 'laki' ay isang opsyonal na parameter na nagpapahiwatig ng halaga ng mga sample na iguguhit. Ang code ng sample() function na may parameter na 'laki' ay ibinibigay sa sumusunod:

mga vector < - 1 : 10

sample ( mga vector , laki = 5 )

Dito, ang isang numeric na vector ay tinukoy bilang isang sequence ng mga integer mula 1 hanggang 10 sa variable na 'vectors'. Ang sample() function ay ginagamit sa pagpili ng mga random na elemento mula sa vector. Tulad ng nakikita natin, ang sample() function ay tumatagal ng dalawang argumento. Ang unang argumento ay ang mga vectors kung saan namin nakuha ang sample. Ang susunod na argumento ay ang laki na tinukoy sa halagang '5' na nagpapahiwatig na mayroon lamang limang elemento na pipiliin mula sa vector.

Samakatuwid, ang mga napiling elemento ay ibinalik sa isang random na pagkakasunud-sunod bilang isang bagong vector sa sumusunod na output:

Halimbawa 4: Paggamit ng Sample() Function para sa R ​​List

Bukod dito, ang sample() function ay maaaring gamitin para sa listahan sa R. Ang seksyong ito ng halimbawa ay nakakakuha ng mga random na halaga mula sa listahan.

R_list < - listahan ( 1 : 4 ,

913 ,

c ( 'X' , 'YYY' , 'MAHAL' ) ,

'ZZZ' ,

5 )

resulta < - R_list [ sample ( 1 :haba ( R_list ) , laki = 4 ) ]

resulta

Dito, ang listahan ng 'R_list' ay tinukoy na may mga elemento ng iba't ibang uri kabilang ang isang vector ng mga numero, isang solong numero, isang character na vector, isang string, at isa pang numero. Pagkatapos nito, gumawa kami ng variable na 'resulta' kung saan ginagamit ang sample() function.

Sa loob ng sample() function, itinakda namin ang expression na '1:length(R_list)' na nagsasaad ng mga vectors ng mga indeks na isasample. Susunod, mayroon kaming argumento na 'laki' upang tukuyin ang bilang ng mga elementong isasampol na '4'. Samakatuwid, ang 'R_list' ay bumubuo ng tatlong random na napiling elemento mula sa listahan ng 'R_list'. Dahil ang mga elemento sa listahan ng 'R_list' ay may iba't ibang uri, ang mga nagreresultang elemento sa 'resulta' ay maaari ding may iba't ibang uri.

Kinakatawan ng output ang bagong listahan na naglalaman ng random na subset ng orihinal na listahan:

Halimbawa 5: Paggamit ng Sample() Function na may Prob Argument

Bukod pa rito, mayroon kaming 'prob' na parameter ng sample() function. Ang argumentong 'prob' ay nagbibigay ng posibilidad ng napiling elemento sa vector. Tandaan na ang lahat ng mga elemento ay ipinapalagay na may pantay na posibilidad kapag ang 'prob' na argumento ay hindi ginamit.

ang aking data = c ( 31 , 99 , 5 , 24 , 72 )

sample ( ang aking data , laki = 10 , palitan = TOTOO ,

prob = c ( 0.5 , rep ( 0.1 , 4 ) ) )

Dito, ang mga elemento ng mga numeric na vector ay tinutukoy sa 'my_data'. Sa susunod na hakbang, tinatawag namin ang sample() function kung saan ipinapasa ang 'my_data' sa random na piniling 10 elemento mula dito. Pagkatapos, ang argument na 'laki' ay tinukoy na tumutukoy na ang value na pipiliin nang random ay dapat na '10' na laki. Pagkatapos nito, itinalaga namin ang 'TRUE' sa argument na 'palitan' na nangangahulugang ang bawat napiling elemento ay papalitan sa vector bago piliin ang susunod. Ang ikatlong argumento na tinukoy sa sample() function ay 'prob' na tumutukoy sa posibilidad ng bawat elemento sa 'my_data' vector na mapili. Ang posibilidad ng unang elemento ay nakatakda sa '0.5'. Para sa natitirang apat na elemento ng vector, ang posibilidad ay '0.1'.

Ang sumusunod na output ay kinukuha na may pinakamataas na posibilidad ng unang elemento sa mga vector gaya ng inaasahan:

Halimbawa 6: Paggamit ng Sample() Function para I-render ang Barplot

Panghuli, ang sample() function ay ginagamit upang bumuo ng barplot sa R ​​upang mailarawan ang pamamahagi ng isang kategoryang variable na may ibinigay na probability distribution.

sample na data = c ( 1 , 2 , 3 )

barplot ( mesa ( sample ( sample na data , laki = 500 , palitan = TOTOO , prob = c ( .30 , .60 , .10 ) ) ) )

Dito, pagkatapos tukuyin ang 'sample_data' gamit ang vector ng isang integer na halaga, binubuo namin ang barplot sa pamamagitan ng pag-deploy ng sample() function. Una, tinatawag namin ang barplot na humihiling sa function na table() upang lumikha ng frequency table ng resultang sample. Pagkatapos, tinukoy namin ang sample() function sa loob ng table() function kung saan ang isang random na sample na may sukat na 1000 ay kinukuha mula sa isang vector ng mga integer 1 hanggang 3. Pagkatapos, ang 'prob' na argumento ay ginagamit upang tukuyin ang posibilidad ng pagpili ng bawat integer .

Tulad ng nakikita natin ngayon, ang barplot ay nai-render sa sumusunod na may tatlong bar, isa para sa bawat integer, at ang taas ng mga bar ay may kaugnayan sa integer na nangyayari sa sample:

Konklusyon

Nakita namin kung paano gumagana ang sample() function sa iba't ibang halimbawa. Ang sample() function ay ginagamit sa iba't ibang argumento kung saan kinakailangan ang sample na data at lahat ng iba pang argumento ay opsyonal at tinatawag sa mga partikular na kaso. Gayunpaman, ang sample() function ay kapaki-pakinabang sa statistical analysis o kapag nagtatrabaho sa malalaking dataset.