Paano Pag-aralan ang Data ng Teksto sa R: Mga Pangunahing Kaalaman sa Pagmamanipula ng String

Paano Pag Aralan Ang Data Ng Teksto Sa R Mga Pangunahing Kaalaman Sa Pagmamanipula Ng String



Ang mga string ay ang pangalawang pinakasikat na uri ng data sa R ​​programming, at ang pagmamanipula ng string ay isang mahalagang gawain sa R. Ang operasyon ng pagmamanipula ng string sa R ​​ay binubuo ng maraming mga function upang gamitin at baguhin ang data ng text, kabilang ang pagbabago at pag-parse ng mga string. Sa artikulong ito, susuriin natin ang ilan sa mga function na makakatulong sa atin sa pagmamanipula ng string. Ang mga function na ito ay built-in sa R ​​at ginagamit para sa iba't ibang layunin upang maisagawa ang mga gawaing string.

Halimbawa 1: Kunin ang Posisyon ng Pattern mula sa String Gamit ang Grep() Function sa R

Upang kunin ang posisyon ng tinukoy na pattern mula sa string, ang grep() function ng R ay ginagamit.

grep('i+', c('fix', 'split', 'corn n', 'paint'), perl=TRUE, value=FALSE)

Dito, ginagamit namin ang grep() function kung saan ang pattern na '+i' ay tinukoy bilang isang argumento na itugma sa loob ng vector ng mga string. Itinakda namin ang mga vector ng character na naglalaman ng apat na mga string. Pagkatapos nito, itinakda namin ang argument na 'perl' na may TRUE na halaga na nagpapahiwatig na ang R ay gumagamit ng perl compatible na regular na expression na library, at ang parameter na 'value' ay tinukoy kasama ang 'FALSE' na halaga na ginagamit upang kunin ang mga indeks ng mga elemento sa vector na tumutugma sa pattern.







Ang '+i' na posisyon ng pattern mula sa bawat string ng mga vector character ay ipinapakita sa sumusunod na output:





Halimbawa 2: Itugma ang Pattern Gamit ang Gregexpr() Function sa R

Susunod, kukunin namin ang posisyon ng index kasama ang haba ng partikular na string sa R ​​gamit ang gregexpr() function.





char_vec <- c('PROGRAMMINGLANGUAGE','RSCRIPT')
gregexpr('GRAMM', char_vec, useBytes = TRUE)

Dito, itinakda namin ang variable na 'char_vect' kung saan ang mga string ay binibigyan ng iba't ibang mga character. Pagkatapos nito, tinukoy namin ang function na gregexpr() na kumukuha ng pattern ng string na 'GRAMM' upang maitugma sa mga string na nakaimbak sa 'char_vec'. Pagkatapos, itinakda namin ang parameter na useBytes na may halagang 'TRUE'. Ang parameter na ito ay nagpapahiwatig na ang pagtutugma ay dapat makamit ng byte-by-byte kaysa sa character-by-character.

Ang sumusunod na output na nakuha mula sa gregexpr() function ay kumakatawan sa mga indeks at ang haba ng parehong mga string ng vector:



Halimbawa 3: Bilangin ang Kabuuang Mga Character sa String Gamit ang Nchar() Function sa R

Ang paraan ng nchar() na ipinapatupad namin sa sumusunod ay nagpapahintulot din sa amin na matukoy kung gaano karaming mga character ang nasa string:

Res <- nchar('Bilangin ang bawat karakter')
print(Res)

Dito, tinatawag namin ang nchar() na paraan na nakatakda sa loob ng variable na 'Res'. Ang paraan ng nchar() ay binibigyan ng mahabang string ng mga character na binibilang ng paraan ng nchar() at nagbibigay ng bilang ng mga counter character sa tinukoy na string. Pagkatapos, ipinapasa namin ang variable na 'Res' sa print() na paraan upang makita ang mga resulta ng nchar() na pamamaraan.

Ang resulta ay natanggap sa sumusunod na output na nagpapakita na ang tinukoy na string ay naglalaman ng 20 character:

Halimbawa 4: I-extract ang Substring mula sa String Gamit ang Substring() Function sa R

Ginagamit namin ang pamamaraang substring() na may mga argumentong 'simula' at 'ihinto' upang kunin ang partikular na substring mula sa string.

str <- substring('MORNING', 2, 4)
print(str)

Dito, mayroon kaming variable na 'str' ​​kung saan tinatawag ang substring() na pamamaraan. Kinukuha ng substring() method ang string na 'MORNING' bilang unang argumento at ang value ng '2' bilang pangalawang argumento na nagsasaad na ang pangalawang character mula sa string ay i-extract, at ang halaga ng '4' na argumento ay nagpapahiwatig na ang ikaapat na karakter ay dapat makuha. Kinukuha ng substring() na pamamaraan ang mga character mula sa string sa pagitan ng tinukoy na posisyon.

Ang sumusunod na output ay nagpapakita ng na-extract na substring na nasa pagitan ng pangalawa at pang-apat na posisyon sa string:

Halimbawa 5: Pagsamahin ang String Gamit ang Paste() Function sa R

Ang function na paste() sa R ​​ay ginagamit din para sa pagmamanipula ng string na pinagsasama-sama ang mga tinukoy na mga string sa pamamagitan ng paghihiwalay ng mga delimiter.

msg1 <- 'Nilalaman'
msg2 <- 'Pagsusulat'

i-paste(msg1, msg2)

Dito, tinukoy namin ang mga string sa mga variable na 'msg1' at 'msg2', ayon sa pagkakabanggit. Pagkatapos, ginagamit namin ang paste() na paraan ng R upang pagdugtungin ang ibinigay na string sa isang string. Kinukuha ng paraan ng paste() ang variable ng mga string bilang argumento at ibinabalik ang solong string na may default na espasyo sa pagitan ng mga string.

Sa pagpapatupad ng paraan ng paste(), ang output ay kumakatawan sa isang string na may puwang sa loob nito.

Halimbawa 6: Baguhin ang String Gamit ang Substring() Function sa R

Higit pa rito, maaari rin nating i-update ang string sa pamamagitan ng pagdaragdag ng substring o anumang character sa string gamit ang substring() function gamit ang sumusunod na script:

str1 <- 'Mga Bayani'
substring(str1, 5, 6) <- 'ic'

cat('    Binagong String:', str1)

Itinakda namin ang string na 'Mga Bayani' sa loob ng variable na 'str1'. Pagkatapos, i-deploy namin ang substring() na pamamaraan kung saan tinukoy ang 'str1' kasama ng mga halaga ng index na 'simula' at 'stop' ng substring. Ang substring() na pamamaraan ay itinalaga kasama ang 'iz' na substring na inilalagay sa posisyon na tinukoy sa loob ng function para sa ibinigay na string. Pagkatapos nito, ginagamit namin ang cat() function ng R na kumakatawan sa na-update na halaga ng string.

Ang output na nagpapakita ng string ay ina-update gamit ang bago gamit ang substring () na pamamaraan:

Halimbawa 7: I-format ang String Gamit ang Format() Function sa R

Gayunpaman, kasama rin sa operasyon ng pagmamanipula ng string sa R ​​ang pag-format ng string nang naaayon. Para dito, ginagamit namin ang format() function kung saan maaaring ihanay ang string at itakda ang lapad ng partikular na string.

placement1 <- format('Programs', width = 10, justify = 'l')
placement2 <- format('Programs', width = 10, justify = 'r')
placement3 <- format('Mga Programa', lapad = 10, bigyang-katwiran = 'c')

print(placement1)
print(placement2)
print(placement3)

Dito, itinakda namin ang variable na 'placement1' na ibinigay kasama ang format() na paraan. Ipinapasa namin ang string ng 'mga programa' na i-format sa paraan ng format(). Ang lapad ay nakatakda, at ang pagkakahanay ng string ay nakatakda sa kaliwa gamit ang argumentong 'justify'. Katulad nito, gumagawa kami ng dalawa pang variable, 'placement2' at 'placement2', at inilalapat ang format() na paraan upang i-format ang ibinigay na string nang naaayon.

Ang output ay nagpapakita ng tatlong mga estilo ng pag-format para sa parehong string sa sumusunod na larawan kasama ang kaliwa, kanan, at mga alignment sa gitna:

Halimbawa 8: Ibahin ang String sa Lower at Upper Cases sa R

Bukod pa rito, maaari rin nating baguhin ang string sa lower case at upper case gamit ang mga function na tolower() at toupper() tulad ng sumusunod:

s1 <- 'GoOd FoodD GOoD Life'
resulta1 <- tolower(s1)

print(resulta1)

s2 <- 'Ang r programming language sa '
resulta2 <- topper(s2)

print(resulta2)

Dito, ibinibigay namin ang string na naglalaman ng mga upper at lowercase na character. Pagkatapos nito, ang string ay pinananatili sa variable na 's1'. Pagkatapos, tinatawag namin ang tolower() na paraan at ipasa ang 's1' na string sa loob nito upang baguhin ang lahat ng mga character sa loob ng string sa lowercase. Pagkatapos, i-print namin ang mga resulta ng tolower() na pamamaraan na naka-imbak sa variable na 'result1'. Susunod, nagtakda kami ng isa pang string sa variable na 's2' na naglalaman ng lahat ng mga character sa lowercase. Inilapat namin ang pamamaraan ng toupper() sa string na 's2' na ito upang gawing uppercase ang umiiral na string.

Ang output ay nagpapakita ng parehong mga string sa tinukoy na kaso sa sumusunod na larawan:

Konklusyon

Natutunan namin ang iba't ibang paraan upang pamahalaan at suriin ang mga string na tinutukoy bilang pagmamanipula ng string. Kinuha namin ang posisyon ng character mula sa string, pinagsama-sama ang iba't ibang mga string, at binago namin ang string sa tinukoy na case. Gayundin, na-format namin ang string, binago ang string, at iba't ibang mga operasyon ang ginagawa dito upang manipulahin ang string.