Pandas Qcut

Pandas Qcut



'Ang 'Python' ay naglalaman ng maraming mga aklatan, at kapag gusto naming suriin o manipulahin ang data pagkatapos, ginagamit namin ang mga aklatan na ito ng 'Python', at ang 'pandas' ay ang library din nito. Ang library ng 'pandas' ay ginagamit sa larangan ng data sciences, at ginagamit din ito sa mga aktibidad sa machine learning. Ang 'pandas' DataFrame ay tumutulong sa amin sa pag-save ng data. Sa 'pandas,' kapag gusto namin ang data binning, pagkatapos ay gagamitin namin ang 'qcut()' na paraan. Ang pamamaraang 'qcut()' ay ginagamit para sa pag-convert ng tuluy-tuloy na mga tampok sa mga kategorya. Maaari tayong magdagdag ng iba't ibang uri ng mga parameter sa pamamaraang 'qcut()' na ito para sa pagkuha ng iba't ibang uri ng mga resulta. Ang tutorial na ito ay tungkol sa 'qcut()' na pamamaraan, at ipapaliwanag namin nang buong detalye ang 'qcut()' na pamamaraan dito. Ipapaliwanag namin sa iyo kung paano namin ginagawa ang data binning sa tulong ng function na “qcut()” sa “pandas” sa tutorial na ito.

Halimbawa # 01

Ilalapat namin ang pamamaraang 'qcut()' sa mga code na ito, at gagawin namin ang mga code na ito sa app na 'Spyder'. Kapag kailangan nating magtrabaho kasama ang mga 'pandas', maa-access lang natin ang mga function nito kapag na-import natin ang library ng 'pandas' sa ating mga code. Una, inilalagay namin ang 'import,' at pagkatapos ay isinusulat namin ang 'pandas bilang pd'. Ngayon, kailangan nating ilapat ang pamamaraang 'qcut()', kaya para dito, nililikha natin ang DataFrame dito. Binubuo namin ang 'Random_df' na naglalaman ng 'R_ID, R_name, at R_age' bilang mga column nito, at gayundin sa 'R_ID', inilalagay namin ang 'R_17, R_21, R_24, R_29, R_31, R_34, R_44, R_46, R_50, R_51, R_55, R_61, R_73, at R_81”. Pagkatapos ay idinagdag namin ang 'Theodore, Teddy, Noah, Leo, Ivy, Henry, Freddie, Evelyn, Ava, Willow, Theo, Oscar, Jacob, at Harper' sa column na 'R_name'. Pagkatapos nito, ilalagay namin ang '21, 33, 12, 43, 22, 7, 21, 51, 72, 19, 10, 9, 37, at 40' sa column na 'R_age'. Ngayon, ginagamit namin ang 'print(),' na naglalaman ng 'Random_df,' at makakatulong ito sa pag-render ng 'Random_df' DataFrame. Kakagawa lang namin ng DataFrame at hindi pa ilalapat ang 'qcut()' na paraan.








Ang icon na 'Run' ay tumutulong sa amin sa pagpapatupad ng mga code. Kapag pinindot namin ang icon na 'run', ang resulta ng code na ito ay ipapakita sa terminal ng 'Spyder' app. Ang “Random_df” DataFarme ay ipinapakita bilang resulta ng code na isinulat namin sa halimbawang ito. Ngayon, ilalapat namin ang 'qcut()' na paraan at ipapakita din ang resulta nito.




Binning namin ang data dito. Binning namin ang column na 'R_age' at inilalagay ang 'pd.qcut()' na paraan, na siyang paraan ng 'pandas' na tumutulong sa data binning. Sa pamamaraang ito, ipinapasok namin ang pangalan ng DataFrame at gayundin ang pangalan ng column kung saan gusto naming ilapat ang pamamaraang ito na 'qcut()'. Itinakda din namin ang halaga ng 'q' sa '5,' at ginagamit ito para sa pagputol ng data ng column na 'R_age' sa limang pantay na dami. Idinaragdag namin ang 'qcut()' na paraan sa 'print()', kaya ipapakita din nito ang binning data sa terminal.




Dito, ipinapakita ang data pagkatapos ng binning, at pinuputol nito ang 'R_age' sa limang dami. Ipinapakita rin nito ang mga kategorya kung saan naka-bin ang data ng column na “R_age”. Kinakatawan ng kategoryang serye ang mga “R_age” bins.






Maaari rin naming ayusin ang label para sa mga bin na ito. Idinaragdag namin ang mga label ng bin na ito para madaling bigyang-kahulugan ang mga ito. Nagdaragdag kami ng column na “R_age_qcut” sa “Random_df” kung saan idinaragdag namin ang mga label ng mga bin na ito. Muli naming ginagamit ang 'pd.qcut()' na paraan para sa pag-label sa kanila. Idinaragdag namin ang mga label na 'maliit, hindi gaanong kaunti, karaniwan, mataas, at pinakamataas' dito. Pagkatapos ay muli naming inilagay ang 'Random_df' sa 'print()'.


Ang lahat ng mga bin ay may label at ipinakita sa kinalabasan na ito. Ang column na 'R_age_qcut' ay ipinapakita sa DataFrame na ito kung saan ipinapakita ang mga may label na bin.



Halimbawa # 02

Para sa paggawa ng DataFrame, nagdagdag muna kami ng 'mga grado,' na '3, 6, 8, 7, 2, 5, 1, 9, 4, 7, at 8'. Pagkatapos, nagdaragdag kami ng mga pangalan ng mga mag-aaral sa 'mga mag-aaral,' na sina 'Peter, Bromley, James, David, Allies, John, James, Samuel, William, Howard, at Alexander'. Pagkatapos ay binubuo namin ang 'Grades_df' kung saan idinagdag namin ang 'pd.DataFrame()' na paraan, at sa paraang ito, inilalagay namin ang 'Std_name,' na lalabas bilang pangalan ng column, at nagtatalaga ng mga halaga ng 'mga mag-aaral' dito. Pagkatapos ay itinakda namin ang 'Students_grades' bilang pangalan ng column ng DataFrame at nagtalaga din ng 'mga grado' dito, na aming ginawa sa itaas. Pagkatapos nito, mayroon kaming 'print()' kung saan idinagdag namin ang 'Grades_df' para sa pag-print.


Ang DataFrame na naglalaman ng dalawang column ay ipinapakita sa resulta ng code na ito. Ngayon, ilalapat namin ang 'qcut()' na paraan sa column na 'Students_grades' para sa pag-binning ng data ng mga value ng column na ito.


Nagdagdag kami ng bagong column na 'grado' dito kung saan inilapat namin ang 'pd.qcut()' sa column na 'Students_grades', at gayundin, ginamit namin ang '4' para sa halaga ng 'q', kaya ito ay puputulin ang data sa apat na pantay na dami. Pagkatapos nito, tinutukoy namin ang mga quantile dito sa pamamagitan ng paglalagay ng mga halaga sa 'q,' na '0, .4, .8, at 1'. Pagkatapos, ipinapakita din namin ito. Ngayon, nilagyan namin ng label ang mga naka-binned na data na ito, at ang mga label na idinaragdag namin dito ay 'D, C, A, at B' at nakaimbak din sa column na 'grado'.


Dito, ang data pagkatapos ng binning ay ipinapakita dito sa column na 'grade', at pinuputol nito ang data ng column na 'Students_grades' sa apat na pantay na dami.


Ang DataFrame na nakukuha namin pagkatapos ilapat ang 'qcut()' na paraan at pagtukoy ng mga quantile ay ipinapakita sa kinalabasan na ito.


Ngayon, pagkatapos idagdag ang mga label sa mga bin na ito ay nai-render din sa kinalabasan na ito sa column na 'grado', at makikita mong itinalaga nito ang mga label ayon sa mga halaga ng bin.

Halimbawa # 03

Maaari rin naming ilapat ang pamamaraang “qcut()” sa data ng CSV file. Para dito, binasa muna namin ang data ng CSV file sa tulong ng pamamaraang 'read_csv()'. Binabasa namin ang data ng 'office2.csv' na file, at pagkatapos ay inilalagay ang data ng file na ito sa 'Office_df'. Iko-convert ng paraang ito ang data ng 'office2' file sa DataFrame at ise-save ito sa 'Office_df'. Pagkatapos, ipinapakita rin namin ang data na ito sa pamamagitan ng paglalagay ng 'Office_df' sa 'print()'. Pagkatapos nito, nagdaragdag kami ng bagong column na tinatawag na “Units_qcut,” kung saan inilalapat namin ang function na “pd.qcut()” sa column na “Mga Yunit”.

Bilang karagdagan, itinakda namin ang halaga ng variable na 'q' sa '5', na hahatiin ang data sa limang pantay na dami. Ang data, pagkatapos i-cut sa 5 pantay na dami, ay iniimbak sa column na 'Units_qcut', at idinaragdag din ang column na ito sa 'Office_df,' at ang 'Office_df' na na-render dito muli gamit ang 'print()'. Nilagyan na namin ng label ang mga binned na data na ito, idinaragdag ang mga label sa pamamaraang 'qcut()', na  'Unit 1, Unit 2, Unit 3, Unit 4, at Unit 5' at iniimbak din ang mga ito sa column na 'Mga Label' . Inire-render din namin ang DataFrame na ito kung saan idinaragdag ang column na 'Mga Label.'


Ang data na nakukuha namin pagkatapos basahin ang 'office2.csv' na file ay nai-render dito sa anyo ng DataFrame. Pagkatapos ay idinagdag ang column na 'Units_qcut', kung saan ipinapakita ang mga binned value ng column na 'Mga Yunit.' Pagkatapos nito, idinaragdag din ang column na 'Mga Label', na nagtatalaga ng mga label sa mga binned value na ito. Ginagawa ang lahat sa pamamagitan ng paggamit ng 'qcut()' na pamamaraan sa 'pandas'.

Konklusyon

Ipinaliwanag namin nang detalyado ang pamamaraang 'qcut()' sa tutorial na ito na tumutulong sa pag-binning ng data sa 'pandas'. Napag-usapan namin na ang data ay binned ayon sa quantile 'q' na halaga na aming idinagdag sa 'qcut()' na pamamaraan, at din namin inayos ang mga label sa mga binned na data na ito. Na-explore namin ang pamamaraang 'qcut()' at inilapat ang pamamaraang ito sa mga column ng DataFrame, at inilapat din namin ang pamamaraang 'qcut()' na ito sa data ng CSV file pagkatapos basahin ang mga CSV file. Iniharap namin ang kinalabasan ng lahat ng mga code sa tutorial na ito upang malinaw na ipaliwanag at ipakita ang resulta ng pamamaraang 'qcut()'.