Pandas Join vs Merge

Pandas Join Vs Merge



Ang 'Pandas' ay isang tool na may mataas na pagganap para sa kapaligiran ng python. Ito ay isang 'bukas' na source code para sa pagsusuri ng data. Ang pandas join at ang pandas merge method ay ginagamit para sa pagsasama-sama ng dalawang dataframes sa iisang dataframe. Sa parehong paraan ng pandas, ang pagkakaiba ay ang pandas na 'join' function ay sumasali sa dataframe gamit ang isang index. Habang ang pandas 'merge' function ay sumasali sa dataframe sa pamamagitan ng paggamit ng index at ang column method kung saan maaari nating piliin ang nais na column mismo. Ang paraan ng pagsasanib ng mga panda ay kadalasang ginagamit kumpara sa paraan ng pagsasama ng mga panda. Ang software na gagamitin namin para sa pagpapatupad ay ang software na 'spyder', na nasa kapaligiran ng python na magbibigay sa amin ng mga benepisyo para sa pagpapatupad ng code ng pandas join method() at pandas merge() method function.

Syntax ng Pandas Join() Method

“df1. sumali ( df2 )

Ang 'df' sa itaas na syntax ay ang pagdadaglat ng 'dataframe'. Mayroong dalawang dataframe sa syntax na may function na 'dot join', na para sa pagtawag sa pamamaraan. Ito ay ang pandas na paraan ng pagsali sa dalawang dataframe. Gumagana ito sa pamamagitan ng paggamit ng index upang pagsamahin ang mga dataframe sa isang solong isa.







Syntax ng Pandas Merge() Method

“df1. pagsamahin ( df2 , sa = 'column_name' )

Ang pandas merge method syntax ay may dalawang dataframe bilang 'df1' at 'df2'. Tinatawag ng function na 'dot merge' ang paraan ng pagsali sa parehong dataframe na may hitsura ng mga column na baligtad.



Sasaklawin namin ang mga sumusunod na paraan ng pagsasama-sama ng dalawang dataframe upang magamit ang mga pamamaraan ng panda merge at panda join:



  • Nagpapatong-patong ang paraan ng Pandas Join.
  • Sumasali ang mga Panda sa pamamaraan gamit ang pag-reset ng index.
  • Paraan ng pag-merge ng mga Panda (column “kaliwa at kanan”).
  • Malinaw na paraan ng pagsasama ng Pandas.

Paglikha ng Dataframes para sa Pagpapatupad ng Pandas Merge at Pandas Join Method

Una, kailangan nating gumawa ng data frame. Para diyan, gagamitin namin ang tool na 'spyder'. Pagkatapos buksan ito, simulan ang pagsulat ng code. Mag-import ng mga panda bilang 'pd' para sa asosasyon ng mga pandas library. Mayroon kaming mga variable ng dataframe bilang 'x', 'y', 'p', at 'q na naaayon at 'a' na may mga value na '1' at 'b' na may value na itinalaga bilang '2'.





Ang output ay isang 'df' na nilikha gamit ang mga halagang itinalaga. Maaari naming gawin itong kasing laki ng data.



Paglikha ng Isa pang Dataframe

Kailangan nating gumawa ng isa pang dataframe, upang maunawaan ang mga paraan ng pagsali ng mga panda at pagsasama ng mga panda nang malinaw. Dito, mayroon kaming 'df' na nilikha na kapareho ng sa itaas na 'df', tanging ang mga halaga ay mga variable na itinalaga ay naiiba. Mayroon kaming 'h', 'j', 's' at 'd', samantalang magtalaga ng mga halaga na 'b' na may halagang '8' at 'Y' na may halaga na '3'.

Ang output ay nagpapakita ng isang simpleng 'df' na nilikha.

Halimbawa # 01: Paraan ng Pagsali ng Pandas (nagpapatong)

Ngayon, makikita natin kung paano sumali sa dalawang dataframe gamit ang pandas join method. Para sa paraang ito, maaari naming piliin ang column na gusto mong gawin mula sa dataframe. Kinuha namin ang halimbawa sa overlapping na column na 'kaliwa' mula sa 'df', para maayos namin ito gamit ang 'suffix' upang malampasan ang overlapping ng data. Dito, ang mga variable na ginamit ay 'x', 'z', 'v', 'd'. “p”, “o”, “l”, at “y” na may mga value na itinalaga bilang “3”, “6”, “7”, at “9”. Tinatawag ng '.join' ang pamamaraan, na ang align ay nakatakda sa kaliwa ay sumali na may kanang 'df' na suffix. ”. Ang 'suffix' na ginamit sa code ay dahil sa dataframe, mayroong dalawang column na may parehong pangalan na 'key' at hindi magsasapawan sa data.

Ang output ay nagpapakita ng walang overlapped na data sa paraan ng pagsali sa dalawang 'df' gamit ang pandas join method.

Halimbawa # 02: Paraan ng Pagsali ng Panda Gamit ang Index Reset

Sa halimbawang ito, hiwalay nating tutukuyin ang column na may parameter na 'on' na gagamitin bilang 'key' sa method join na tumutulong sa pagsali sa dalawang dataframe. ang pinagsamang bagay ay ginagawa sa parameter na ito. Gayundin, ang index ng isa sa dalawang 'df' ay dapat na katulad sa pagsali sa kanila. Ang mga katulad na uri ng data o data na ginagamit para sa parehong layunin ay maaaring magkasama para sa pagproseso. Gagamitin nito ang index pa rin, gamit mula sa kanan. Ang mga variable ay ang 's', 't', 'u', 'v', 'n', 'w', 'k', at 'q'. Ang mga value na itinalaga ay '3', '6', '7' at '9'. Ang “reset dot index” ay isang paraan ng mga pandas para i-reset ang index ng “df”. Ang reset index ay nagtatakda ng lahat ng integer ng iyong listahan ng dataframe mula 0 hanggang sa ang dataframe data ay pinahaba doon.

Narito ang output na ipinapakita gamit ang index na 'key' join method ng mga panda.

Halimbawa # 03: Pandas Merge Method (column “kaliwa at kanan”)

Ang paraan ng pagsasanib ay gumaganap ng katulad na operasyon gaya ng paraan ng pagsasama ng pandas. Ang parehong mga pamamaraan ay para sa pagsasama-sama ng data sa isang katulad na dataframe. Ang paraan ng pagsasama ay mas maraming nalalaman na nangangailangan ng pagtukoy sa susi. Maaari rin naming tukuyin ito sa kaliwa at kanang mga column depende sa trabaho ng iyong dataframe. Ang mga variable sa code ay 's', 'd', 'g', 'f', 'k', 'j', 'b' at 'q'. ang mga value na itinalaga ay '9', '5', '6' at '7'. Ang panlabas na pagpapatupad ng 'pagsama' ay ginagawa sa parehong 'df' sa pamamagitan ng paggamit ng parameter na 'paano' ng pandas merge method function.

Ipinapakita ng output na nakikita natin ang pinagsamang data ng dalawang dataframe. Ang 'NaN' ay kumakatawan sa 'hindi isang numero' na nangangahulugan na kung saan walang numero na nakatalaga sa data ang 'NaN' ay ipinapakita doon.

Halimbawa # 04: Ang Paraan ng Pagsasama-sama nang tahasan

Dito, sa halimbawang ito, ang paraan ng pagsasama ay ang pagkasira ng index at ang halaga ng index ay hindi ipinapalagay sa dataframe. Gagawin namin ang pamamaraang ito ayon sa gawaing kailangang gawin, kung saan ang tahasang pagtukoy ay ang pag-follow up. Isasama nito ang data batay sa isang kaliwang index o kanang index sa parameter. Ang mga variable sa dataframe na ito ay 't', 'r', 'I', 'u', 'h', 'o', 'e', at 'e'. Ang mga nakatalagang halaga ay '2', '4', '6' at '4'. Ang halimbawa sa itaas ng paraan ng pagsasanib ng pandas sa pagpili ng column ayon sa pangangailangan ay ang pinaka-presentable at mahalagang paraan ng pagsali sa dalawang dataframe. Pagsusuri sa dulo ng linya ng code tungkol sa pagiging natatangi ng merge key sa dataset.

Sa ibabang output ang index ay hindi ipinapakita nang walang index ngunit ang function ay ginaganap batay sa kanan at kaliwang index.

Konklusyon

Ang merge() at ang join() na mga pamamaraan ay parehong mga pamamaraan na napaka-maginhawa at epektibo. Pareho sa mga function na ito ay ginagamit para sa pagsali sa dalawang magkahiwalay na dataframe sa parehong dataframe ngunit may iba't ibang gamit depende sa kaso. Sa artikulong ito, natutunan namin ang mga pangunahing pagkakaiba sa pagitan ng mga pandas join at merge na paraan. Matapos gawin ang mga halimbawa at pag-unawa sa paraan ng pagsali ng mga panda, tatapusin natin ito nang may kaalaman na, kung gusto natin ng mas nababaluktot at istilo ng database na pagsali, mas mainam na sumama sa paraan ng pandas merge. Sa kabilang banda, kung gusto nating gawin ang dataframe na pinagsama-sama sa index, maaari tayong pumunta sa pandas join() method function.