8. Modifikimi i tabelave dhe shkrimi në skedar

Në këtë leksion ne demonstrojmë:

  1. si të shtoni një rresht ose kolonë të re në tabelën e indeksuar; dhe
  2. si të shkruani një tabelë në një skedar lokal.

8.1. Shtimi i rreshtave dhe kolonave

Duke llogaritur të njëjtën statistikë përsëri dhe përsëri mund të ngadalësojë në mënyrë drastike analizat e të dhënave. Prandaj është e zakonshme në analizën e grupeve të mëdha të të dhënave për të llogaritur disa gjëra paraprakisht dhe për të ruajtur vlerat në tabelë. Arsyeja është e qartë: është më e shpejtë të marrësh një vlerë të llogaritur nga tabela sesa të ekzekutosh llogaritjen nga e para.

Le ta demonstrojmë këtë në një shembull të thjeshtë. Kujtoni notat e studentëve nga klasa e mëparshme:

In [1]:
import pandas as pd
marks = [["Anne",    5, 3, 5, 2, 4, 5],
         ["Ben",     5, 5, 5, 5, 5, 5],
         ["Colin",   4, 5, 3, 4, 5, 4],
         ["Diana",   5, 5, 5, 5, 5, 5],
         ["Ethan",   3, 4, 2, 3, 3, 4],
         ["Fred",    4, 5, 3, 4, 5, 4],
         ["Gloria",  3, 3, 3, 4, 2, 3],
         ["Hellen",  5, 5, 4, 5, 4, 5],
         ["Ian",     4, 5, 4, 4, 3, 5],
         ["Jane",    2, 2, 2, 2, 2, 5],
         ["Kate",    3, 4, 5, 4, 5, 5]]
marks_df = pd.DataFrame(marks)
marks_df.columns=["Name", "Computers", "English", "Maths", "Physics", "Chemistry", "Arts"]
marks_ix = marks_df.set_index("Name")
marks_ix
Out[1]:
Computers English Maths Physics Chemistry Arts
Name
Anne 5 3 5 2 4 5
Ben 5 5 5 5 5 5
Colin 4 5 3 4 5 4
Diana 5 5 5 5 5 5
Ethan 3 4 2 3 3 4
Fred 4 5 3 4 5 4
Gloria 3 3 3 4 2 3
Hellen 5 5 4 5 4 5
Ian 4 5 4 4 3 5
Jane 2 2 2 2 2 5
Kate 3 4 5 4 5 5

Tani do të shtojmë një kolonë të re në tabelë, të llogaritim notat mesatare të studentëve dhe t'i ruajmë ato në kolonën e re. Për të shtuar një kolonë të re në tabelë vetëm caktoni disa vlera në një emër të ri të kolonës:

In [2]:
marks_ix["Avg(Student)"] = 0.0

Kjo krijon një kolonë të re të quajtur "Avg (Student)" dhe cakton zero për të gjitha shënimet në kolonë. Le të shohim se çfarë kemi arritur:

In [3]:
marks_ix
Out[3]:
Computers English Maths Physics Chemistry Arts Avg(Student)
Name
Anne 5 3 5 2 4 5 0.0
Ben 5 5 5 5 5 5 0.0
Colin 4 5 3 4 5 4 0.0
Diana 5 5 5 5 5 5 0.0
Ethan 3 4 2 3 3 4 0.0
Fred 4 5 3 4 5 4 0.0
Gloria 3 3 3 4 2 3 0.0
Hellen 5 5 4 5 4 5 0.0
Ian 4 5 4 4 3 5 0.0
Jane 2 2 2 2 2 5 0.0
Kate 3 4 5 4 5 5 0.0

Si hapin tjetër do të ruajmë notën mesatare të secilit student në hyrjen përkatëse të tabelës. Vini re se nuk na lejohet të shkruajmë marks_ix.loc [student] .men () sepse kemi një kolonë shtesë, vlera e së cilës nuk duhet të përfshihet në mesatare.

In [4]:
for student in marks_ix.index:
    marks_ix.loc[student, "Avg(Student)"] = marks_ix.loc[student, "Computers":"Arts"].mean()

Kjo është tabela e re:

In [5]:
marks_ix
Out[5]:
Computers English Maths Physics Chemistry Arts Avg(Student)
Name
Anne 5 3 5 2 4 5 4.000000
Ben 5 5 5 5 5 5 5.000000
Colin 4 5 3 4 5 4 4.166667
Diana 5 5 5 5 5 5 5.000000
Ethan 3 4 2 3 3 4 3.166667
Fred 4 5 3 4 5 4 4.166667
Gloria 3 3 3 4 2 3 3.000000
Hellen 5 5 4 5 4 5 4.666667
Ian 4 5 4 4 3 5 4.166667
Jane 2 2 2 2 2 5 2.500000
Kate 3 4 5 4 5 5 4.333333

Për të llogaritur notën mesatare për lëndë, së pari shtojmë një rresht të ri dhe e mbushim me vlera rastësore:

In [6]:
marks_ix.loc["Avg(Subj)"] = 0.0
marks_ix
Out[6]:
Computers English Maths Physics Chemistry Arts Avg(Student)
Name
Anne 5.0 3.0 5.0 2.0 4.0 5.0 4.000000
Ben 5.0 5.0 5.0 5.0 5.0 5.0 5.000000
Colin 4.0 5.0 3.0 4.0 5.0 4.0 4.166667
Diana 5.0 5.0 5.0 5.0 5.0 5.0 5.000000
Ethan 3.0 4.0 2.0 3.0 3.0 4.0 3.166667
Fred 4.0 5.0 3.0 4.0 5.0 4.0 4.166667
Gloria 3.0 3.0 3.0 4.0 2.0 3.0 3.000000
Hellen 5.0 5.0 4.0 5.0 4.0 5.0 4.666667
Ian 4.0 5.0 4.0 4.0 3.0 5.0 4.166667
Jane 2.0 2.0 2.0 2.0 2.0 5.0 2.500000
Kate 3.0 4.0 5.0 4.0 5.0 5.0 4.333333
Avg(Subj) 0.0 0.0 0.0 0.0 0.0 0.0 0.000000

dhe pastaj llogaritni mesataret dhe ruajini ato:

In [7]:
for subj in marks_ix.columns:
    marks_ix.loc["Avg(Subj)", subj] = marks_ix.loc["Anne":"Kate", subj].mean()
marks_ix
Out[7]:
Computers English Maths Physics Chemistry Arts Avg(Student)
Name
Anne 5.000000 3.000000 5.000000 2.000000 4.000000 5.000000 4.000000
Ben 5.000000 5.000000 5.000000 5.000000 5.000000 5.000000 5.000000
Colin 4.000000 5.000000 3.000000 4.000000 5.000000 4.000000 4.166667
Diana 5.000000 5.000000 5.000000 5.000000 5.000000 5.000000 5.000000
Ethan 3.000000 4.000000 2.000000 3.000000 3.000000 4.000000 3.166667
Fred 4.000000 5.000000 3.000000 4.000000 5.000000 4.000000 4.166667
Gloria 3.000000 3.000000 3.000000 4.000000 2.000000 3.000000 3.000000
Hellen 5.000000 5.000000 4.000000 5.000000 4.000000 5.000000 4.666667
Ian 4.000000 5.000000 4.000000 4.000000 3.000000 5.000000 4.166667
Jane 2.000000 2.000000 2.000000 2.000000 2.000000 5.000000 2.500000
Kate 3.000000 4.000000 5.000000 4.000000 5.000000 5.000000 4.333333
Avg(Subj) 3.909091 4.181818 3.727273 3.818182 3.909091 4.545455 4.015152

Le të shohim një shembull tjetër. Dosja PopulationSrb2017.csv në dosjen data përmban numrin e qytetarëve të Serbisë në vitin 2017 sipas gjinisë dhe moshës. Rreshti i parë është titulli i tabelës. Le të ngarkojmë tabelën dhe të hedhim një vështrim:

In [8]:
popSrb = pd.read_csv("data/PopulationSrb2017.csv")
popSrb.head()
Out[8]:
Age M F
0 0 33145 31444
1 1 33252 31105
2 2 33807 31475
3 3 34076 31952
4 4 33436 31643
In [9]:
popSrb.tail()
Out[9]:
Age M F
81 81 16552 25345
82 82 15025 23036
83 83 13522 21435
84 84 11450 18529
85 85+ 44817 78323

Le ta indeskojmë sipas moshës:

In [10]:
popSrb_ix = popSrb.set_index("Age")
popSrb_ix.head()
Out[10]:
M F
Age
0 33145 31444
1 33252 31105
2 33807 31475
3 34076 31952
4 33436 31643

Ne do t'i përdorim këto të dhëna për të bërë një analizë të vogël demografike. Ne do të llogarisim mesataren e meshkujve dhe femrave për grupmoshë dhe do ta shfaqim këtë me një grafik të vijave:

In [11]:
popSrb_ix["M/F"] = 0.0
for i in popSrb_ix.index:
    popSrb_ix.loc[i, "M/F"] = popSrb_ix.loc[i, "M"] / popSrb_ix.loc[i, "F"]
popSrb_ix.head(10)
Out[11]:
M F M/F
Age
0 33145 31444 1.054096
1 33252 31105 1.069024
2 33807 31475 1.074091
3 34076 31952 1.066475
4 33436 31643 1.056663
5 34278 32505 1.054545
6 33773 31523 1.071376
7 33892 32185 1.053037
8 34706 32396 1.071305
9 34519 32177 1.072785

The line chart is now easy to get:

In [12]:
import matplotlib.pyplot as plt
plt.figure(figsize=(20,5))
plt.plot(popSrb_ix.index, popSrb_ix["M/F"])
plt.title("The ratio of males and females in Serbia in 2017 by age")
plt.show()
plt.close()
<Figure size 2000x500 with 1 Axes>

Kurba fillon afërsisht rreth 1 (që do të thotë se ka afërsisht të njëjtin numër të meshkujve dhe femrave në ato grupmoshë), por bie shumë më poshtë se 1 (që do të thotë se në një moment ka më shumë femra sesa meshkuj). Le të zbulojmë se cilat grupmoshë janë kritike duke vizatuar një vijë horizontale në lartësinë 1:

In [13]:
plt.figure(figsize=(20,5))
plt.plot(popSrb_ix.index, popSrb_ix["M/F"])
plt.plot(popSrb_ix.index, [1.0] * len(popSrb_ix.index))
plt.title("The ratio of males and females in Serbia in 2017 by age")
plt.show()
plt.close()

Nga grafiku shohim që në grupmoshat 46 vjeç e më vonë numri i femrave është dukshëm më i madh se numri i meshkujve.

8.2. Shkrimi i tabelave në skedar

Është e rëndësishme të jemi në gjendje të shkruajmë tabela të modifikuara në skedarë, në mënyrë që të mos kemi nevojë të përsërisim llogaritjet e ndërmjetme, rezultatet e të cilave tashmë janë ruajtur në tabelë.

Funksioni to_csv shkruan një tabelë në një skedar CSV, emri i të cilit jepet si argument. Për shembull, ne kemi modifikuar tabelën popSrb_ix duke llogaritur raportin mashkull-femër për secilën grupmoshë. Ka kuptim që të shkruani këtë tabelë të re në një skedar të ri për përdorim të mëvonshëm:

In [14]:
popSrb_ix.to_csv("data/PopulationSrb2017-MF-ratio.csv")

Si një shembull tjetër, le të ngarkojmë tabelën në dispozicion në

https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv

dhe le të shkruajmë tabelën në një skedar lokal data / vendet.csv:

In [15]:
countries = pd.read_csv("https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv")
countries.to_csv("data/countries.csv")

Nëse hidhni një vështrim në skedar, do të shihni se duket diçka si kjo:

,Country,Region
0,Algeria,AFRICA
1,Angola,AFRICA
2,Benin,AFRICA
3,Botswana,AFRICA
4,Burkina,AFRICA
5,Burundi,AFRICA
6,Cameroon,AFRICA
7,Cape Verde,AFRICA
8,Central African Republic,AFRICA
9,Chad,AFRICA
(etc)

Pra, sistemi ka shkruar kolonën e indeksit (të parazgjedhur) së bashku me të dhënat përkatëse. Kjo ishte e përshtatshme për ta paraqitur gjatë shkrimit të tabelës popSrb_ix sepse tabela ishte indeksuar nga grupmoshat, por këtu nuk është ky rasti. Prandaj, do ta shkruajmë përsëri tabelën, por kësaj radhe do të udhëzojmë sistemin mos të shkruajë indeksin (i cili është, në këtë rast, një sekuencë rastësore numrash):

In [16]:
countries.to_csv("data/countries.csv", index=False)

Skedari duket kështu tani:

Country,Region
Algeria,AFRICA
Angola,AFRICA
Benin,AFRICA
Botswana,AFRICA
Burkina,AFRICA
Burundi,AFRICA
Cameroon,AFRICA
Cape Verde,AFRICA
Central African Republic,AFRICA
Chad,AFRICA
(etc)

8.3. Ushtrime

Ushtrimi 1. Shikoni kodin me kujdes dhe pastaj përgjigjuni pyetjeve më poshtë:

In [17]:
import pandas as pd

US = pd.read_html("https://simple.wikipedia.org/wiki/List_of_U.S._states", header=[0,1])[0]
US.to_csv("data/USA.csv")
  1. Në cilin format do të shkruhet tabela "U.S"?
  2. A do të shkruhet në vend, në hard diskun e kompjuterit tuaj, apo në ndonjë burim të largët?

Ushtrimi 2. Biologët deri më tani kanë klasifikuar më shumë se 2,000,000 lloje të qenieve të gjalla. Të gjitha ato janë të ndara në pesë mbretëri dhe numri i përafërt i specieve për mbretëri është dhënë në këtë tabelë:

Kingdom Number of species
Animalia 1,400,000
Plantae 290,000
Fungi 100,000
Protoctista 200,000
Prokaryotae 10,000

Kthejeni këtë tabelë në një DataFrame të indeksuar, pastaj shtoni një rresht të ri të quajtur "Total" dhe llogaritni numrin e përgjithshëm të specieve që i referohet kësaj tabele.

Ushtrimi 3. Qeliza e mëposhtme përmban të dhëna për peshën dhe gjatësinë e një djali në shtatë vitet e para të jetës së tij.

In [18]:
peroid    = ["6 m", "1.5 y", "2.5 y", "3.5 y", "4.5 y", "5.5 y", "6.5 y"]
weightKG  = [5.9,   11.5,    14.8,    20.5,    22.0,    24.2,    29.0   ]
heightCM  = [62.0,  84.0,    97.0,    115.0,   122.5,   131.5,   135.0  ]

Vendosni tabelën, shtoni një kolonë të re të quajtur "BMI" në tabelën e transpozuar dhe më pas për secilën rresht të arrini BMI (indeksi i masës trupore) duke përdorur formulën:

$$\hbox{BMI} = \frac{\hbox{weight in kilograms}}{(\hbox{height in meters})^2}$$

Shkruani tabelën e re në skedarindata/BMI.csv

Ushtrimi 4. Tani në tabelën vijuese përmbledh temperaturat më të larta dhe më të ulëta të regjistruara (në $ ^ \ circ$C) në secilin nga kontinentet:

Continent: Europe Asia Africa North America South America Australia Antarctica
Highest recorded temp: 48 54 55 56.7 48.9 50.7 19.8
Lowest recorded temp: -58.1 -67.8 -23.9 -63 -32.8 -23 -89.2

Shtoni një rresht të ri në këtë tabelë dhe llogaritni intervalin maksimal të temperaturës për secilin kontinent (duke zbritur temperaturën më të ulët të regjistruar nga temperatura më e lartë e regjistruar).

Ushtrimi 5. Kjo është një përmbledhje e shpenzimeve të një familjeje gjatë një viti (në monedhën vendase):

Item Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
Rent 8,251 8,436 8,524 8,388 8,241 8,196 8,004 7,996 7,991 8,015 8,353 8,456
Electricity 4,321 4,530 4,115 3,990 3,985 3,726 3,351 3,289 3,295 3,485 3,826 3,834
Phone (landline) 1,425 1,538 1,623 1,489 1,521 1,485 1,491 1,399 1,467 1,531 1,410 1,385
Phone (cell) 2,181 2,235 2,073 1,951 1,989 1,945 3,017 2,638 2,171 1,831 1,926 1,833
TV and Internet 2,399 2,399 2,399 2,399 2,399 2,399 2,399 2,399 2,399 2,399 2,399 2,399
Transport 1,830 1,830 1,830 1,830 1,950 1,950 1,450 1,450 1,950 1,950 2,050 2,050
Food 23,250 23,780 24,019 24,117 24,389 24,571 24,736 24,951 25,111 25,389 25,531 25,923
Rest 4,500 3,700 5,100 3,500 2,750 4,250 7,320 8,250 3,270 4,290 3,200 8,390

Kjo tabelë e shfaqur si një listë duket si kjo:

In [19]:
spendings = [
  ["Rent", 8251, 8436, 8524, 8388, 8241, 8196, 8004, 7996, 7991, 8015, 8353, 8456],
  ["Electricity", 4321, 4530, 4115, 3990, 3985, 3726, 3351, 3289, 3295, 3485, 3826, 3834],
  ["Landline", 1425, 1538, 1623, 1489, 1521, 1485, 1491, 1399, 1467, 1531, 1410, 1385],
  ["Cell", 2181, 2235, 2073, 1951, 1989, 1945, 3017, 2638, 2171, 1831, 1926, 1833],
  ["TV and Internet", 2399, 2399, 2399, 2399, 2399, 2399, 2399, 2399, 2399, 2399, 2399, 2399 ],
  ["Transport", 1830, 1830, 1830, 1830, 1950, 1950, 1450, 1450, 1950, 1950, 2050, 2050],
  ["Food", 23250, 23780, 24019, 24117, 24389, 24571, 24736, 24951, 25111, 25389, 25531, 25923],
  ["Rest", 4500, 3700, 5100, 3500, 2750, 4250, 7320, 8250, 3270, 4290, 3200, 8390]
]

(a) Kthejeni këtë në një DataFrame të indeksuar.

(b) Shtoni një rresht të ri të quajtur "Total" dhe ruani në të kostot totale të jetesës në muaj (Jan, Feb, Mar, etj).

(c) Shtoni një kolonë të re të quajtur "Avarage" dhe ruajeni në të kostot mesatare për secilin lloj të kostos (Rent, Electricity etj).

(d) Shkruani tablën e re në data/LivingCosts.csv

© 2019 Petlja.org Creative Commons License