Programiranje

Kako koristiti Data Science za obradu podataka

Data Science ili Nauka o podacima je oblast IT-a koja se velikom brzinom širi po svetu, ali i kod nas.
Ukoliko želite da se bavite analizom i obradom podataka vrlo brzo ćete se sresti  sa programskim jezikom Python.
U ovom delu ćemo objasniti neke osnove kako da počnete da učite pojedine delove Data Science-a  i šta vam je potrebno za to.

U jednom od prethodnih tekstova smo pisali kakve sve mogućnosti ima Python jezik.
Sada ćemo videti kako možemo Python da koristimo za Data Science.
Takođe, za Data Science je odličan jezik R, koji ima slične funkcije kao Python kada govorimo o podacima.

Izdvojili smo tri razloga zašto koristiti Python:

  • Python je jezik koji se relativno brzo uči
  • Python se odlično uklapa u struktrue drugih jezika
  • Python je odličan  jezik za pregled statistike, obradu i vizuelzaciju podataka i biblioteka

U ovom delu ćemo videti neke osnove Data Science-a i kako uz pomoć Pythona možete da pravite dobre stvari.

Da biste naučili kodiranje podataka, moraćete da obratite pažnju na ova četri jezika.

  • SQL
  • Python
  • R
  • Bash

O njima ćemo u nekim narednim tekstovima, a za sada ostajemo na Pythonu.

Počećemo od  jednostavnijih struktura podataka, čak iako se nikad niste bavili kodiranjem možda će vam biti zanimljivo da vidite kako sve to radi, pa polako da počnete da ulazite u svet Nauke o podacima.
Zanimljive oblasti nauke o podacima jesu i Machine Learning, Big Data i Artificial Intelligence. Ovog puta nećemo širiti previše priču u vezi sa teorijom ovih oblasti, ali ćemo se u narednim tekstovima osvrnuti i na njihovu zloupotrebu kada su u pitanju lični podaci ili privatnost ljudi.

Ukoliko samo jedno od ova četri polja računarskih tehnika savladate, smatramo da nema potrebe da se bojite za budućnost i pronalaženje posla, jer su svakako ove oblasti informatička budućnost.

Osnove Data Science-a

Za početak ćemo videti neke osnove, kao i to kako se kreiraju datoteke i kako se manipuliše podacima.
Uzećemo za primer koji može da se desi u svakodnevnom poslovanju kada imate neke podatke o ljudima i njihovim rezultatima.

Da krenemo…

U firmi ili nekoj ustanovi su se radili određeni testovi.
Jedan broj ljudi je radio testove i znamo koliko godina imaju, kao i njihova imena i prezimena.
Da bismo sve to pregledali i sortirali podatke biće nam potrebni neki od softvera kako bismo pokrenuli istraživanje.

Prvo, potrebno je da preuzmete Python, a kao drugo potrebno vam je radno okruženje da biste manipulisali podacima.
Najjednostavniji način da napravite okruženje jeste ukoliko instalirate Anaconda platformu koju možete preuzeti ovde.
Možete preuzeti instalaciju i za OS Windows .
S obzirom na to da mi radimo na Linuxu, ovde je uputstvo kako da instalirate na OS Windows i vrlo je jednostavan način.

Potrebni alati za preuzimanje:

Anaconda
Jupyter
Bokeh   u ovom delu nećemo raditi sa Bokeh, ali će vam trebati u narednom periodu

Na sledećem linku možete pronaći pomoć pri instlaciju Anaconde.
Kada ste instalirali Anacondu, potrebno je da napravite virutal enviroment, što vam je najbolja opcija za optimizaciju posla i instalaciju novih aplikacija.
Nakon potrebnih instalcija možete pokrenuti radno okruženje.

Pokretanje Jupyter programa iz terminala ide sledećom komandom

$ jupyter notebook

Kada je ova komanda izvršena otvoriće vam se stranica sa potrebnim okruženjem za rad koja izgleda ovako.

Kao što vidite u gornjem uglu, vidi se padajuću meni gde se nalaze Python 2 i Python 3 verzije.
Ukoliko se desilo da slučajno niste instalirali Python 3 obavezno pogledajte ovu instalaciju

Sada izaberite New –> Python3 i otvoriće vam se nova stranica.
Sada možemo lepo da počnemo da pišemo naš kod i da gledamo rezultate.

Na sledećoj strani možete preuzeti kompletan kod za ovu vežbu.
Napomena:  dok budete kopirali kod u vaš Jupyter, obavezno obratite pažnju da kopirate samo kolone koje su označene rednim brojevima kao npr
In [1]  In [2} itd… Redovi koji su popunjeni objašenjem ne kopirajte, jer će vam izavati grešku.