Rating: 0
Author: milanleon

Prvo što ćemo uraditi to je da pozovemo module

import pandas as pd
import numpy as np

Sada ćemo kreirati Data Frame za naše podatke koji ćemo dodavati

raw_data = {'ime': ['Jasna', 'Marija', 'Mira', 'Jelena', 'Maja'], 
        'prezime': ['Milan', 'Vlada', ".", 'Jovica', 'Perica'], 
        'godina': [42, 52, 36, 24, 73],
        'preTestRezultat': [4, 24, 31, ".", "."],
        'postTestRezultat': ["25,000", "94,000", 57, 62, 70]}
df = pd.DataFrame(raw_data, columns = ['ime', 'prezime', 'godina', 'preTestRezultat', 'postTestRezultat'])
df

Sledećom komandom ćemo sačuvati naše podatke sa ekstenzijom .csv u prethodno napravljen direktorijum negde na desktopu

df.to_csv('/home/moses/Desktop/panda_data/primer2.csv')

Sada ćemo da uvezemo podatke

df = pd.read_csv('/home/moses/Desktop/panda_data/primer2.csv')
df

Sada ćemo da uvezemo fajl, ali bez hedera

df = pd.read_csv('/home/moses/Desktop/panda_data/primer2.csv', header=None)
df

Sada ćemo uvesti ponovo fajl, s tim da ima posebna imena kolona

df = pd.read_csv('/home/moses/Desktop/panda_data/primer2.csv', names=['UID', 'Ime', 'Prezime', 'Godina', 'Pre-Test Rezultat', 'Post-Test Rezultat'])
df

Ovde ćemo podeisti index kolone sa ID korisnika (UID)

df = pd.read_csv('/home/moses/Desktop/panda_data/primer2.csv', index_col='UID', names=['UID', 'Ime', 'Prezime', 'Godina', 'Pre-Test Rezultat', 'Post-Test Rezultat'])
df

Name Sada ćemo da uvezemo fajl sa index kolonama za Ime i Prezime

df = pd.read_csv('/home/moses/Desktop/panda_data/primer2.csv', index_col=['Ime', 'Prezime'], names=['UID', 'Ime', 'Prezime', 'Godina', 'Pre-Test Rezultat', 'Post-Test Rezultat'])
df

Sad možemo uvesti fajl sa specifičnim vrednostima koja nedostaju

df = pd.read_csv('/home/moses/Desktop/panda_data/primer2.csv', na_values=['.'])
pd.isnull(df)

Sledeće možemo probati da uvezemo takođe "." i "NA" kao vrednosti koje nedostaju u kolni Prezime, kao i "." vrednost koja nedostaje u PreTest koloni

sentinels = {'Ime': ['.', 'NA'], 'Pre-Test Rezultat': ['.']}

df = pd.read_csv('/home/moses/Desktop/panda_data/primer2.csv', na_values=sentinels)
df

Sada možemo isključiti par kolona

df = pd.read_csv('/home/moses/Desktop/panda_data/primer2.csv', na_values=sentinels, skiprows=3)
df

Sada u fajlu možemo isključiti "," i tako videti ceo broj

df = pd.read_csv('/home/moses/Desktop/panda_data/primer2.csv', thousands=',')
df

To bi bilo sve za sada.

	Unnamed: 0	ime	prezime	godina	preTestRezultat	postTestRezultat
0	False	False	False	False	False	False
1	False	False	False	False	False	False
2	False	False	True	False	False	False
3	False	False	False	False	True	False
4	False	False	False	False	True	False

Kako koristiti Data Science za obradu podataka

User Review

	ime	prezime	godina	preTestRezultat	postTestRezultat
0	Jasna	Milan	42	4	25,000
1	Marija	Vlada	52	24	94,000
2	Mira	.	36	31	57
3	Jelena	Jovica	24	.	62
4	Maja	Perica	73	.	70

	Unnamed: 0	ime	prezime	godina	preTestRezultat	postTestRezultat
0	0	Jasna	Milan	42	4	25000
1	1	Marija	Vlada	52	24	94000
2	2	Mira	.	36	31	57
3	3	Jelena	Jovica	24	.	62
4	4	Maja	Perica	73	.	70

User Review

Možda ti se i ovo svidi