.read_csv()
NaN
. NaN
es la abreviación de "Not a Number", y se usará para significar valores perdidos.print(df)
.head()
nos da las primeras 5 filas de un DataFrame.n
. Por ejemplo df.head(10)
nos traería las primeras 10 filasdf.info()
nos da algunas estadísticas sobre cada columnacustomers
que contiene lo siguiente:customers['age']
para tomar los añosdf.MySecondColumn
. En nuestro ejemplo: customers.age
age
del DataFrame imdb.csv
con la notación de diccionario 2. Selecciona la columna genre
del DataFrame imdb.csv
con la notación de variable.Series
df[df.MyColumnName == desired_column_value]
. Supongamos que queremos seleccionar las películas de género “horror”num < 3
Cuando hay dos sentencias lógicas, el orden no importa porque solo aplicaría or
o and
(|, &)
isin
isin
para chequear el nombre: df.name
iloc
. Podemos solucionar esto usando el método .reset_index()
.index
. A menos que se necesiten para algo especial, podemos usar drop=True
.reset_index()
? Cuando un dataframe no tiene índices consecutivos, osea que no son secuenciales (0, 1, 2 …)
y salta algunos números. Esto se da con los subsets (selecciones de ciertas filas). Otra situación es cuando la columna que es por default el índice fue cambiada por otros valores diferentes a integers, por ejemplo names
. Pandas permite esto. Por tanto necesitamos otra vez indices