¿Spark DataFrame tiene un "nombre de fila" para cada fila como Pandas? -- python campo con pandas campo con apache-spark campo con pyspark campo con apache-spark-sql camp Relacionados El problema

Does spark dataframe have a “row name” for each row like pandas?


2
vote

problema

Español

Estoy tratando de usar marctros de datos SPARK para operar en dos archivos de datos indexando por nombre de fila. En Pandas, podemos hacer

  df.loc(['aIndex', 'anotherIndex'])   

para seleccionar dos filas en el DF por el índice (o el nombre de la fila). ¿Cómo lograr esto en el marco de datos de la chispa? Gracias.

Original en ingles

I am trying to use Spark DataFrames to operate on two DataFrames indexing by row name. In pandas, we can do

df.loc(['aIndex', 'anotherIndex']) 

to select two rows in the df by the index (or name of the row). How to achieve this in Spark DataFrame? Thanks.

              

Lista de respuestas

4
 
vote
vote
La mejor respuesta
 

No, no hay ninguna indexación de filas en Spark. Los marcos de Data Spark son más como tablas en la base de datos relacionales, por lo que si desea acceder a una fila específica, debe filtrar:

  c17  
 

No, there is no row indexing in Spark. Spark Data Frames are more like tables in relational database so if you want to access specific row you have to filter:

df = sqlContext.createDataFrame(     [("Bob", 5), ("Alice", 6), ("Chuck", 4)], ("name", "age"))  df.where("name in ('Bob', 'Alice')") df.where((df.name == "Bob") | (df.name == "Alice")) 
 
 
   
   

Relacionados problema

0  Expresión de registro de chispa para SQL DSL  ( Spark register expression for sql dsl ) 
¿Cómo puedo acceder a una expresión de catalizador (no regular UDF) en SPARK SQL SCALA DSL API? http://geospark.datasyslab.org Solo permite la ejecución b...

-1  Cómo mantener el orden de los datos al seleccionar los valores distintos de la columna del conjunto de datos  ( How to maintain the order of the data while selecting the distinct values of col ) 
Tengo un conjunto de datos como abajo, datetime24 Necesito seleccionar los valores distintos del COL1 y mi conjunto de datos resultante debe tener el pe...

1  Reemplazo de los valores de la columna del conjunto de datos de la chispa al azar de un conjunto  ( Replacing spark dataset column values randomly from a set ) 
Tener un DataSet imputadoCsv, donde quiero reemplazar al azar los valores nulos en la columna de género, digamos hombres o mujeres. imputedcsv.groupBy("Gen...

3  ¿Cómo es el esquema / datos de recuperación / sqlcontext?  ( How is spark hivecontext sqlcontext retrieving schema data ) 
Parece que no puedo encontrar mucha documentación en ella, pero cuando tire los datos de la colmena en Spark SQL, ¿cómo está recuperando el esquema, es automá...

3  Codificadores de Spark Java - CAMPOS DE CAMBIO EN LALISTAS DE COLECCIÓN  ( Spark java encoders switch fields on collectaslist ) 
Tengo el siguiente esquema en un conjunto de datos - root |-- userId: string (nullable = true) |-- data: map (nullable = true) | |-- key: string | ...

1  Pyspark DataFrame - Force ansia en caché de datos de datos - Tomar (1) VS Count ()  ( Pyspark dataframe force eager dataframe cache take1 vs count ) 
Uno de los enfoques para forzar el almacenamiento en caché / persistencia está llamando a una acción después del caché / persistente, por ejemplo: df.cache...

3  Fusionar múltiples entradas individuales a una entrada única en la guía de datos de Spark  ( Merge multiple individual entries to single entry in spark dataframe ) 
asume que tengo una partición que se parece a esto part1: {"customerId":"1","name":"a"} {"customerId":"2","name":"b"} asumir que me gustaría cambiar e...

25  Recapacitación / Datos de giro en Spark RDD y / o Spark DataFrames  ( Reshaping pivoting data in spark rdd and or spark dataframes ) 
Tengo algunos datos en el siguiente formato (ya sea RDD o Spark DataFrame): from pyspark.sql import SQLContext sqlContext = SQLContext(sc) rdd = sc.paral...

1  Pyspark equivalente a PANDAS READ_SQL_QUERY  ( Pyspark equivalent of pandas read sql query ) 
Estoy tratando de cambiar de Pandas a Pyspark y, por lo general, cuando hice mi análisis, usé pd.read_sql_query para leer los datos necesarios para el análi...

1  Generar columna de identificación determinista en la chispa  ( Generate deterministic id column on spark ) 
Yo uso la función de la ventana de la chispa row_number() Para generar una identificación para un contexto complejo con estructuras anidadas. Posteriormente...




© 2022 respuesta.top Reservados todos los derechos. Centro de preguntas y respuestas reservados todos los derechos