Acceda a Spark-Shell de diferentes versiones de chispa -- apache-spark campo con apache-spark-sql campo con cloudera-cdh campo con apache-spark-standalone camp Relacionados El problema

Access spark-shell from different Spark versions


4
vote

problema

Español

tl; dr : ¿es absolutamente necesario que la chispa que ejecute una bomba de chispa (controlador) tenga la exactamente la misma versión del maestro de chispa?

Estoy usando chispa 1.5.0 para conectar a chispa 1.5.0-cdh5.5.0 a través de ship-shell:

  spark-shell --master spark://quickstart.cloudera:7077 --conf "spark.executor.memory=256m"   

Se conecta, instancha el SparkContext y SqlContext Fine. Si corro:

  sqlContext.sql("show tables").show()   

muestra todas mis mesas como se esperaba.

Sin embargo, si intento acceder a los datos de una tabla:

  sqlContext.sql("select * from t1").show()   

Obtengo este error:

  java.io.InvalidClassException: org.apache.spark.sql.catalyst.expressions.AttributeReference; local class incompatible: stream classdesc serialVersionUID = 370695178000872136, local class serialVersionUID = -8877631944444173448   

full stacktrace

dice que los serialversionuids no coinciden. Mi hipótesis es que el problema es causado por tratar de conectar dos versiones diferentes de Spark. ¿Alguna idea si tengo razón?

Original en ingles

TL;DR: Is it absolutely necessary that the Spark running a spark-shell (driver) have the exactly same version of the Spark's master?

I am using Spark 1.5.0 to connect to Spark 1.5.0-cdh5.5.0 via spark-shell:

spark-shell --master spark://quickstart.cloudera:7077 --conf "spark.executor.memory=256m" 

It connects, instantiates the SparkContext and sqlContext fine. If I run:

sqlContext.sql("show tables").show() 

it shows all my tables as expected.

However, if I try to access data from a table:

sqlContext.sql("select * from t1").show() 

I get this error:

java.io.InvalidClassException: org.apache.spark.sql.catalyst.expressions.AttributeReference; local class incompatible: stream classdesc serialVersionUID = 370695178000872136, local class serialVersionUID = -8877631944444173448 

Full stacktrace

It says that the serialVersionUIDs don't match. My hypothesis is that the problem is caused by trying to connect two different versions of spark. Any ideas if I'm right?

           

Lista de respuestas

4
 
vote
vote
La mejor respuesta
 

eres absolutamente correcto.

En su shell Shell, intenta deserializar un objeto serializado de ustedes trabajadores (clúster). Como las versiones de esas clases son diferentes, obtiene el public class UseStaticMethods { public MyReturnType NewFuction ( ... ) { ... return HolderForFunctionsThatIDontKnowWhereElseToPut.MyFuction(...); } } 3 .

Intenta usar las mismas versiones de chispa y estará bien.

 

You are absolutely right.

In your spark shell, you try to deserialize a serialized object from you workers (cluster). As the versions of those classes are different, you get the java.io.InvalidClassException.

Try to use same spark versions and it will be fine.

 
 

Relacionados problema

3  Empleos de la información continua: 59 - Empleos agregados para el tiempo *** MS en mi clúster de Spark independiente  ( Continuously info jobscheduler59 added jobs for time ms in my spark stand ) 
Estamos trabajando con un grupo independiente con 8 núcleos y 32GB RAM, con 3 cúmulos de nodos con la misma configuración. Algunas veces el lote de transmis...

0  Spark 2.4 Standalone + múltiples trabajadores en un solo servidor multi-núcleo; Las presentaciones están esperando recursos  ( Spark 2 4 standalone multiple workers on a single multi core server submissio ) 
En un servidor strong> fedora de 64 bits (home) con 12-Cores 64gb-RAM , tengo Spark 2.4 Funcionamiento en el modo Standalone con la siguiente configur...

40  Apache Spark: Diferencias entre los modos de implementación del Cliente y Cluster  ( Apache spark differences between client and cluster deploy modes ) 
TL; DR: En un clúster independiente Spark, ¿cuáles son las diferencias entre los modos de cliente y desplegar clúster? ¿Cómo configuro qué modo se va a ejec...

3  ¿Es limpio disponible para el modo de clúster independiente SPROK?  ( Is fair available for spark standalone cluster mode ) 
Estoy teniendo 2 clústeres de nodos con SPARK STANDADALONE Gerente de clúster. Estoy activando más de un trabajo usando el mismo sc con Scala Multi Thread...

4  Cómo se inicia una aplicación SPARK usando SBT RUN  ( How a spark application starts using sbt run ) 
En realidad, quiero saber el mecanismo subyacente de cómo ocurre esto cuando ejecuto sbt run ¡Se inicia la aplicación SPLP! Cuál es la diferencia entre es...

0  Obtenga el estado de salida para los trabajos de chispas fallidos cuando se envíe a través de SPARK-SHIP  ( Get the exit status for failed spark jobs when submitted through spark submit ) 
Estoy enviando los trabajos de chispa usando Spark-Enviar en modo independiente. Todos estos trabajos se activan utilizando Cron. Quiero monitorear estos trab...

1  Cómo Spark_Worker_cores Configuración Impacta la concurrencia en Spark Standalone  ( How spark worker cores setting impacts concurrency in spark standalone ) 
Estoy usando un clúster SPARK 2.2.0 configurado en modo independiente. El clúster tiene 2 máquinas principales de OCTA. Este clúster es exclusivamente para tr...

72  ¿Cuál es la relación entre los trabajadores, las instancias de los trabajadores y los ejecutores?  ( What is the relationship between workers worker instances and executors ) 
En SPART STANDALONE MODE , hay nodos maestros y trabajadores. Aquí hay algunas preguntas: ¿Se refiere a 2 trabajadores un nodo trabajador con 2 procesos...

0  Spark Dynamic ResoUces Assocation en un Standalone  ( Spark dynamic resource allocation in a standalone ) 
Tengo una pregunta / problema con respecto a la asignación de recursos dinámicos. Estoy usando Spark 1.6.2 con Gerente de clústeres independiente. Tengo un ...

76  ¿Qué tipo de racimo debo elegir para Spark?  ( Which cluster type should i choose for spark ) 
Soy nuevo en Apache Spark, y acabo de enterarme de que Spark admite tres tipos de clústeres: Standalone - Significado Spark administrará su propio grupo ...




© 2022 respuesta.top Reservados todos los derechos. Centro de preguntas y respuestas reservados todos los derechos