Cómo usar S3DISTCP en el código Java -- java campo con hadoop campo con amazon-s3 campo con amazon-emr camp Relacionados El problema

How to use S3DistCp in java code


3
vote

problema

Español

Quiero copiar la salida del trabajo del clúster EMR a Amazon S3 Pro-Grammatic.

Cómo usar WARN [main] (OntDocumentManager.java:1078) - An error occurred while attempting to read from http://www.ucam.edu/ontologies/SakaiLanguageOnt. Msg was 'http://www.ucam.edu/ontologies/SakaiLanguageOnt'. com.hp.hpl.jena.shared.DoesNotExistException: http://www.ucam.edu/ontologies/SakaiLanguageOnt at com.hp.hpl.jena.rdf.arp.JenaReader.read(JenaReader.java:89) at com.hp.hpl.jena.rdf.model.impl.ModelCom.read(ModelCom.java:187) at com.hp.hpl.jena.util.FileManager.readModelWorker(FileManager.java:367) at com.hp.hpl.jena.util.FileManager.readModel(FileManager.java:335) at com.hp.hpl.jena.util.FileManager.readModel(FileManager.java:319) at com.hp.hpl.jena.ontology.OntDocumentManager.read(OntDocumentManager.java:1064) at com.hp.hpl.jena.ontology.OntDocumentManager$1.readModel(OntDocumentManager.java:1034) at com.hp.hpl.jena.rdf.model.impl.ModelMakerImpl.getModel(ModelMakerImpl.java:78) at com.hp.hpl.jena.ontology.OntDocumentManager.fetchLoadedImportModel(OntDocumentManager.java:1031) at com.hp.hpl.jena.ontology.OntDocumentManager.fetchPossiblyCachedImportModel(OntDocumentManager.java:1004) at com.hp.hpl.jena.ontology.OntDocumentManager.loadImport(OntDocumentManager.java:977) at com.hp.hpl.jena.ontology.OntDocumentManager.loadImports(OntDocumentManager.java:771) at com.hp.hpl.jena.ontology.OntDocumentManager.loadImports(OntDocumentManager.java:709) at com.hp.hpl.jena.ontology.impl.OntModelImpl.loadImports(OntModelImpl.java:1887) at com.hp.hpl.jena.ontology.impl.OntModelImpl.read(OntModelImpl.java:2150) at com.hp.hpl.jena.rdf.model.impl.ModelCom.read(ModelCom.java:211) at com.hp.hpl.jena.ontology.impl.OntModelImpl.readDelegate(OntModelImpl.java:3024) at com.hp.hpl.jena.ontology.impl.OntModelImpl.read(OntModelImpl.java:2106) at com.hp.hpl.jena.ontology.impl.OntModelImpl.read(OntModelImpl.java:2022) at OntoSakai.OntManager.loadOntModel(OntManager.java:86) at OntoSakai.WSInterface.getTypes(WSInterface.java:6) at OntoSakai.Main.main(Main.java:29) 1111 en el código Java para hacer lo mismo.

Original en ingles

I want to copy output of job from EMR cluster to Amazon S3 pro-grammatically.

How to use S3DistCp in java code to do the same.

           
 
 

Lista de respuestas

4
 
vote

HADOOP ToolRunner puede ejecutar esto .. desde S3DistCP extends Tool

a continuación es el ejemplo de uso:

 Importar org.apache.commons.logging.log; Importar org.apache.commons.logging.LogFactory; Importar org.apache.Hadoop.util.toolrunner; Importar com.amazon.external.elasticmapreduce.s3distcp.s3distcp  Clase pública Customs3DISTCP {   Registro de registro final estático privado = logfactory.getlog (aduanas3distcp.class);  PUBLICO ESTÁTICO ESTÁNICO PRINCIPAL (STRING [] ARGS) TRAWS DECEPCIÓN {      log.info ("Corriendo con Args:" + Args);       System.exit (herramientaRunner.run (nuevo S3DISTCP (), ARGS));    } 

Tienes que tener s3distcp tarro en tu Classpath Puede llamar a este programa desde un script Shell.

espero que ayude!

 

hadoop ToolRunner can run this.. since S3DistCP extends Tool

Below is the usage example:

 import org.apache.commons.logging.Log; import org.apache.commons.logging.LogFactory; import org.apache.hadoop.util.ToolRunner; import com.amazon.external.elasticmapreduce.s3distcp.S3DistCp  public class CustomS3DistCP{   private static final Log log = LogFactory.getLog(CustomS3DistCP.class);  public static void main(String[] args) throws Exception {      log.info("Running with args: " + args);       System.exit(ToolRunner.run(new S3DistCp(), args));    } 

you have to have s3distcp jar in your classpath You can call this program from a shell script.

Hope that helps!

 
 
 
 

Relacionados problema

0  ¿Cómo ejecutar varias actividades de colmena en paralelo con la tubería de datos AWS?  ( How to run multiple hive activities in parallel using aws data pipeline ) 
Queremos usar la tubería de datos AWS para automatizar el proceso de ingestión de datos. En nuestro proceso de ingestión, copiamos principalmente los archivos...

1  Running Mahout RecomendabJob On EMR  ( Running mahout recommenderjob on emr ) 
Estoy tratando de ejecutar un recomendador en Amazon EMR. Tengo un frasco llamado smartjukebox.jar (no funciona) y contiene una clase principal.TrackRecommand...

3  El módulo de importación no funciona después de completar las dependencias de Python para Spark-Enviar  ( Import module doesnt work after zipping python dependencies for spark submit ) 
Soy nuevo en Spark World y estoy tratando de lanzar algunas pruebas en grupos de Amazon EMR usando Spark 2.1.0 y Python 3.5. Para hacer esto, creé un entorn...

0  Configuración no válida en el archivo de configuración: /Home/Hadoop/Hive.Config "  ( Invalid configuration in configuration file home hadoop hive config ) 
Estoy tratando de programar trabajos de colmena usando Amazon -Emp. He seguido las instrucciones mencionadas en el enlace http://docs.laws. amazon.com/elas...

1  Ejecución de los cuadernos de Zeppelin como trabajo recurrente en Amazon EMR  ( Executing zeppelin notebooks as recurring job in amazon emr ) 
Estoy migrando de las bases de datos a Amazon EMR y planea usar los portátiles de Zeppelin en lugar de los portátiles de datos de datos. Actualmente, muchos d...

1  EMR Spark Job de AWS-CLI  ( Emr spark job from aws cli ) 
Estoy tratando de ejecutar un trabajo de chispa en EMR usando el CLI AWS. Lo que quiero es tener el inicio del servidor, ejecutar el trabajo y terminar. S...

0  Puertos para la colmena en AWS EMR  ( Ports for hive on aws emr ) 
He creado 1 nodo emr (solo maestro) con colmena. Después de abrir el puerto entrante 22, puedo ssh a EMR y Type hive y puede abrir y ejecutar las consulta...

0  Ejecutando frasco de Hadoop en Amazon EMR  ( Running hadoop jar in amazon emr ) 
He creado un frasco personalizado para una aplicación de mapas y redujo la ejecución en el flujo de trabajo de Amazon EMR. Recopilé el código en Hadoop 1.0.4,...

0  MRJOB no funciona en Amazon EMR 5.x, pero se ejecuta en EMR4.8.3  ( Mrjob does not work on amazon emr 5 x but does run on emr4 8 3 ) 
Estoy usando MRJOB en Amazon EMR. Funciona sin fallas en la EMR 4.8.3, pero cuando lo ejecuto en EMR 5.x (cualquiera de ellos), algo se vuelve loco en la API ...

1  ¿Cómo instalar CLOUDERA IMPALA en EMR?  ( How to install cloudera impala on emr ) 
Hay de todos modos puedo instalar el único impala sin el administrador de Cloudera y sin CDH. ¿Voy a utilizar la versión Apache de Hadoop? ...




© 2022 respuesta.top Reservados todos los derechos. Centro de preguntas y respuestas reservados todos los derechos