Crear una aplicación Java

Asegúrese de que Big Data Quality SDK esté instalado en su equipo.

Para utilizar el SDK:

  1. Cree un proyecto Java para usar el SDK según sea necesario mediante uno de estos métodos:
    1. Cree un proyecto Java específico para ejecutar la operación de calidad de datos que requiere.
      Mediante este método, tendrá que crear proyectos Java independientes para cada trabajo de calidad de datos que desee ejecutar.
    2. Cree un proyecto Java común para ejecutar cualquiera de las operaciones de calidad de los datos que desee usando los argumentos de tiempo de ejecución que correspondan.
      Mediante este método, tendrá que crear solo un proyecto Java que acepte argumentos de tiempo de ejecución correspondientes a la operación de calidad de datos que desea.
  2. Importe el archivo JAR específico del módulo Big Data Quality SDK en su proyecto para utilizar el SDK. Para ver una lista de los archivos JAR específicos del módulo, consulte Componentes de la API de Java de SDK.
  3. Importe los archivos JAR de Hadoop requeridos en el proyecto.
  4. Usando las configuraciones apropiadas, cree su aplicación para ejecutar los trabajos de calidad de datos que desea.
  5. Construya su proyecto utilizando cualquier herramienta de compilación, como Maven o Ant.
    Como resultado, se crea un archivo JAR de su proyecto.

    Por ejemplo, se creaMatchKeyGeneratorClient-with-dependencies.jar.

  6. Coloque el archivo JAR de su proyecto en la plataforma Hadoop.
  7. En la plataforma Hadoop, en un símbolo del sistema, cambie el directorio a la ruta donde colocó su archivo JAR.
  8. Ejecute el JAR del proyecto mediante el comando:
    hadoop jar <name of the JAR of your client project> <fully qualified name of the main class>
    Por ejemplo:
    hadoop jar MatchKeyGeneratorClient-with-dependencies.jar com.company.bdq.amm.mr.MatchKeyGeneratorJob
El trabajo deseado se crea y se ejecuta en la plataforma Hadoop.

Su aplicación Java accede a los datos de entrada desde la ruta especificada en la plataforma Hadoop, y crea y ejecuta el trabajo en dicha plataforma. El resultado del trabajo se vuelca en un archivo en la ruta de salida especificada en la plataforma Hadoop.