Run Hadoop Pig

Run Hadoop Pig ejecuta una secuencia de comandos Apache Pig. Apache Pig es un idioma de alto nivel para expresar los programas de análisis de datos, y tiene la infraestructura para evaluar estos programas. Los programas Pig se pueden paralelizar y esto les permite manipular conjuntos de datos muy grandes.

Run Hadoop Pig le permite seleccionar las operaciones Pig, ingresar cualquier parámetro necesario y hacer que el sistema genere su secuencia de comandos Pig automáticamente. Puede ejecutar la secuencia de comandos Pig en cualquier servidor Hadoop.

Run Hadoop Pig solo funciona en servidores de archivos Hadoop. Se admiten tanto Apache Hadoop 1.x como 2.x.

Para configurar las opciones de Run Hadoop Pig:

  1. Arrastre y suelte la actividad Run Hadoop Pig al lienzo.
  2. Haga clic con el botón derecho en la actividad Ejecutar Hadoop Pig y seleccione Opciones.
  3. Los campos no nombre del servidor indican el servidor Hadoop en el que reside el archivo a procesar.
  4. Haga clic en el botón examinar ([...]) para desplazarse hasta el archivo a procesar.
  5. Seleccione el tipo de archivo. Run Hadoop Pig admite archivos delimitados y archivos de secuencia delimitados.
  6. Seleccione el delimitador y calificador de texto según sea adecuado.
  7. Haga clic en Agregar en la sección Campos y agregue los campos presentes en el archivo a procesar. En caso de archivos de secuencia, se considera el primer campo como la clave y los otros campos son parte de los valores delimitados.
  8. Seleccione la operación Recortar según lo desee. La operación de recorte elimina los espacios en blanco en el campo de entrada antes de procesarlo.
  9. Desplácese hasta la ficha de operaciones. Haga clic en Agregar para comenzar a agregar las operaciones Pig a realizar en el archivo. Esto abre el editor de Operaciones.
  10. Seleccione una operación a realizar. Las diferentes operaciones son las siguientes:
    • Ordenar: ordena los datos en orden alfabético.
    • Filtrar: le permite filtrar los datos según sus requerimientos.
    • Agregar: le permite realizar operaciones estadísticas como Sumar, Contar y otras, sobre los datos.
    • Distinguir: selecciona todos los registros únicos del campo especificado.
    • Limitar: le permite limitar el número de registros procesados a un número especificado.
  11. Use los botones Subir y Bajar para cambiar el orden de las operaciones.
  12. Una vez que seleccionó las operaciones e ingresó la entrada requerida para el procesamiento de operaciones, haga clic en Agregar para guardar su selección y regresar el editor de opciones Pig.
  13. La secuencia de comandos Pig se genera automáticamente según las operaciones seleccionadas.
    El editor le permite anular la secuencia de comandos Pig generada con su propia secuencia de comandos, según sea necesario. Haga clic en la opción Editar secuencia de comandos e ingrese su propia secuencia de comandos en el cuadro de texto de la secuencia de comandos Pig. El botón Regenerar se activa en este caso. Si desea nuevamente la secuencia de comandos generada por el sistema, haga clic en Regenerar desde la sección Secuencia de comandos Pig para generar la secuencia de comandos Pig.
  14. Puede especificar el archivo de salida de la ficha Variables. Se puede utilizar el archivo de salida en actividades subsiguientes.
  15. Haga clic en Aceptar para guardar la secuencia de comandos Pig. De manera predeterminada, el tipo de archivo de salida es el mismo que el tipo de archivo de entrada. Puede cambiar esto utilizando la secuencia de comandos Pig generada.