Spark Sorter

La actividad Spark Sorter le permite clasificar cantidades enormes de registros. Esta actividad utiliza bibliotecas Apache Spark para potenciar la característica y se ejecuta en su servidor Spectrum™ Technology Platform.

Actualmente, los archivos delimitados, presentes en el servidor Spectrum™ Technology Platform, se admiten para leer los registros de entrada.

Nota: No se admiten archivos presentes en servidores remotos.
Campo Descripción
Server name (Nombre de servidor)

Indica la ubicación del archivo que selecciona como entrada.

Como la actividad Spark Sorter solo admite archivos ubicados en el Spectrum™ Technology Platform, este campo muestra Spectrum™ Technology Platform.

Nombre de archivo

Especifica la ruta al archivo. Haga clic en el botón de puntos suspensivos (...) para dirigirse al archivo que desea.

Puede leer múltiples archivos al usar el carácter comodín para leer datos desde múltiples archivos en el directorio. Los caracteres comodines * y ? son compatibles. Por ejemplo, puede especificar *.csv para leer todos los archivos con extensión .csv que se encuentran en el directorio. Para leer correctamente múltiples archivos, cada uno debe tener la misma disposición (los mismos campos en las mismas posiciones). Cualquier registro que no coincida con la disposición especificada en la ficha Campos se tratará como un registro malformado.

Atención: Si el servidor de Spectrum™ Technology Platform está ejecutándose en Unix o Linux, recuerde que estas plataformas distinguen las mayúsculas de las minúsculas en los nombres de los archivos y las rutas.
Tipo de registro Formato de los registros en el archivo. Actualmente, los formatos de archivo delimitado se admiten como entrada.
Delimitado
Archivo de texto en el que los registros se separan con un carácter de final de línea (EOL), como un retorno de carro o un salto de línea (CR o LF) y cada campo se separa con un carácter designado; por ejemplo, una coma.
Codificación de caracteres

La codificación de caracteres del archivo de entrada.

Se admite la codificación UTF-8. Para obtener más información sobre UTF, consulte unicode.org/faq/utf_bom.html.

Separador de campo

Especifica el carácter que se utiliza para separar los campos en un archivo delimitado.

Por ejemplo, este registro utiliza una barra vertical (|) como separador de campo:

7200 13TH ST|MIAMI|FL|33144

Estos caracteres disponibles para definir como separadores de campo son:

  • Espacio de claves
  • Tab
  • Coma
  • Punto
  • Punto y coma
  • Barra vertical

Si el archivo utiliza un carácter distinto como separador de campo, haga clic en el botón de los puntos suspensivos para seleccionar otro carácter como delimitador.

Text qualifier (Calificador de texto)

El carácter que se utiliza para demarcar los valores de texto en un archivo delimitado.

Por ejemplo, este registro utiliza comillas dobles (") como calificador de texto.

"7200 13TH ST"|"MIAMI"|"FL"|"33144"

Los caracteres disponibles para definir como calificadores de texto son:

  • Comilla simple (')
  • Comilla doble (")

Si el archivo utiliza un calificador de texto distinto, haga clic en el botón de los puntos suspensivos para seleccionar otro carácter como calificador de texto.

Record separator (Separador de registro)

Especifica el carácter que se utiliza para separar registros en archivos secuenciales o delimitados. Este campo no está disponible si selecciona la casilla Utilizar final de línea predeterminado .

Los parámetros de separador de registro disponibles son:

Unix (U+000A)
Un carácter de salto de línea separa los registros. Este es el separador de registros estándar para los sistemas Unix.
Macintosh (U+000D)
Un carácter de retorno de carro separa los registros. Este es el separador de registros estándar para los sistemas Macintosh.
Windows (U+000D U+000A)
Un carácter de retorno de carro seguido por un salto de línea separa los registros. Este el separador de registros estándar para los sistemas Windows.

Si su archivo utiliza un separador de registro distinto, haga clic en el botón de los puntos suspensivos para seleccionar otro carácter como separador de registro.

Use default EOL (Utilizar final de línea predeterminado)

Especifica que el separador de registro del archivo es el carácter de final de línea (EOL) predeterminado que utiliza el sistema operativo en el que se ejecuta el servidor Spectrum™ Technology Platform.

No seleccione esta opción si el archivo utiliza un carácter de final de línea distinto del que utiliza de forma predeterminada el sistema operativo del servidor. Por ejemplo, si el archivo utiliza un final de línea de Windows pero el servidor está ejecutándose en Linux, no seleccione esta opción. En su lugar, seleccione la opción Windows en el campo Separador de registro.

First row is header record (La primera fila es el registro de encabezado)

Especifica si el primer registro de un archivo delimitado contiene información del encabezado pero no datos.

Por ejemplo, este fragmento de archivo muestra una fila de encabezado en el primer registro.

"AddressLine1"|"City"|"StateProvince"|"PostalCode"
"7200 13TH ST"|"MIAMI"|"FL"|"33144"
"One Global View"|"Troy"|"NY"|12180
Salida

Especifica la ruta al archivo de salida en el servidor Spectrum™ Technology Platform. Haga clic en el botón de puntos suspensivos (...) para dirigirse al directorio de salida y el nombre del archivo que desea.

Atención: Si el servidor de Spectrum™ Technology Platform está ejecutándose en Unix o Linux, recuerde que estas plataformas distinguen las mayúsculas de las minúsculas en los nombres de los archivos y las rutas.
Sobrescribir Indica que el archivo de salida debe sobrescribir si existe un archivo con el mismo nombre, como se especifica en el campo Salida.
Concatenado Indica que todos los archivos de parte Spark se deben concatenar en un solo archivo de salida en la ubicación de Salida especificada.
Vista previa Después de seleccionar el archivo de entrada en el campo Nombre de archivo, la cuadrícula Vista previa muestra los primeros 100 registros del archivo de salida existente.

Para mostrar correctamente todos los valores de columna separados, haga clic en Regenerar en la ficha Campos.

Ficha Campos

La ficha Campos define los nombres, tipos y posiciones de campos en el archivo. Para obtener más información, consulte:

Ficha Ordenar

La ficha Ordenar define los campos según los cuales se ordenan los registros de entrada antes de enviarlos al flujo de datos. Para obtener más información, consulteOrdenación de registros.

Ficha de configuración

Si desea especificar propiedades adicionales para ejecutar el trabajo requerido, use esta ficha para definir la cantidad de pares de valores de propiedad que necesite. Puede añadir las propiedades requeridas directamente en la cuadrícula una a la vez.

Opcionalmente, para importar propiedades desde un archivo, haga clic en Importar. Vaya a la ubicación del archivo de propiedades respectivo y seleccione el archivo de formato XML. Las propiedades contenidas en el archivo importado se copian en la cuadrícula. El archivo de propiedades debe ser de formato XML y seguir la sintaxis:
<configuration>
    <property>
        <name>key</name>
        <value>some_value</value>
        <description>A brief description of the 
            purpose of the property key.</description>
    </property>
</configuration>
Nota:
  1. Si se define la misma propiedad aquí y en Management Console, los valores definidos aquí anulan a los definidos en Management Console.
  2. Si la misma propiedad existe tanto en la cuadrícula como en el archivo de propiedades importado, entonces el valor importado desde el archivo sobrescribe el valor existente en la cuadrícula para la misma propiedad.
  3. Puede importar múltiples archivos de propiedades uno tras otro, si así se requiere. Las propiedades incluidas en cada archivo importado se añaden a la cuadrícula.
  4. Asegúrese de que el archivo de propiedades esté en el servidor Spectrum™ Technology Platform.
  5. La etiqueta <description> es opcional para cada clave de propiedad en un archivo de propiedades de configuración.

Ficha Tiempo de ejecución

Nombre de campo Descripción

Nombre de archivo

Muestra el nombre del archivo seleccionado en la primera ficha.

Starting record (Registro de inicio)

Si desea omitir los registros ubicados al comienzo del archivo cuando lee registros en el flujo de datos, especifique el primer registro que desea leer. Por ejemplo, si desea omitir los primeros 50 registros de un archivo, especifique 51. El registro número 51 será el primero que se leerá en el flujo de datos.

Todos los registros

Seleccione esta opción si desea leer todos los registros, comenzando desde el registro especificado en el campo Registro de inicio hasta el final del archivo.

Máximo de registros

Seleccione esta opción si desea leer solamente cierta cantidad de registros, comenzando desde el registro especificado en el campo Registro de inicio. Por ejemplo, si desea leer los primeros 100 registros, seleccione esta opción e ingrese 100.