Configuration d'Open Name Parser |
Décomposer les noms de personnes et d'entreprises et d'autres termes du champ de données name en leurs éléments de composant. |
Reference Data Path |
Spécifier les détails du chemin d'accès aux données de référence. |
Configurations des jobs |
Configurations Hadoop du job. Pour un job MapReduce, l’instance doit être de type MRJobConfig. Pour un job Spark, l’instance doit être de type SparkJobConfig.
|
Fichier d'entrée |
Pour les fichiers texte :
- Chemin d'accès au fichier
- Chemin d'accès au fichier texte d'entrée sur la plate-forme Hadoop.
- Record Separator
- Séparateur d'enregistrements utilisé dans le fichier d'entrée.
- Field Separator
- Séparateur utilisé entre deux champs consécutifs d'un enregistrement dans le fichier d'entrée.
- Qualificateur de texte
- Le caractère utilisé pour entourer les valeurs de texte dans un fichier délimité.
- Header Row Fields
- Série de champs d'en-tête du fichier d'entrée.
- Skip First Row
- Indicateur spécifiant si la première ligne doit être ignorée lors de la lecture des enregistrements du fichier d'entrée.
Cette option doit être définie sur true au cas où la première ligne est une ligne d'en-tête.
Avertissement : Appelez le constructeur approprié deFilePath .
Pour les fichiers de format ORC :
- Chemin d'accès au fichier ORC
- Chemin d'accès au fichier de format ORC d'entrée sur la plate-forme Hadoop.
Paramètres communs :
- Rapprochements de champs
- Carte de paires clé/valeur, avec les noms de colonne existante comme clés et les noms de colonne de sortie souhaitée comme valeurs.
|
Fichier de sortie |
Pour les fichiers texte :
- Chemin d'accès au fichier
- Chemin d'accès au fichier texte de sortie sur la plate-forme Hadoop.
- Field Separator
- Séparateur utilisé entre deux champs consécutifs d'un enregistrement dans le fichier de sortie.
Avertissement : Appelez le constructeur approprié deFilePath .
Pour les fichiers de format ORC :
- Chemin d'accès au fichier ORC
- Chemin d'accès au fichier de format ORC de sortie sur la plate-forme Hadoop.
Paramètres communs :
- Écraser
- Indicateur spécifiant si le fichier de sortie doit écraser tout fichier existant du même nom.
- Create Output Header
- Indicateur spécifiant si le fichier d'en-tête doit être créé ou non sur le serveur Hadoop.
|
Nom du job |
Nom du job. |