Awk
Description de l'image The-AWK-Programming-Language.svg.
Description de l'image Awk-example.png.
Informations
Développé par Alfred Aho, Brian Kernighan et Peter WeinbergerVoir et modifier les données sur Wikidata
Première version Voir et modifier les données sur Wikidata
Dernière version IEEE Std 1003.1-2008Voir et modifier les données sur Wikidata
Dépôt github.com/onetrueawk/awkVoir et modifier les données sur Wikidata
Type Utilitaire UNIX (d)
Langage de script
Programmation procédurale
Data-driven programming (en)Voir et modifier les données sur Wikidata

awk — dont le nom vient des trois créateurs, Alfred Aho, Peter Weinberger et Brian Kernighan — est un langage de traitement par lignes de fichiers plats, disponible sur la plupart des systèmes Unix et sous Windows avec MinGW, Cygwin ou Gawk. Il est principalement utilisé pour la manipulation de fichiers textuels pour des opérations de recherches, de remplacement et de transformations complexes.

Présentation

Awk est le plus souvent utilisé pour la production de fichiers textes aux spécifications particulières (échanges entre différents systèmes d'informations hétérogènes). Il est aussi utilisé comme analyseur (parser) de fichiers XML ou de fichiers textes pour générer des commandes SQL à partir des données extraites. Il peut être utilisé enfin pour des opérations de calculs complexes et mise en forme de données brutes pour faire des tableaux statistiques.

On distingue awk, la commande originale, du new awk (nawk), arrivée un peu plus tard sur le marché. Les implémentations GNU de awk, sont en fait des new awk. On trouve en général la commande awk dans /usr/bin sous Unix, mais certains systèmes GNU/Linux la placent dans /bin. Cela impose un shebang du type #!/usr/bin/env awk -f pour assurer une portabilité maximale des scripts awk.

Il agit comme un filtre programmable prenant une série de lignes en entrée (sous forme de fichiers ou directement via l'entrée standard) et écrivant sur la sortie standard, qui peut être redirigée vers un autre fichier ou programme. Un programme Awk est composé de trois blocs distincts utilisables ou non pour le traitement d'un fichier (prétraitement, traitement, post-traitement). Awk lit l'entrée ligne par ligne, puis sélectionne (ou non) les lignes à traiter par des expressions rationnelles (et éventuellement des numéros de lignes). Une fois la ligne sélectionnée, elle est découpée en champs selon un séparateur d'entrée indiqué dans le programme awk par le symbole FS (qui par défaut correspond au caractère espace ou tabulation). Puis les différents champs sont disponibles dans des variables : $1 (premier champ), $2 (deuxième champ), $3 (troisième champ), …, $NF (dernier champ).

« awk » est aussi l'extension de nom de fichier utilisée pour les scripts écrits dans ce langage (rarement utilisée).

La syntaxe est inspirée du C :
awk [options] [programme] [fichier]
où la structure du programme est :
'motif1 { action1 } motif2 { action2 } …'
Chaque ligne du fichier est comparée successivement aux différents motifs (le plus souvent des expressions rationnelles, et globalement une expression booléenne) et l'action de chaque motif renvoyant la valeur vraie est exécutée dans l'ordre des motifs. Lorsque tous les motifs ont été évalués, le programme passe au traitement de la ligne suivante.

Quelques options :

Description technique

Un fichier est divisé en enregistrements (records en anglais) eux-mêmes divisés en champs (fields en anglais). Par défaut, les enregistrements sont des lignes et les champs sont des mots.

Les séparateurs d'entrée-sortie sont stockés dans des variables et peuvent être modifiés :

On dispose de deux motifs spéciaux :

Pour définir un intervalle, on utilise la virgule comme ceci :

Plusieurs fonctions sont déjà implémentées :

On dispose de structures de contrôles. La syntaxe provient directement du C :

Par rapport au C, il y a quelques extensions :

Quelques exemples

Implémentation

Il existe divers programmes qui utilisent la syntaxe du awk original, voici les plus connus :

Voir aussi

Bibliographie

Articles connexes

Liens externes