Considérations (toujours actuelles) sur l’état de la musique en temps réel

En guise d’introduction

Voilà plus d’un quart de siècle que mon esprit ne cesse d’être préoccupé, hanté même, par cette invention qui, un autre quart de siècle auparavant, a provoqué une fissure dans le monde de la musique : celle de l’électronique.

Mes premiers contacts avec la musique électronique ont eu lieu au cours des années soixante-dix. Ce serait un euphémisme que de dire qu’à cette époque, en France, les musiques électroniques et instrumentales ne faisaient pas bon ménage. La querelle qui, dans les années cinquante, opposa les « compositeurs de l’écriture » (Barraqué, Boulez et Stockhausen principalement) à ceux de « l’intuition expérimentale » (incarnés par le GRM de Pierre Schaeffer) n’est que la plus célèbre de toutes. Pour être bref, les premiers reprochaient aux seconds de n’être que des analphabètes musicaux, tandis que les seconds auraient aimé reléguer les premiers dans les greniers poussiéreux de la tradition. Provenant d’horizons culturels très différents, les compositeurs œuvraient soit dans l’une, soit dans l’autre de ces catégories, mais rarement dans les deux. Élevé dans la tradition de l’écriture instrumentale, je n’en éprouvais pas moins une réelle attirance pour les possibilités offertes par la musique électronique. Ce furent les fréquentes venues de Stockhausen à Paris, au cours des années soixante-dix, qui me firent prendre conscience de la possibilité et du grand intérêt qu’il y aurait à relier ces deux conceptions musicales en une seule. Je découvrais qu’on pouvait à la fois composer de la musique d’orchestre et de la musique électronique, et parfois, au sein d’une même œuvre. La création parisienne de Mantra, en 1973, fut pour moi un moment initiatique. J’y découvrais la richesse potentielle de l’unification des mondes instrumentaux et électroniques au sein de ce que l’on aurait pu, déjà à cette époque, appeler « la musique électronique en temps réel ». Mais cette œuvre, aussi emblématique qu’elle fut, n’en demeurait pas moins, à mes yeux, inégalement proportionnée quant à l’usage de ces deux modes d’expression. La partie électronique ne consistant qu’en une transformation passive des sons des deux pianos, à aucun moment, elle ne possédait une structuration formelle autonome, comparable dans sa construction à celle des instruments. Dans ses œuvres précédentes, ce même Stockhausen avait magistralement montré dans quelles mesures les textures électroniques pouvaient être rigoureusement composées. Mais, à l’époque de Mantra, l’état de la technologie rendait encore impossible une telle complexité dans le contexte du temps réel. Le seul support possible pour composer des formes évoluées avec les matériaux électroniques demeurait la bande magnétique.

C’est donc avec une certaine frustration, due à la difficulté de réunir ces deux modes d’expression, que j’entrepris mes premiers travaux. Autant les potentialités sonores de la musique électronique m’attiraient, autant la rigidité de son organisation temporelle n’en finissait pas de me poser problème. Ce n’est qu’au début des années quatre-vingt, avec la construction des premiers modèles de synthétiseurs en temps réel par Guiseppe di Guigno à l’Ircam, que j’entrevis immédiatement une ouverture possible vers une plus grande souplesse temporelle qui libérerait la musique électronique de ce temps figé qu’imposait la bande magnétique. Je me souviens tout particulièrement d’une séance de travail autour de Pierre Boulez et « Peppino » di Guigno, au cours de laquelle la preuve fût faite que ce que jouait le flûtiste Lawrence Beauregard pouvait être identifié par un ordinateur, et ce, quelque soit le niveau de virtuosité instrumentale. Je vécu ce jour-là comme une sorte de second moment initiatique : il était donc possible de synchroniser automatiquement la musique électronique avec le jeu instrumental. Le point le plus important de cette avancée consistait dans le retournement de la situation habituelle dans laquelle l’instrumentiste était l’esclave du déroulement automatique et inexorable d’une bande magnétique. Dorénavant ce serait l’instrumentiste, le maître du temps. Il pourrait jouer à son propre tempo, accélérer, ralentir, faire des points d’orgue, bref, retrouver toute la respiration et la liberté qui était la sienne depuis que la musique existe, l’électronique le suivrait désormais. Au cours des dix années qui suivirent, je menais, avec la collaboration du mathématicien Miller Puckette, une série de recherches dont le premier résultat allait être Jupiter, pour flûte et électronique. Cette œuvre, composée en 1987, était la première à utiliser un suiveur de partition et développait de nombreux principes d’interactivité entre la flûte et les sons de synthèse [1. J’utiliserai le terme « son de synthèse » ou « musique de synthèse » pour représenter tous les sons qui sont produits par les moyens technologiques. Dans la réalité, ils peuvent appartenir au monde de la synthèse pure, mais aussi à celui du traitement. Je considérerai qu’ils sont tous produits par un synthétiseur.]. Elle marquait le début du déclin de la musique sur bande magnétique qui, malgré quelques positions nostalgiques, voire d’arrière-garde, allait finir par disparaître. Ensuite naquirent successivement Pluton, La partition du Ciel et de l’Enfer, Neptune et En écho, œuvres dans lesquelles je développais de nouvelles relations avec le monde instrumental tout en cherchant d’aller aussi loin que possible dans les modes de communications interactifs. Pas à pas, j’entreprenais une sorte de « recherche du temps perdu », celui, continu, organique et flexible, de la musique jouée par les musiciens, et que je cherchais à réintégrer dans les musiques électroniques. J’ai alors porté tous mes efforts sur le développement de structures musicales électroniques élaborées, dépassant le simple procédé de la transformation passive des instruments, et pouvant être soumises au temps flexible d’un interprète. En d’autres termes, je voulais doter la musique de synthèse de la possibilité d’être interprétée.

Pourquoi le temps réel ?

Une critique contre le temps réel a souvent été formulée, pointant une qualité sonore insuffisante, inférieure à celle qui était produite par les moyens de l’électronique traditionnelle sur bande magnétique. Cette critique était fondée dans les débuts, mais n’a plus lieu d’être aujourd’hui car le raffinement auquel sont parvenus les moyens de la synthèse sonore n’a désormais plus rien à envier aux anciennes méthodes. Une des premières commodités du temps réel a été l’instantanéité des résultats dans des calculs parfois complexes. C’était un avantage considérable si l’on se souvient des nuits interminables, passées autrefois à attendre que les machines aient terminé leur travail avant de constater que le résultat n’était pas à la hauteur des espérances et qu’il fallait relancer les calculs pendant autant de nuits successives qu’il était nécessaire. La rapidité des calculs n’entraînait pas pour autant une plus grande rapidité dans le processus de composition. C’était parfois même le contraire. Mais lorsqu’un compositeur est à sa table de travail, ce qu’il note sur sa partition « sonne » dans sa tête et il bénéficie ainsi d’une sorte de « temps réel virtuel » qui guide son intuition et son imagination. Ce n’était pas le cas quand l’écoute du résultat n’intervenait que très longtemps après l’écriture. D’autant plus que cette « écriture » n’était en fait qu’un langage fait de nombres et de valeurs numériques, ce qui est la manière la moins intuitive qui soit pour composer de la musique. Malgré l’affirmation de Leibnitz, selon laquelle « toute musique est un calcul inconscient », il restait difficile d’appréhender une qualité sonore à la simple vue d’un listing de colonnes chiffrées. Ce fût un autre atout du temps réel, plus important que ce simple gain de temps, que d’avoir profondément modifié la manière dont un musicien transmet ses idées à une machine. Avec les premiers programmes en temps réels – et je pense particulièrement à l’invention du programme Max par Miller Puckette – l’utilisation de curseurs graphiques et virtuels a permis d’intégrer des éléments gestuels comme outils de contrôle de l’ensemble des qualités sonores. Il n’était plus besoin de formaliser numériquement une structure de timbre, car on pouvait la construire et la faire varier d’une façon analogue à celle d’un musicien qui produit le son par une variation de souffle ou une pression de l’archet. De fait, ces machines commençaient alors à ressembler à des instruments de musique, du moins dans les manières avec lesquelles on communiquait avec elles.

Enfin, le temps réel a ouvert la voie à l’interactivité entre les instruments acoustiques et les machines. Or, si de nombreux pas ont été faits pour ce rapprochement, le mode de communication qui domine le plus souvent n’est, pour le moment, qu’une sorte de « code morse ». De temps en temps, pour les besoins d’une captation ou d’une synchronisation, s’ouvre une communication entre instrument et machine, qui se referme une fois le processus de captation achevé, laissant instruments et électronique continuer de manière indépendante sans plus de relations entre eux. Ainsi ce que l’on a parfois appelé « temps réel » s’avérait souvent n’être que des séquences musicales pré-composées, comme des petits morceaux de bandes magnétiques mis bout à bout, que l’on pouvait, certes, démarrer au moment propice, mais dont le contrôle dans le temps nous échappait. On entrait dans le temps musical par de petites fenêtres, qui s’ouvraient par intermittence, pour se refermer aussitôt. Pour obtenir une véritable continuité dans la communication entre instruments et électronique et faire en sorte que la réaction de cette dernière soit non seulement instantanée, mais aussi suffisamment riche pour s’adapter aux différentes situations et se modifier dans le temps d’une œuvre, il existe un outil fondamental. L’artisan majeur d’une réussite en la matière est, sans aucun doute, le suiveur de partitions.

A l’approche du Temps retrouvé.

Un suiveur de partitions est un programme qui a mémorisé une partition et cherche à la reconnaître lorsqu’elle est jouée. Cet outil possède plusieurs niveaux de tolérance car des erreurs peuvent toujours intervenir pendant une exécution. Il est celui qui suit, pas à pas, le déroulement de la musique dans le temps et permet aux événements électroniques de se synchroniser avec une précision à laquelle l’oreille (ou une quelconque action humaine) ne peut pas atteindre. Si, depuis son invention, il a permis de retrouver une partie de ce « temps perdu », il faut bien avouer que nous sommes loin du « Temps retrouvé ». En amont de ce suiveur de partitions se dresse l’épineux problème de la détection, de la reconnaissance et de l’analyse en temps réel des sons instrumentaux. Plusieurs poches de résistances se sont trouvées sur ce chemin, certaines naturelles, comme l’extrême complexité du fonctionnement des instruments de musique, d’autres technologiques, comme la difficulté d’analyser et de reconnaître des éléments polyphoniques, d’autres enfin psychologiques : beaucoup de compositeurs hésitaient à se lancer sur une voie aussi complexe et jonchée de tant d’embûches technologiques.

Les instruments de musique ne sont en rien comparables aux objets standardisés que notre époque aime tant à produire. Mis à part les instruments du quintette à cordes, chacun possède son propre mode de fonctionnement. Flûtes, hautbois, clarinettes, bassons, cors, trompettes, trombones et tubas, bien que réagissant tous au souffle, ne possèdent guère de caractéristiques mécaniques communes. La richesse de leur diversité nous pose des problèmes d’une grande complexité lorsque l’on veut les accoupler avec la technologie moderne. Il faut souvent inventer autant de manières différentes, pour capter leurs informations, qu’il y a d’instruments. On a mis des capteurs pour détecter les doigtés sur une flûte, d’autres sous les touches d’un piano ou d’un vibraphone, on a utilisé des systèmes de vidéo pour analyser tel ou tel geste de percussionniste, on a placé des antennes pour mesurer la position d’un archet ou utilisé des méthodes spécifiques pour analyser sa pression sur une corde. D’abord purement mécaniques, les systèmes de captations ont ensuite utilisé les moyens audio, vidéo, les capteurs sensitifs, la gravitation… et souvent, c’est par le couplage de deux ou trois de ces méthodes que nous arrivons à construire des systèmes qui nous donnent satisfaction, souvent au prix d’un fouillis de fils, de câbles, de caméras et autres micros. Si l’absence de standardisation gouverne le fonctionnement de nos instruments, elle gouverne également l’attitude de ceux qui les utilisent. Tel pianiste aimera parfois enfoncer silencieusement les touches de son instrument avant de plaquer un accord, tel violoniste tiendra son archet d’une façon différente de tel autre, tel flûtiste produira un staccato beaucoup plus bref que ses collègues… La variété de gestes et de comportements est pratiquement infinie. Pour cela, nous avons appris à nos machines à apprendre, et à s’adapter à telle ou telle personnalité ; de réelles avancées ont été accomplies dans ce domaine depuis les dix dernières années.

Une des méthodes les plus unifiée pour reconnaître ou analyser les signaux acoustiques consiste à transmettre à une machine ce qui est capté par un simple micro. On peut ainsi identifier non seulement quel son est joué mais aussi quelle est sa structure et comment il évolue dans le temps. La vitesse de réaction des machines est parfois effarante dans des traits de très grande virtuosité et dépasse de beaucoup les capacités de l’oreille humaine la plus exercée. Cela permet, en outre, de capter la voix humaine sans imposer une chirurgie quelconque sur un chanteur ou une chanteuse afin de leur greffer des capteurs. Cela a toutes les apparences d’une plaisanterie, mais que l’on se souvienne de nos castrats et de ce qu’on leur faisait subir pour l’amour du beau chant ! La méthode audio semble la plus riche de toutes… jusqu’au moment où on demande à l’ordinateur d’identifier deux sons superposés. Une polyphonie, même minimale, semble pour l’instant hors des possibilités actuelles de détection audio, car deux sons qui se superposent, mélangent tous leurs harmoniques et l’on ne sait plus à quelles fondamentales chacun appartient. Seuls les instruments monodiques peuvent être utilisés avec ce procédé. Ce n’est donc pas par reconnaissance des hauteurs que l’on arrive à suivre une partition polyphonique, mais en ayant appris à une machine tous les spectres sonores qui proviennent d’une interprétation et en lui demandant de les reconnaître au moment de l’exécution. Dans le début de son roman Sound and Fury, Faulkner présente un jeune garçon atteint de débilité qui capte, néanmoins avec beaucoup de sensibilité, tous les événements qui lui parviennent mais sans pouvoir les nommer. C’est à peu près ce que fait un suiveur de partitions actuel. Il reconnaît ce qu’il a appris mais est encore incapable de nous dire s’il s’agit d’un « do » ou d’un « ré ». Ce n’est pas d’une importance capitale tant qu’on ne lui demande rien d’autre que de reconnaître. Mais il serait parfois intéressant de pouvoir augmenter le « niveau d’intelligence » de ces systèmes pour pouvoir effectuer des opérations qui seraient basées sur l’analyse fine d’un discours musical. Ainsi dans ma Partita I pour alto et électronique, il a été totalement impossible de reconnaître des doubles sons qui devaient être joués dans un ordre aléatoire. La partition prévoyait un espace de liberté de navigation dans lequel l’altiste pouvait, à son gré, modifier la musique électronique suivant le chemin qu’il prenait. Seul un système pouvant identifier « musicalement » ce qu’il captait aurait pu venir à bout de ce problème. J’ai dû alors me résoudre à adopter un ordre déterminé dans l’enchaînement de ces séquences. La recherche de méthodes fiables capables d’analyser le contenu d’une situation polyphonique me semble être l’une des priorités majeures sur laquelle les chercheurs devraient se concentrer aujourd’hui.

À cette série de problèmes, il faut ajouter un autre, d’ordre plus psychologique, pour faire le tour de ces poches de résistances qui ont freiné le développement du temps réel tel qu’il aurait dû avoir lieu. Force m’est de constater que, parmi tous les musiciens qui se sont approchés du temps réel de façon décisive, ce n’est pas dans ma famille esthétique proche – celle des compositeurs – que j’ai trouvé l’engagement le plus conséquent, mais dans un courant esthétique beaucoup plus éloigné de mes orientations artistiques : celui des musiques improvisées et des « performers ». Cette curieuse situation m’a laissé assez isolé pendant longtemps, car cette union d’orientations esthétique et technologique qui était la mienne, n’était que rarement partagée par d’autres. Le seul compositeur chez qui j’ai pu observer, durant ces années, un intérêt soutenu dans la nécessité de construire un temps réel véritablement puissant et interactif, n’est autre que Pierre Boulez. Alors directeur de l’Ircam, il fit du temps réel la priorité de recherche de cet institut et mit l’utilisation du suiveur de partition au centre de ses intérêts, comme en témoignent les œuvres Explosante-fixe et Anthème II. Ce manque d’intérêt de la part des compositeurs pour le développement d’une technologie du temps réel puissante et du suivi de partitions créa, pour de longues années, une situation stagnante. C’est une sorte de principe démocratique qui sous-tend généralement la recherche : moins un champ d’investigation est partagé par un grand nombre de personnes, moins il évolue car c’est sur la diversité des expériences que fleurissent les développements. Ce fut le cas du suivi de partition, et de celui de l’interactivité entre les instruments acoustiques et les méthodes de synthèses sonores. En revanche, l’attrait du temps réel, pour la construction de musiques de synthèse interactive, a par contre été immédiat chez les musiciens improvisateurs. Ce fût chez eux que les recherches ont avancé le plus vite. Ces musiciens concentraient tous leurs efforts sur des procédés d’analyse du son en temps réel, afin de construire des musiques de synthèses réactives à la manière dont les « performers » produisaient le son. Mais, n’écrivant pas leur musique, ils n’ont pas eu à se préoccuper d’une quelconque synchronisation avec une partition. Les compositeurs de musique écrite demeuraient réticents face à cette absence de prédétermination qui consistait à attraper, « à la volée » dans le jeu instrumental, les éléments nécessaires à la création des sons électroniques. Eux voulaient fixer, et avec le maximum de précision, les configurations sonores de leur invention afin que se reproduise le même résultat au cours de différentes interprétations de la même œuvre. Cette attitude est évidemment en accord avec la pratique contemporaine de la musique instrumentale qui est basée sur des notations de plus en plus précises. De par ma formation et mes orientations esthétiques, c’est dans cette dernière direction que s’inscrit ma démarche et non dans celle des musiques improvisées.

L’improvisation m’a toujours semblé ne prendre un réel sens artistique qu’à partir du moment où certains éléments étaient au préalablement déterminés. La musique classique indienne ou la tradition du jazz en sont des exemples connus. Les musiques entièrement improvisées, si prisées de nos jours, mettent souvent en œuvre un « performer » et un ordinateur. La plupart du temps, rien n’est prédéterminé. La machine est censée réagir au contenu acoustique de ce que le musicien joue, ce qu’elle fait généralement très bien. C’est la toute puissance de nos calculateurs qui est alors mise sur scène. On sait qu’ils réagiront d’une façon ou d’une autre à ce que le musicien inventera sur le moment. Mais lorsque aucune structure musicale ne sert de base à la création spontanée, la musique reproduit des archétypes formels souvent simplistes, standardisés, et connotés. Trop fréquemment le résultat bascule tantôt du côté d’une complexité maximale, tantôt dans celui d’une simplicité désarmante. Et l’on sait qu’au niveau de la perception, ces extrêmes se rejoignent. On y décèle des comportements, que l’on pourrait qualifier de basiques car, quand bien même ils partageraient un large spectre d’expressions musicales avec les compositions écrites, ils sont présentés dans la simplicité d’une succession linéaire, comme pour une démonstration. On y reconnaît l’imitation, l’influence, le contraste, la progression vers une tension qui sera obligatoirement suivie par une détente avant une nouvelle progression… Tous ces phénomènes existent aussi dans les musiques écrites, mais, à la différence de ces improvisations, ils peuvent être insérés dans des formes temporelles élaborées. Les formes temporelles des musiques totalement improvisées, bien qu’il s’y produisent parfois des réussites sonores indéniables, sont pareilles à un nuage qui change constamment d’aspect, dans une pure linéarité, avant de disparaître. La raison en est simplement qu’un discours musical élaboré est une chose beaucoup trop complexe pour être inventé et présenté sur le champ. Les phénomènes de mémoire, de prémonition, la construction de formes hybrides, les stratégies de préparation et de conclusion, les transitions, les proportions, les courts-circuits ne peuvent s’improviser. Cela demande une réflexion critique, des esquisses, des biffures, des recommencements, et je ne pense pas qu’il existe un seul cerveau humain capable d’organiser toutes ces formes, parfois simultanément, dans l’instant même où elles sont présentées. L’ordre dans lequel apparaissent les différents éléments d’une composition musicale ne respecte pas obligatoirement, peu s’en faut, celui dans lequel ils sont nés dans l’imagination du compositeur. Une introduction peut très bien naître d’une transition, comme un motif peut être déduit de ce qui aura valeur de son propre commentaire. Le « temps réel » de la composition, qui est le propre de l’improvisation entièrement spontanée, est impuissant à même imaginer de telles constructions, encore plus à les mettre en œuvre.

Il faut, à mon sens, qu’il existe une partie du discours musical déjà déterminée d’une manière ou d’une autre. Et s’il fallait relever encore une différence fondamentale entre les musiques improvisées et écrites, je dirais qu’elle se trouve dans le fait de déterminer et de séparer ce qui doit être fixé, de ce qui ne l’est pas, ou ne peut pas l’être. On peut vouloir concevoir des musiques de synthèse comme on conçoit des partitions écrites, et déterminer ce que l’on veut exprimer avec le maximum de précision. Ce sont là des attitudes artistiques tout à fait respectables. Mais si la partition instrumentale est un support fixe et non modifiable, la façon dont elle va être interprétée ne rentre pas dans ces catégories de reproductibilité à l’identique. L’interprétation, par définition, n’est pas déterministe. On ne peut raisonnablement pas parler d’interprétation lorsqu’on connaît d’avance exactement ce qui va se produire. L’interprétation n’est pas, non plus, totalement aléatoire. Elle se situe dans une région intermédiaire entre les deux et se produit « en temps réel ». Ces notions de temps réel et de temps différé ne sont pas une chasse gardée de la technologie informatique, mais appartiennent aussi à la pratique musicale traditionnelle. La séparation entre valeurs fixes et variables, déterminées et indéterminées, constitue sans doute l’élément le plus important de toute cette problématique. On ne peut pas faire l’économie d’un examen attentif de cette situation si l’on veut, tout à la fois, sortir définitivement de la rigidité et du déterminisme hérité de la musique sur bande sans tomber pour autant dans une pratique qui relèverait de la seule spontanéité. Pour continuer ce rapprochement entre les musiques instrumentales et électroniques, il n’y a pas meilleure méthode qu’examiner le contexte traditionnel de nos partitions musicales.

La partition, son interprétation et les ordinateurs.

Une partition fixe des valeurs que l’on pourrait considérer comme « absolues » car, idéalement, on devrait pouvoir les vérifier lors de chaque nouvelle interprétation. Ce terme de valeur « absolue » n’a, à bien y regarder, de réalité que dans le seul cadre d’un écrit. Mais c’est aussi suivant le degré de mécanicité des instruments que ces valeurs tendront à devenir absolues. La hauteur et l’évolution dynamique d’un son joué sur un violon, n’ont évidemment rien absolu car elles sont à tout moment modifiables par le mouvement d’un doigt sur une corde ainsi que par la variation d’une pression de l’archet. À l’opposé, sur un orgue, ces dimensions sont déjà mécanisées et ne dépendent d’aucun geste physique. Plus on substitue une mécanique au geste physique, plus on limite les possibilités d’interprétation. Le temps devient alors la seule variable possible dans un tel système hautement mécanisé. Pour écrire des partitions, on a créé des symboles comme les notes de la gamme et les indications de dynamiques et de durées. Ces symboles représentent en fait plus des champs que des valeurs absolues. On accepte comme un « la » toute une bande de fréquences, gravitant autour de 440 Hz. On détermine un « mezzo forte » comme un champ d’énergie sonore, encore plus vaste et imprécis que le précédent, situé entre les champs « piano » et « forte ». Les ambitus de ces champs varient selon le pouvoir discriminateur de l’oreille. Des oreilles très bien exercées reconnaissent, de façon immédiate et sans ambiguïté, un « la » d’un « la + ¼ de ton », mais divergeront grandement lorsqu’il faudra déterminer ce qui est un « piano » ou un « mezzo forte ». Une partition comporte donc des champs, plus ou moins vastes, mais qui ont la particularité d’être fixés et que l’on doit respecter.

Cependant, l’écriture d’une partition, aussi élaborée fût-elle, ne pourra jamais déterminer intégralement touts composants nécessaires à la production de la musique. La somme des phénomènes sonores que nous entendons dépasse largement celle qui provient de la notation. En d’autres termes la notation peine à déterminer la fréquence exacte d’un vibrato, la durée exacte d’un son comme la courbe exacte d’une transition entre deux sons. Elle propose un cadre qui, par son impuissance même à tout déterminer, ouvre tout un espace à l’interprétation. Il suffit de prendre l’exemple des suites pour instruments seuls de Bach, dans lesquelles ne figure aucune indication de tempo, de nuances ou d’expression, pour se faire une idée de tout ce qu’un interprète se doit de compléter pour produire un discours musical pourvu d’un sens. Une grande part d’oralité se greffe sur l’écrit pour que la musique advienne. Il ne s’agit pas d’improvisation ; mais de l’espace de l’interprétation. Ce temps de l’interprétation est fondamentalement un « temps réel » qui n’est pas fondé sur une prédétermination totale. Ces deux grandes entités, valeurs absolues ou fixes, et valeurs relatives ou mobiles, qui séparent l’écriture de l’interprétation, se trouvent aussi dans la manière dont fonctionnent les ordinateurs.

Dès leur invention, il existait deux manières fondamentales de les faire fonctionner :

1- On leur donnait une série d’instructions précises qu’ils exécutaient au moment voulu ; nous étions alors dans le pur déterminisme.

2- On leur faisait produire des nombres aléatoires que l’on acceptait ou refusait selon les cas ; nous étions dans l’indéterminisme le plus total.

Depuis l’invention des machines en temps réel [2. Ce terme est, bien sûr utilisé par commodité car il faut toujours un temps pour le calcul. En musique, il suffira que ce temps soit suffisamment court pour que l’oreille ne puisse pas le percevoir.] et grâce à de nombreux développements technologiques, il existe maintenant une troisième manière de les faire fonctionner : on leur demande de capter des informations dans le monde extérieur et de les traiter selon des règles prédéfinies. Mais dans tous les cas nous observons une séparation entre déterminisme et indéterminisme, entre ce qui est fixé et ce qui ne l’est pas, qui me semble correspondre à la séparation qui existe entre la partition et son interprétation. Ce qu’on appelle alors « temps réel » dans la composition musicale serait un abus de langage puisqu’une part des composants musicaux est souvent déjà fixée, et n’a pas pour vocation à varier d’une interprétation à l’autre. Il doit donc exister une manière de composer de la musique électronique dans laquelle, à l’image de la musique instrumentale, certains composants sont préalablement déterminés, et certains autres, soumis à des variations plus ou moins importantes selon ce que nous cherchons à exprimer. On entre alors dans ce que j’appelle « les partitions virtuelles ».

Les partitions virtuelles.

J’ai donné à ce terme la définition suivante : une partition virtuelle est une organisation musicale dans laquelle on connaît la nature des paramètres qui vont être traités mais pas toujours la valeur exacte qu’ils vont recevoir le moment voulu. Une partie de ces paramètres sera fixe et ne changera pas d’une interprétation à l’autre [3. Dans la plupart de mes œuvres électroniques, la notion de « temps réel » se vérifiera cependant toujours, car les procédés de synthèse que j’utilise ont tous en communs de n’être pas des enregistrements préalables mais d’être calculés au moment même où je le décide dans le cours de l’œuvre. Même si certains de ces paramètres ont le statut de valeurs fixes, ils ont la possibilité d’être modifiés pendant les répétitions pour s’adapter aux conditions acoustiques de telle ou telle salle de concert. Il s’agit d’un temps réel technologique mais pas musical.], une autre sera influencée par la captation d’événements extérieurs (un micro, par exemple), qui sera analysée et traitée suivant certaines règles de composition. En ce sens, toute partition ne peut qu’être virtuelle puisque son rôle est d’être interprété et de ne jamais être reproduit de manière identique. Voici quelques exemples de partitions virtuelles, dans lesquelles la musique se crée par le mariage de paramètres déjà inscrits dans la mémoire de la machine avec d’autres, qui proviennent de l’analyse en temps réel du son instrumental pendant le concert.

Lorsque j’ai composé Pluton, pour piano et électronique, en 1987, j’ai conçu des partitions dans lesquelles j’ai déterminé les seules les hauteurs des sons de synthèse. Un suiveur de partition permet de passer d’une configuration harmonique à une autre en se synchronisant avec le jeu du pianiste. Tous les autres composants sonores, nécessaires à la création des sons de synthèse, sont déduits de l’analyse du son du piano pendant l’exécution de l’œuvre. L’ordinateur effectue, au moment où joue le pianiste, une sorte de « film », constitué d’une succession rapide de petites « photographies sonores », dans lesquelles sont représentées les énergies sonores du piano, c’est-à-dire la répartition des sons en composants graves, médiums et aigus à chaque instant. Ces énergies sont appliquées à la liste des harmonies, fixées au préalable dans la mémoire de la machine. La musique de synthèse produit alors une musique dont les composants harmoniques diffèrent de ce que joue le pianiste, mais dont la distribution des énergies dans le spectre reproduit celle du piano. Les différentes attaques des sons, leurs durées, leurs intensités, le jeu des pédales et les résonances viennent nourrir, en temps réel, l’ordinateur qui applique l’image sonore du piano, dans toutes ses évolutions spectrales et temporelles, sur les sons de synthèse. La partition du pianiste est écrite avec suffisamment de liberté rythmique pour que ce dernier puisse, à son tour, réagir à ce que produit la musique de synthèse. Il y a donc une interactivité de part et d’autre.

Dans une autre section de cette même œuvre, le pianiste joue une « toccata » comme une sorte de perpetuum mobile dont chaque note est analysée en termes de hauteur, durée et intensité. La machine reproduit, en temps réel, ce que joue le piano tout en y introduisant des variations d’ordre des notes, suivant le principe des chaînes de Markov et dans une boucle infinie. À divers endroits, le pianiste intervient et, selon son jeu, cette « toccata » électronique change de timbres, de registres, se contracte, s’étire et, pour finir, se fige en grands accords jusqu’à ce qu’elle meure. J’ai utilisé un procédé similaire dans Neptune, pour 3 percussions et électronique, composé en 1990. La machine produit un autre perpetuum qui va être découpé en séquences de proportions diverses par les instruments. Selon le niveau dynamique qu’un des joueurs de vibraphone produit, ces séquences découpées varieront en longueurs, tempi et intensités. Dans ces deux cas, c’est par l’analyse de l’interprétation que cette forme de musique électronique se créé. Il s’agit de la distorsion du temps mécanique de la machine par le temps flexible de l’interprète humain.

Dans En écho, pour soprano et électronique, composé en 1991, une petite partie des paramètres nécessaires à la production des sons de synthèse, est déterminée en valeurs absolues dans le programme. L’ordinateur effectue une analyse en temps réel des variations de hauteurs et d’intensités des formants de la voix de la chanteuse et transmet instantanément le résultat au programme de synthèse. Les formants étant ce qui caractérise les différentes voyelles, les sons de synthèse produisent des harmonies complexes, mais dont le timbre épouse celui des voyelles chantées et de leurs transitions.

Enfin, dans Partita I, pour alto et électronique, composé récemment en 2006, j’ai utilisé une méthode qui permet de mesurer l’accélération d’un mouvement d’archet sur les cordes. La musique de synthèse, lorsque le soliste ne joue pas, n’est qu’une sorte de « bain sonore » tournoyant lentement sur lui-même dans un registre medium. À chaque poussée de l’archet, certains de ces sons sont propulsés dans un registre aigu tout en opérant une accélération continue de leurs rotations. Plus la poussée est forte, plus les sons accélèrent leurs tournoiements et plus ils parviennent dans les régions suraiguës. Ici, c’est l’énergie physique du soliste qui est convertie en énergie de propulsion sonore, comme lorsqu’on lance des toupies volantes en l’air.

Dans tous ces cas, la part déterminée de la musique de synthèse est réduite, car l’essentiel des composants provient de l’analyse en temps réel du signal instrumental ou vocal. Il est important de souligner que c’est grâce à la nature fondamentalement indéterministe de l’interprétation que ces configurations peuvent avoir lieu. L’ordinateur est capable d’analyser 127 manières différentes d’attaquer une note sur le piano et il serait utopique de demander au soliste de jouer précisément une valeur exacte. Je lui indique, tout au plus, un champ « mezzo forte » sachant que la valeur absolue interviendra lors de l’analyse du son. De la même manière, il serait « inhumain » de demander à une chanteuse de poser les formants de sa voix sur une fréquence précise. Je compose une mélodie sur un texte, sachant que la machine analysera tous les contenus sonores des voyelles et produira la musique de synthèse en fonction de la manière dont cette chanteuse articulera sa partie vocale. Enfin, je ne connais pas à l’avance la durée exacte des poussées d’archet qui propulseront les rotations sonores dans l’aigu, mais j’ai déterminé que dans tels champs de durées, les sons auront un comportement dont je peux prévoir les contours généraux. Il n’y a pas d’improvisations dans ces partitions virtuelles, mais une analyse précise des conditions, toujours vastes, de l’interprétation. L’idée d’un rapprochement de ces deux formes que sont la musique instrumentale et électronique trouve son plus grand intérêt dans l’intégration des phénomènes d’interprétation d’un écrit. C’est ainsi que je parviens à donner à la musique électronique la possibilité d’être interprétée. À tout moment cependant, je peux décider que tel paramètre sera déterminé au préalable et non plus influencé par des événements extérieurs. Ce sont des « verrous » que l’on peut ouvrir ou fermer. Lorsque tout est ouvert, nous sommes dans un monde proche de celui des improvisateurs, lorsque tout est fermé nous retrouvons les conditions de notre vieille bande magnétique. D’un extrême à l’autre nous naviguons entre rigueur et liberté, intuition et construction mais c’est le subtil dosage des échanges entre toutes ces catégories qui me semble le plus fécond.

S’il est possible de construire des structures sonores dotées d’un grand pouvoir de réactivité au jeu instrumental, on perçoit encore une grande résistance à la réunion des musiques acoustiques et électroniques dans un temps musical commun. Une frontière semble encore opaque entre ces deux conceptions temporelles et qui tient à la nature même du contrôle du temps dans la musique. La raison en est que l’être humain utilise des moyens plus visuels que sonores dans ce qui constitue certainement l’élément majeur du contrôle musical du temps : la possibilité de prédiction.

La prédiction temporelle.

Il existe une différence fondamentale entre le temps organisé par des machines et celui de l’être humain. Le temps produit par des machines est soumis à de multiples horloges qui le découpent en tranches suffisamment fines pour qu’il soit perçu comme un continuum, tout comme le cinéma nous donne une illusion de la continuité visuelle en déroulant 24 images fixes par secondes. Grâce à des procédés élaborés, on parvient parfois à faire intervenir des mécanismes de mémorisation et de prédiction qui rendent plus souple ce contrôle temporel. Mais, fondamentalement, le temps des machines est celui des horloges et le restera. Le temps psychologique humain, à la différence de celui des machines, est incapable d’une telle finesse dans le découpage temporel en unités si petites. Mais lorsqu’un musicien contrôle le temps, il le fait dans la continuité d’un geste ou d’une respiration. Il a aussi une conscience du passé et du futur, il fait intervenir la mémoire et surtout la prédiction. Le fait que des musiciens puissent jouer à l’intérieur d’un temps commun est un phénomène grandement visuel. C’est par un petit signe de la tête ou du bras qu’ils commencent ensemble. La continuité du geste du chef d’orchestre envoie, sans interruptions, des signaux prédictifs qui orientent les actions musicales dans la direction d’un futur proche. On devine où va « tomber » le deuxième, le troisième puis le quatrième temps. Certes, un musicien est souvent conduit à compter le temps, mais il le fait dans des proportions beaucoup plus larges et, pourrait-on dire, dans une situation de polyphonie. Il a une conscience simultanée des durées des temps et de celles de ses divisions internes. À ce titre, le temps des machines et celui de l’humain paraissent, dans leurs essences, incompatibles. Il serait vain d’attendre des premières qu’elles réagissent avec psychologie, comme des seconds qu’ils puissent compter en millièmes de secondes. Il nous faut donc pouvoir représenter, du mieux qu’on pourra le faire, le temps des machines à l’image de celui des humains. Cette fusion sera rendue possible lorsque ces machines seront capables de suivre et de reconnaître, dans sa continuité, le flux musical produit par des musiciens vivants. Nous savons très bien organiser les dimensions de hauteurs, de timbres et de spatialisations dans la musique électronique, mais nous sommes encore impuissants quant à l’organisation d’un temps qui serait véritablement musical. J’évoquerai, pour cela, une situation concrète.

Lors des répétitions de mon opéra La frontière, composé en 2003, dans une des sections devait se superposer, dans le même tempo, des glissandi de cordes à d’autres glissandi de sons de synthèses. Pour des raisons dramatiques, il a fallu accélérer le tempo de cette section. J’ai donc dirigé plus vite l’ensemble et me suis évidemment trouvé décalé avec la musique électronique qui se déroulait suivant les durées indiquées dans un programme prédéterminé. Toutes les durées de ces glissandi de synthèse (et il y en avait un certain nombre) étaient rigidement figées en valeurs exprimées en millisecondes qu’il m’a fallu recalculer dans toutes leurs proportions une nuit durant. Cette situation aurait pu être résolue d’une manière plus élégante si les outils de notation qui me servaient à composer cette musique de synthèse avaient été plus proches de ceux que j’utilise depuis que je compose de la musique. Il est curieux de constater que dans les deux grandes « écoles » qui utilisent la technologie pour faire de la musique, les méthodes de synthèse en temps réel et les systèmes d’aide à la composition musicale, ces derniers sont dotés d’outils de représentation musicale proches de ceux de l’écriture traditionnelle qui font complètement défaut aux premiers. La représentation temporelle dans les systèmes temps réel ne bénéficie d’aucun moyen symbolique qui permettrait de noter des noires, des croches, des triolets ou des indications de tempi. Le système temps réel ne connaît que des valeurs absolues et il est encore impossible de changer globalement un tempo ou de noter un accelerando. Les systèmes en temps réels ne connaissent bizarrement encore que les millisecondes ! Quand bien même ma partition électronique, après son recalcul, se trouverait temporairement mieux adaptée aux circonstances, elle n’est restée pas moins figée comme si elle avait été reproduite sur une bande magnétique. Les musiciens, qui suivaient ma battue des yeux, étaient déjà renseignés sur le moment où allait se produire le temps suivant et la continuité de mon geste était le garant d’un suivi de tempo et de toutes ses déviations possibles. Ce pouvoir était évidemment inaccessible à l’ordinateur, et il le reste, du moins dans l’état actuel de son application à la musique [4. Dans le domaine militaire, le calcul de la trajectoire future d’un missile, en vue de le faire exploser en plein vol, est un problème qui est réglé depuis longtemps. Il peut, à tous moments, être repéré dans toutes ses coordonnées spatio-temporelles et, instant par instant, on peut adapter la trajectoire de l’objet qui devra le percuter. La somme d’énergies et d’efforts qui ont été mis à la disposition de ce type de recherche, comparé à celui de la musique, ne se situe évidemment pas dans le même ordre de grandeur.].

Si des outils de représentation du temps musical avaient existé dans les programmes en temps réel, il aurait été possible d’adapter le temps courant en suivant, par des moyens visuels, la battue du chef. La dimension visuelle est d’un grand secours pour suivre une musique qui n’est pas fondée sur une fixité de tempo. Il existe cependant des cas de figures où un système de reconnaissance visuel ne serait pas approprié. Pour suivre les variations de tempi dans une pièce pour piano il n’y a guère que le son qui pourrait être pris en compte. De réelles avancées ont été faites dernièrement dans ce domaine [5. Je pense particulièrement aux travaux d’Arshia Cont à l’Ircam.] mais le jour où il sera possible de suivre, avec des moyens purement sonores, les contours temporels d’un simple prélude de Chopin ou de Debussy, un grand pas aura été accompli. Il existe cependant de nombreux cas où la prédiction temporelle est difficile. Lorsqu’on enregistre en temps réel une phrase musicale ou même parlée, et que l’on veut n’en développer qu’une seule partie, nous sommes dans l’incertitude totale des proportions qui vont être inscrites car nous ignorons pas le tempo exact de cette phrase. Un outil de représentation graphique, qui pourrait analyser en temps réel cette phrase afin de repérer automatiquement le moment recherché, devrait être inventé dans ce but.

Peut-on inventer une véritable notation pour la musique de synthèse ?

Il s’agit d’un vieux rêve auquel se sont attelés beaucoup de compositeurs. Stockhausen a poussé la précision de la notation de la musique électronique fort loin dans des œuvres telles que Kontakte ou Telemusik. Mais l’écrit, dans ces conditions, n’a pas le même statut que celui qui gouverne la pratique instrumentale, car il intervient après le processus de composition, comme une notation a posteriori. En ce sens, il est exhaustif et ne nécessite aucun complément oral. J’ai souvent pensé que l’écriture musicale était l’une des plus merveilleuses inventions de l’humanité. Elle est tout à la fois un langage symbolique, un outil conceptuel, une méthode de mémorisation, un système d’interprétation, un moyen d’écoute et un support de la pensée. À quoi ressemblerait une écriture nouvelle pour la musique de synthèse qui permettrait également d’être un outil puissant pour la composition ? Avec Miller Puckette, à l’Université de San Diego en Californie, nous nous sommes à nouveau penchés sur cette question. L’idée première était de limiter au maximum toute représentation de style numérique au profit de systèmes purement graphiques. Ainsi pourraient être dessinées des valeurs fixes, des courbes représentant des évolutions temporelles, des profils dynamiques, des glissandi, des niveaux d’entrée d’un son dans des modules de traitement, des évolutions de paramètres, etc. Un tel outil pourrait être complété par une bibliothèque de fonctions permettant d’opérer des transformations, des étirements, des contractions, des transpositions, des duplications, le tout étant unifié dans le même type de représentation. Il nous est d’abord apparu que, vu l’énorme quantité de paramètres qu’il nous faudrait représenter, une meilleure solution consisterait à garder la représentation numérique pour toute valeur qui ne serait pas variable dans le temps. Ensuite, de nombreuses questions se sont posées. Comment représenter des évolutions micro-tonales dans un système de coordonnées cartésiennes (les hauteurs en abscisse et le temps en ordonnée) tout en conservant la lisibilité de toutes les voix ? Comment écrire chaque voix, comportant elle-même une grande quantité de paramètres, sur une seule « partition » ? Jusqu’à quel point peut-on intégrer la notation musicale traditionnelle et comment l’unifier avec une notation différente dans les cas où cette première serait insuffisante ? Comment exprimer le temps d’un événement qui nous est connu (lorsqu’il fixé comme dans le cas d’une bande magnétique) par rapport à un autre qui ne l’est pas (lorsqu’il doit être déterminé par l’interprétation) ? Ce sont là des interrogations qui sont encore devant nous. Mais il me semble évident qu’un tel outil permettrait de résoudre de nombreux problèmes, ceux, principalement, qui concernent les structures de temps comme les changements et les variations de tempi.

En guise de conclusion: une théorie des « verrous ».

Faut-il le préciser, la musique de synthèse n’a de sens que là où s’arrêtent les possibilités de la musique instrumentale. Le monde sonore qu’elle porte en elle n’a pas les mêmes fondements, le même statut historique ni les mêmes attributs expressifs. Les sons instrumentaux restent chargés d’histoire et s’effacent souvent devant le discours musical. Lorsque nous entendons une symphonie classique, nous ne procédons pas systématiquement à une série d’identifications qui nous ferait dire : ici, joue une clarinette, ici une contrebasse, là un trombone… Nous avons même tendance à oublier qui joue pour nous concentrer sur ce qui est joué. Dans l’univers des sons de synthèse, il est parfois difficile de distinguer les éléments qui portent le discours du discours lui-même car, très souvent, ces éléments ne nous sont pas connus et nous ne pouvons donc ni les nommer, ni les identifier. Cette situation ne changera probablement jamais, à moins qu’une volonté de standardisation à très grande échelle soit un jour entreprise pour des raisons de classification mercantile d’étiquetage. Cela n’est pas impossible, mais il ne sera plus question d’art. On a pris conscience, au fil des années, de la nécessité d’intégrer une certaine dose d’historicité dans les sons électroniques, d’adjoindre aux sons électroniques des attributs que l’on puisse nommer et de les doter d’un aspect qui les rapproche d’une catégorie ou d’une famille connue. Que l’on compare les musiques qui se faisaient au temps des premiers programmes de synthèse sonore (Chowning, Risset) avec celles qui se composent aujourd’hui et la preuve sera évidente. Ce rapprochement entre des types morphologiques séparés n’a pas pour but de rendre totalement invisibles leurs différences. Il s’agit qu’un même champ morphologique recouvre les deux univers musicaux qui continuent de se distinguer par ailleurs. Si l’on veut affiner ce rapprochement, il me semble que l’attitude mimétique que l’on a constatée au niveau des qualités morphologiques des sons doit être conservée lorsqu’on se penche sur les structures de fonctionnement et les modes de composition. La partition et son interprétation nous fournissent un excellent modèle de ces structures. Les ordinateurs, quant à eux, deviennent des instruments à part entière, à la différence près qu’ils ne sont pas uniquement manipulables par des gestes, ou par des informations extérieures, mais peuvent se comporter comme des automates. Ils peuvent, ou non, être « sensibles » au monde extérieur. Sur l’immense chaîne des circuits qui se partagent son activité, on peut poser des « verrous » qui permettent ou interdisent l’accès du monde extérieur. C’est au compositeur de décider de la marge de liberté et d’interactivité qui doit être introduite. De ce fait les catégories du temps réel et du temps différé n’existent, pour ainsi dire, plus. La totale liberté des improvisations et la rigidité fixe de la musique entièrement calculée – reproduisant la bande magnétique – sont les extrêmes de cette situation. Dans les premières, tout est déverrouillé, dans les secondes, tout est cadenassé. Le compositeur, quant à lui, peut organiser son monde de contraintes et de libertés. C’est ainsi qu’il l’a toujours fait.

Philippe Manoury, San Diego, septembre 2007