2 Introduction
2.1 Objectifs
Cet atelier vise l’introduction de plateformes, de librairies logicielles, d’algorithmes permettant l’exécution et/ou la transformation d’un code source existant à destination d’un usage sur une plateforme de calcul intensif HPC (Grille de Calcul, Mésocentre). Il s’agit d’un atelier d’introduction à destination d’un public, non-informaticien, mais ayant déjà au moins une expérience dans un langage de programmation R et/ou Python.
Nous envisageons cet atelier en deux parties d’une demi-journée chacune.
Pour chacune des demi-journées les intervenants mettront à disposition des participants des exemples commentés de code source en R/Python avec un descriptif de la problématique associée. Ces codes seront commentés à l’oral, puis transformés -si nécessaire- en vue d’une utilisation justifiée (gain de temps, gain combinatoire, etc.) d’un environnement HPC.
Pour cela nous défricherons ensemble, autour d’un exemple simple, ce qui peut être fait avec les librairies Dask (Python) ou Targets (R).
L’après midi nous nous appuierons sur le logiciel OpenMOLE pour l’intégration puis l’orchestration planifiée (plan d’expérience) d’un code réalisée en R, et/ou en Python. Dans cet exemple nous montrons les bénéfices d’un parallélisme simple, sans modifications majeures du code source à exécuter, Eg. pour l’application d’un même modèle sur un large nombre de tuiles raster, ou l’application d’un plan d’expérience faisant varier la valeur de différents paramètres pour ce même modèle.
Dans la lignée des travaux et de l’esprit d’Openshaw (Openshaw and Turton 1999), cet atelier vise à introduire, défricher et discuter “le HPC pour la géomatique” de façon très opérationnelle, entre collègues motivés. Une première étape pour retransmettre et démocratiser ces pratiques, et cela en toute conscience des avantages et des inconvénients relatifs au contexte environnemental actuel, au sein de la communauté géomatique francophone.
2.2 HPC
High-Performance Computing (HPC) refers to any form of computing where the density of processing or the size of the problems addressed require more than a standard or commodity computing system in order to achieve the expected result under the given constraints, and the application of advanced techniques such as the use of multiple processors(tens, hundreds, thousands or even more) connected together by some kind of network to achieve a performance well above that of a single processor
Both projects began in 1993, with significant systems deployed in 1994, and both had strong impact on the community, essentially defining the range of capabilities and techniques to be incorporated to this day.
Si vous ne le connaissez pas, Openshaw est un pionnier utilisateur mais uassi promoteur du HPC dans la géomatique.
The term “HPC” is very easy : it stands for high-performance computing (or “computer” depending on context), but the definition of what is “high-performance” is vague, relative and almost constantly changing as hardware continues to improve.
It is a characteristic feature that today’s workstations now offer levels of performance (or better) than only three-five years ago required extremely expensive HPC hardware in the form of vector supercomputers.
“High performance computing and the art of parallel programming : an introduction for geographers, social scientists, and engineers” Openshaw & Turton 2000
Le HPC est à replacer dans un contexte historique particulier, celui de l’apparition et du développement de l’informatique à un rythme effrené, la loi de Moore - aujourd’hui obsolète - fixant pendant des années l’agenda des industriels en terme de performances et d’innovations. Il est toujours bon de rapeller que nous disposons tous d’un supercalculateur des années 70 de plusieurs millions de dollars dans notre poche. Un ordinateur CRAY-2 des années 1985 est capable d’une puissance de 1.9 GBFlops, quelques années plus tard le CRAY T3D utilisé par Openshaw en 1994 (Openshaw and Turton 1999) est lui capable de 76.8 GFlops théorique (76.8 billion FLoating point Operations Per Second). Aujourd’hui n’importe quel smartphone récent possède des capacité CPU + GPU cumulées qui vont bien au delà. Ce qui fait des terminaux mobiles à la fois un poids lourd en terme d’empreinte écologique doublé d’un source de computation inexploité (aussi car la dissipation thermique des téléphones est quasi nulle et tout de suite soumise à du Throtling), au moins sur le plan scientifique.
En terme de puissance brute, le mésocentre du CRIANN et sa machine Austral mise en exploitation en 2023 est capable théoriquement de 966 TFlops CPU et 1034 TFlops GPU, composé de 24768 coeurs. Pour comprendre l’évolution des performances il faut voir que l’ancienne machine Myria (2017-2023) du même mésocentre affichait 419 TFlops CPU (11304 coeurs) et 327 TFlops GPU. Cela représente un facteur de 2 environ en terme de gain de machine à machine.
2.3 Historique du calcul en Géographie/matique en France,
Fou de joie, le géographe s’appuya de tout son long sur le clavier pour en enfoncer toutes les touches ; et de la multitude des composants, circuits, transistors, condensateurs et rupteurs, des disques et des disquettes, des fils et des interfaces, des périphériques, sphériques et féériques, des matériels, des logiciels, des progiciels et de près du Ciel, monta une prodigieuse clameur.
C’était le chant du monde.
Alors le géographe s’endormit, apaisé, car il était comblé.
— Henry Chamussy - Songe d’une nuit de calcul.. - 1984
Il serait trop long de faire un historique dans ce TP, et c’est aussi un des objectifs de cet Action de Recherche que d’offrir un paysage actuel mais aussi patrimonial de ces usages du HPC en France depuis les années 1970.
Un état des lieux partiel existe, avec des angles de vues un peu différents sur les objets, les lieux et les pratiques liés au HPC, en géographie et en SHS (Rey-Coyrehourcq 2015; Lejeune 2021). Beaucoup reste à faire et c’est un patrimoine, à la fois humain, logiciel et matériel qui reste en grand danger de disparition.
2.4 Pourquoi faire ?

Là encore, c’est surement Openshaw qui a le mieux théorisé l’intérêt du HPC pour la géomatique, et cela quelque soit son époque finalement. Le livre d’Openshaw et Turton, High Performance computing and the art of parallel programming: an introduction for geographers, social scientists, and engineers paru en 2000 est l’aboutissement de cette réflexion, avec la volonté de mettre à la portée de toutes et tous les nouveaux horizons permis par l’emploi du calcul intensif.
Je rapporte ici quelqu’une des réfléxions faites par Openshaw et derrière lui l’école dite de “Leeds”, cristallisé dans ce nouveau terme Géocomputation qu’ils défendent ainsi :
GeoComputation is a relatively new term invented(or first used in its current form) in 1996. It is defined as the adoption of a large-scale computationally intensive approach to the problems of doing research in all areas of geography, including many GIS applications, although the principles are more generally applicable to other social and physical sciences ; […] It involves porting current computationally intensive activities on to HPC platforms as well as the development of new computational techniques, algorithms and paradigms that can take particular advantages of HPC hardware and the increasing availability of spatial information.
GeoComputation is not just the application of computers in geography. Nor is it just about computation for its own sake. It is meant to imply the adoption of a large-scale computationally intensive scientific paradigm as a tool for doing all manner of geographical research Some will now claim they have been doing GC for 10 or 30 years or more. This is certainly possible, but if they were then, until 1996, it was certainly called something else ; terms such as mathematical modelling,simulation, statistical modelling all spring to mind.
There are three aspects which makes GC special. Firstly, there is an emphasis on the ‘geo’ subject […] Secondly, the computation subphrase in GC is also special. It is the intensity of the computation that is especially distinctive […] Thirdly, just as important and maybe even more significant is the underlying mindset. Computation implies a very particular paradigm based on numerical approximation rather than analytical precision. It can be based on data-driven high-performance computer-powered inductive tools rather than data free, analytically based, deductive methods. It involves trying to compute solutions to problems that could not previously be solved at all. It is based on substituting vast amounts of computation as a substitute for missing knowledge or theory and even to augment intelligence. It could be data driven in a data mining sense, or it could be entirely data free with large-scale computer experimentation being used as a purely theoretical tool for understanding how complex systems work via modelling and simulation of their dynamics and behaviours.
Et comme il savait déjà cette approche critiqué, il fallait encore expliciter ce qui pourtant parait implicite, afin de couper l’herbe sous le pied des futurs detracteurs :
To summarize, GeoComputation is :
- Not another name for GIS
- Not quantitative geography
- Not extreme inductivism
- Not devoid of theory
- Not lacking of philosophy
- Not a grab-bag set of tools
Enfin, cette approche qui se veut finalement paradigmatique plus que pratique, propose les gains suivants :
- To speed up existing computer-bound activities so that more extensive theory-related experimentation can be performed or to enable real-time analysis of geoinformation ;
- To improve the quality of the results by using computing-intensive methods to reduce the number fo assumptions and remove shortcuts and simplifications forced by computational constraints that are no longer relevant ;
- To permit larger databases to be analysed and/or to obtain better results by being able to proces finer-resolution data and make good use of very large computer memory sizes, and finally ;
- To develop new approaches and new methods based on computational technologies to provide new analytical tools and models, both of which are going to be highly important in the geoinformation-rich world of the future.
Ce TP se place aujourd’hui à la fois dans le point (b) et (c), mais aussi le point (a) car on sait l’importance de ces chaine de traitements sur les arbres peuvent avoir sur la compréhension aussi des dynamiques environnementales et climatiques, et cela à l’échelle d’une observation à l’année.
2.5 Ecologie, Empreinte Numérique
La question de l’écologie et de l’environnement sont abordés sous différents aspects dans les communautés du HPC, notamment car cette communauté n’est pas homogène (JCAD est une conférence annuelle qui réunit les différents acteurs du Calcul en France) en terme d’objectifs, de moyens matériels et logiciels, et de pratiques. Mais cela serait une erreur que de penser la problématique absente, au contraire, elle se manifeste entre autre par :
- la volonté d’allonger la durée de vie et de réutiliser du matériel
- la volonté de mesurer et d’optimiser l’efficience du matériel et du logiciel
- la volonté d’efficience au sein des batiments et de l’énergie dégagée