Cyber-renseignement : vers une lutte d’intelligences artificielles

Après trois décennies de progrès informatiques, le cyber-renseignement occupe une position centrale dans l’écosystème du renseignement. L’augmentation exponentielle du volume des données numériques produites quotidiennement contribue à renforcer cette prédominance dans la recherche d’informations ouvertes et privées. Comme le montre cet article, l’intelligence artificielle s’apprête désormais à bouleverser les techniques d’intrusions furtives dans les systèmes et la collecte des données.

En 2020, l’humanité aura produit volontairement ou non plus de 40 zettaoctets de données numériques, soit 40 x 1021 octets. En une seule minute de l’année 2016, 150 millions de mails ont été envoyés, 350 000 nouveaux tweets publiés, 530 000 photos échangées et 2,4 millions de requêtes formulées sur Google (1). Sur ce déluge de données s’élabore une économie de la connaissance qui transforme le monde, grâce notamment aux progrès fulgurants de l’intelligence artificielle (IA).

La donnée numérique, considérée comme une ressource en croissance exponentielle, crée de la valeur lorsqu’elle est correctement exploitée. Les enjeux économiques, géopolitiques et stratégiques liés à la maitrise de cette donnée mobilisent désormais deux savoir-faire technologiques centraux : d’une part, la capacité de collecte et de stockage des données, et, d’autre part, la capacité d’automatisation de l’interprétation des données collectées. En apportant des solutions fonctionnelles performantes, l’intelligence artificielle permet aujourd’hui de renforcer ces deux capacités, notamment dans les tâches de catégorisation et d’analyse de très grands volumes de données.

Or le cyber-renseignement repose, rappelons-le, sur l’acquisition d’information à partir de la collecte de données numériques ouvertes ou non. Il va connaitre d’importantes mutations dictées par les progrès de l’IA et par la course technologique mondiale qui s’engage entre les différentes structures de renseignement étatiques et privées. La tendance générale à l’automatisation et à l’autonomisation des systèmes risque ainsi de conduire à de puissants duels algorithmiques opposant les IA offensives aux IA défensives.

L’IA dans la collecte et l’exploitation de données numériques

soit produite par un opérateur humain, par un système ou par un objet connecté, la donnée numérique est en général stockée avant et durant son traitement sur un support informatique « physique » (disques d’un serveur localisé ou dans le cloud, carte mémoire, clé USB…). Cette donnée est dite ouverte lorsqu’elle est rendue publique par celui qui l’a créée, ou divulguée par celui qui l’a captée, légalement ou non. Une donnée fermée (ou privée), au contraire, n’a pas vocation à être rendue publique et doit rester inaccessible à ceux qui n’en sont pas les destinataires légitimes.

L’acquisition d’une donnée ouverte s’effectue sans effort algorithmique particulier, mais peut en revanche demander une infrastructure de grande ampleur si le volume est important (Big Data) ou si la collecte se veut exhaustive et en « temps réel ». Dans le cadre d’une collecte massive à l’échelle d’un État ou d’un géant de l’Internet, l’infrastructure de collecte et de stockage repose sur un important réseau de data centers interconnectés, alimentés par des centrales électriques de proximité. Le leader mondial Google possèderait ainsi un parc de près d’un million de serveurs répartis dans une quarantaine de data centers dont une vingtaine implantés aux États-Unis, le reste étant situé en Asie et Europe. C’est également le cas pour les grandes agences gouvernementales comme la National Security Agency (NSA) et la Central Intelligence Agency (CIA) américaines ou le Government Communications Headquarters (GCHQ) britannique, qui disposent d’importantes capacités de collecte et de stockage au sein de data centers de haute performance. Ces derniers sont dédiés à la sécurité nationale, à la surveillance de masse et au renseignement. Parallèlement, les agences de renseignement américaines ont établi des accords avec les géants industriels de l’Internet pour l’acquisition de données ciblées intervenant par exemple dans la lutte contre le terrorisme.

Une fois les données collectées et stockées, intervient la phase d’exploitation via des algorithmes adaptés aux volumes traités. Le framework* opensource Hadoop-MapReduce permet par exemple de créer des applications distribuées* et scalables* pour le stockage et le traitement de très grands volumes de données. Ainsi, l’ensemble des technologies du Big Data peut être mobilisé pour structurer ces données et les « faire parler ». L’IA intervient dans la phase d’analyse, en particulier lorsqu’il s’agit de catégoriser de manière automatique une grande quantité de données. Typiquement, l’apprentissage machine (ou machine learning) supervisé ou non supervisé, devient très pertinent pour mettre en place une reconnaissance automatique d’objets ou de contexte dans une image. Le système, composé en général d’un ou plusieurs réseau(x) de neurones artificiels, commence par être « éduqué » sur des jeux de données d’exemples dont on connait les sorties souhaitées. Cette phase d’apprentissage permet au réseau de neurones artificiels de régler ses paramètres pour devenir très performant sur les futures données à traiter, de manière autonome. L’apprentissage profond (deep learning) a connu ainsi de grands succès depuis cinq ans, notamment dans la reconnaissance faciale ou biométrique. Les progrès de l’analyse sémantique de textes rendent possibles des tris « intelligents » sur de gros volumes de mails en dépassant la simple catégorisation par mots clés. L’IA est logiquement omniprésente dans ce type de traitement.

Par ailleurs, un service de renseignement peut accéder par deux méthodes aux données numériques privées et protégées d’un individu. La première consiste à passer par un accord avec l’opérateur internet ou avec les grands fournisseurs de service en ligne que la cible utilise. Cette méthode a été employée et « industrialisée » dans le programme PRISM de la NSA, ainsi que cela a été dévoilé à la suite des révélations d’Edward Snowden en 2013 (2), rendant ainsi possibles une collecte et une cybersurveillance de masse. Une autre méthode consiste à s’introduire dans l’ordinateur ou le système informatique utilisé par la cible afin d’y installer un programme furtif (spyware) permettant de prendre le contrôle de certaines fonctionnalités de la machine et/ou d’en exfiltrer les données utiles.

L’intrusion dans un système et l’exfiltration de données privées

L’intrusion/exfiltration de données au moyen d’un spyware nécessite une préparation importante qui commence souvent par une phase d’ingénierie sociale. Durant cette phase initiale, l’attaquant analyse les défenses informatiques de la machine ciblée, mais également les habitudes numériques et la projection algorithmique* ouverte de son utilisateur. Le malware doit être suffisamment furtif pour ne pas être détecté par les antivirus et pare-feux de la cible. L’attaquant le camoufle souvent dans la pièce jointe d’un mail ou derrière un lien html malveillant. Le niveau de complexité des spywares efficaces est par nature très élevé, puisque ce programme malveillant ne doit pas être répertorié dans la base de signatures régulièrement mise à jour des antivirus commerciaux. Cette phase initiale, préparant toute cyberopération, relève du duel algorithmique qui oppose le système de défense de la cible au niveau de furtivité de la charge virale déployée par l’attaquant. La construction d’un spyware hautement furtif de prise de contrôle et d’exfiltration de données reste très complexe et nécessite une équipe structurée de développeurs, d’ingénieurs systèmes et réseau ayant une excellente expertise en cybersécurité. Les différentes rétro-analyses des célèbres spywares Stuxnet (2010), Flame (2012), Careto (2014), Equation (2015) ou Babar (2015) ont mis en lumière une sophistication et une maitrise algorithmique de haut niveau excluant de fait l’éventualité d’un développement par une cellule de hacking classique – c’est-à-dire relevant de la cyberdélinquance et n’œuvrant pas pour un service de renseignement. Ils émergent nécessairement de structures beaucoup plus sophistiquées.

Le déploiement d’un malware dans le système ciblé exploite ce que l’on nomme pudiquement le « facteur humain », mais que l’on peut résumer par la crédulité, le défaut d’attention ou de concentration et parfois la négligence humaine. Il s’agit pour l’attaquant d’inciter un utilisateur à cliquer sur un lien malveillant déclenchant l’exécution du vecteur d’intrusion du spyware et son installation sur la machine ciblée. Pour y parvenir, l’attaquant peut usurper l’identité d’un interlocuteur ou d’un site de confiance et reproduire un faux environnement numérique imitant un site officiel inspirant confiance à la cible. La qualité de la fausse donnée construite pour l’attaque est alors déterminante pour son succès. D’une manière générale, les structures de données fictives destinées à tromper l’utilisateur deviennent centrales dans l’élaboration des opérations de cyber-renseignement. C’est pourquoi les fausses architectures numériques se complexifient, comme cela a été constaté avec l’opération Newscaster-NewsOnAir.

Premier affrontement d’IA : entretien des structures de données fictives versus détection de celles-ci

« Newscaster-NewsOnAir » (3), attribuée à une unité de hackers iranienne, est une opération de cyberespionnage qui a démontré toute la puissance des fausses données pour tromper des cibles. S’inscrivant dans la durée, entre 2012 et 2014, cette cyberopération a ciblé plus de 2000 personnes à haut niveau de responsabilité aux États-Unis, en Europe et en Israël. Parmi les victimes de cette agression figurent des officiers supérieurs de l’US Army, des ingénieurs d’industries d’armement, des membres du Congrès, des chefs d’entreprises. Newscaster a été à la fois longue, structurée, adaptative et furtive. La première phase de l’opération s’est appuyée sur la construction d’un faux site web d’information intitulé NewsOnAir, implanté sur des serveurs américains sous contrôle de l’attaquant et supervisé par une rédaction d’agence de presse totalement fictive. Un noyau d’une quinzaine de profils fictifs de journalistes américains affectés à la rédaction du site a été déployé sur l’ensemble des grands réseaux sociaux (Facebook, Twitter, LinkedIn). Cette rédaction virtuelle et fictive a ensuite noué des contacts privilégiés avec ses lecteurs, puis a prospecté en direction de ses futures cibles pour leur proposer de participer à la rédaction d’articles sur le site. Au fil des mois et des échanges, la confiance s’est installée entre les journalistes fictifs et les contributeurs ciblés. Lorsqu’une cible envoyait un article à la rédaction de NewsOnAir pour publication sur le site, l’échange de fichiers était utilisé par les attaquants pour injecter des spywares (logiciels destinés à collecter de manière furtive les données présentes sur un ordinateur) sur les machines des cibles. Durant plus d’un an, des données sensibles ou classifiées ont été collectées et exfiltrées par les superviseurs de Newscaster, dans la plus stricte discrétion, jusqu’à ce que la présence des spywares finisse par être détectée par les systèmes d’antivirus.

Pour demeurer opérationnelle et efficace durant plus de deux ans, l’architecture de données fictives Newscaster-NewsOnAir ne devait pas présenter de contradiction entre les différentes composantes du dispositif (faux profils, publications régulières sur de vrais sujets d’actualité, échanges par mail avec les cibles). La cohérence de l’ensemble a été parfaitement entretenue par l’attaquant, seule garantie permettant d’instaurer la confiance. Notons qu’une seule contradiction aurait suffi pour instiller le doute, puis révéler la tromperie… Plus une structure de données fictives est sophistiquée dans le volume de données qu’elle mobilise ou dans la temporalité qu’elle adopte, plus elle devient vulnérable, notamment face aux contradictions internes. Ce principe systémique impose à l’attaquant une vigilance continue s’il veut tirer bénéfice de sa construction.

L’intelligence artificielle permet de créer de faux profils « crédibles » tout en assurant la cohérence globale du réseau fictif. La fausse rédaction de NewsOnAir était composée d’une quinzaine de journalistes. Une plateforme intelligente aurait aujourd’hui la capacité de « faire vivre » une communauté de profils fictifs beaucoup plus importante tout en garantissant sa cohérence et sa crédibilité. Symétriquement, la détection automatique des architectures de données fictives sera nécessairement confiée aux IA, seules en mesure d’analyser de grands corpus informationnels et relationnels afin d’en détecter les anomalies et les contradictions. On s’achemine à ce titre vers un premier duel opposant des IA offensives et défensives.

Deuxième affrontement d’IA : détection/exploitation versus détection/correction des vulnérabilités logicielles

La connaissance d’une vulnérabilité logicielle ou d’une faille de sécurité matérielle inédite, non divulguée, non corrigée, apporte un avantage opérationnel permettant parfois de prendre le contrôle à distance d’un système sans provoquer une alarme d’intrusion. Lorsqu’elle n’a jamais été référencée ni corrigée, une vulnérabilité logicielle s’appelle un Zero Day ou Jour zéro. Le commerce des Zero Days s’organise à partir de plateformes d’échanges sur lesquelles les vulnérabilités se négocient comme des matières premières. On le comprend aisément, les agences de renseignement ont intérêt à rester attentives au marché des Zero Days, car ces failles constituent autant de portes dérobées facilitant l’intrusion furtive dans un système et l’exfiltration de données. Cela dit, la législation européenne en matière de commerce de vulnérabilités logicielles reste très inadaptée aux réalités et au pragmatisme du marché mondial des Zero Days (4). Elle pénalise clairement des startups qui souhaiteraient s’y engager.

L’une des tendances fortes orientant la cybersécurité depuis 2014 consiste en une automatisation de la détection des vulnérabilités grâce à des plateformes embarquant de l’intelligence artificielle et des capacités d’apprentissage machine (machine learning). Le concours CGC (The Cyber Grand Challenge) de la DARPA (l’agence de recherche du Pentagone) illustre parfaitement l’évolution majeure vers cette robotisation de la cybersécurité par la détection autonome de failles logicielles. Le concept soutenu par le CGC DARPA a mis en opposition, lors d’un tournoi, des IA capables d’évaluer les vulnérabilités affectant leur système ainsi que celles des systèmes concurrents. Les IA ont ensuite construit des patchs correctifs de manière totalement autonome et mené des attaques ciblant leurs adversaires. On notera que cette détection autonome reste efficace en position défensive ou offensive et qu’elle augure des futurs duels entre IA. Enfin, d’autres plateformes, comme le système formel* français Coq, développé par l’Institut national de recherche en informatique et en automatique (INRIA), permettent de prouver un programme ou une portion de programme et d’assurer mathématiquement qu’il ne contient pas de faille ou de bug. Les codes prouvés formellement devraient ainsi se généraliser.

À l’image de tous les autres domaines d’expertises humaines, le cyber-renseignement profite désormais des progrès rapides de l’intelligence artificielle pour s’industrialiser et s’automatiser. La collecte et l’interprétation des données vont être confiées à des plateformes intelligentes qui auront la capacité de s’adapter au niveau de détail/de complexité (granularité) de l’information recherchée. Les futures opérations de cybersurveillance et d’intrusions furtives seront conduites par des IA toujours plus agiles et agressives qui entreront nécessairement en concurrence. Ces concurrences risquent fort de se transformer en duels purement algorithmiques durant lesquels l’opérateur humain aura du mal à maintenir son rang de grand superviseur…

Notes
(1) Sources : https://​france​.emc​.com/​l​e​a​d​e​r​s​h​i​p​/​d​i​g​i​t​a​l​-​u​n​i​v​e​r​s​e​/​i​n​d​e​x​.​htm ; http://​www​.excelacom​.com/​r​e​s​o​u​r​c​e​s​/​b​l​o​g​/​2​0​1​6​-​u​p​d​a​t​e​-​w​h​a​t​-​h​a​p​p​e​n​s​-​i​n​-​o​n​e​-​i​n​t​e​r​n​e​t​-​m​i​n​ute.
(2) La collecte s’appliquait en effet non seulement aux données ouvertes du citoyen, mais également aux données privées, confiées par l’utilisateur à Microsoft, Skype, Google, Facebook ou Twitter en échange de services en ligne gratuits.
(3) Isight Partners (spécialiste de la cyberintelligence), « Newscaster : An Iranian Threat inside Social Media », Dallas, 28 mai 2014, accessible sur le site Cyber​-peace​.org (http://​bit​.ly/​2​l​g​e​I9K). Voir également : Thierry Berthier, « Projections algorithmiques et cyberespace », Revue internationale d’intelligence économique, Lavoisier, vol. 5, n° 2, juillet-décembre 2013, p. 179-195.
(4) Le commerce et l’exploitation des vulnérabilités informatiques ont été intégrés à l’Arrangement Wassenaar, relatif aux ventes d’armes et aux outils à usage dual (civil et militaire), qui réglemente fortement l’exportation des Zero Days. L’UE a par ailleurs voté plusieurs résolutions limitant leur exportation et leur commerce.

Légende de la photo en première page : Vue de l’Utah Data Center, l’un des centres de stockage et de traitement de données – opérationnel depuis 2014 – gérés par la NSA américaine et vers lequel converge l’ensemble des données collectées par les satellites de la NSA, ses postes d’écoute internationaux, ainsi que ses branchements posés sur tous les grands réseaux téléphoniques et les fournisseurs d’accès Internet américains. D’un cout total estimé à 2 milliards de dollars, ce site excelle notamment dans l’art du décryptage grâce à sa capacité et à sa vitesse de calcul. (© Parker Higgins/Electronic Frontier Foundation)

Article paru dans la revue DefTech n°01, « Cyber renseignement : le combat des intelligences artificielles », octobre-décembre 2018.
.
Votre panier