Theorie algorithmique des nombres, equations diophantiennes (Journes X-UPS 2005)

TABLE DES MATIÈRES Préface. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...

Author: Cohen H. | Belabas K. | Hanrot G.

46 downloads 912 Views 2MB Size Report

This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form

DOWNLOAD PDF

TABLE DES MATIÈRES

Préface. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii H. Cohen — Démonstration de la conjecture de Catalan . . . . . . . 1. Introduction aux corps de nombres . . . . . . . . . . . . . . . . . . . . . . . . 2. La conjecture de Catalan : exposants pairs. . . . . . . . . . . . . . . . . 3. La conjecture de Catalan : les résultats de Cassels . . . . . . . . . 4. Sommes de Gauss. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5. Le premier théorème de Mihăilescu : les paires de Wieferich − 6. Le deuxième théorème de Mihăilescu : p | h− q et q | hp . . . . . 7. Le troisième théorème de Mihăilescu : p < 4q 2 et q < 4p2 . . 8. Le quatrième théorème de Mihăilescu : p ≡ 1 (mod q) ou q ≡ 1 (mod p). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Références. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1 1 12 17 25 40 45 60 65 83

K. Belabas — L’algorithmique de la théorie algébrique des nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 Partie I. Théorie algébrique des nombres. . . . . . . . . . . . . . . . . . . . . 88 1. Préliminaires. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 2. Corps de nombres. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 3. Anneau des entiers. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 4. Idéaux. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 5. Géométrie des nombres. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 6. Groupe des classes, unités. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 7. Théorie analytique des nombres. . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 8. Cahier des charges. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

ii

TABLE DES MATIÈRES

Partie II. Algorithmique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 9. Introduction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 10. Préliminaires. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 11. Factorisation dans C[X]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 12. Factorisation dans Qp [X]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 13. Factorisation dans Q[X]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 14. Ordres. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 15. L’ordre maximal OK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 16. Groupe de classes et unités. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 Références. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 G. Hanrot — Quelques idées sur l’algorithmique des équations diophantiennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 1. Introduction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 2. Un aspect élémentaire. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 3. Méthodes transcendantes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 4. L’équation de Thue. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 5. Conclusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 Références. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184

PRÉFACE

La théorie algorithmique des nombres permet d’aborder avec un ordinateur l’étude des équations diophantiennes, c’est-à-dire la résolution en nombres entiers d’équations algébriques. Par ailleurs, d’autres approches des équations diophantiennes sont d’une grande actualité et la démonstration récente du théorème de Fermat, concernant l’équation xn + y n = z n , est loin d’avoir épuisé la question. Les textes de ce volume illustrent ces deux points de vue. En 1844, Eugène Catalan, répétiteur à l’École polytechnique, publiait dans le journal de Crelle, une note énonçant que deux nombres entiers consécutifs, autres que 8 et 9, ne peuvent être des puissances exactes ; autrement dit : l’équation xn − y m = 1, dans laquelle les inconnues sont entières et positives, n’admet qu’une seule solution. Dans le premier texte, Henri Cohen nous présente la très récente démonstration de cette conjecture par Mihăilescu en 2003. Celle-ci est un bel exemple de la richesse des méthodes algébriques (théorie des corps cyclotomiques) pour la résolution de certaines équations diophantiennes. On trouve ici un nouvelle illustration de la difficulté que peut présenter un problème d’énoncé si « simple ». Dans le texte suivant, Karim Belabas introduit pour commencer les concepts de la théorie algébrique des nombres. Dans la seconde partie du texte, il expose les idées et les méthodes essentielles de la théorie algorithmique des nombres, en particulier du point de vue du temps de calcul (effectivité). Enfin, Guillaume Hanrot nous propose un survol de quelques idées sur l’algorithmique des équations diophantiennes. Son exposé se

iv

PRÉFACE

concentre sur les méthodes utilisant des arguments de transcendance. Il culmine avec la méthode de Tzanakis et de Weger pour la résolution de l’équation de Thue. La résolution pratique d’une telle équation fait appel aux outils algorithmiques mis en place dans la conférence de Karim Belabas. Nous tenons à remercier la direction de l’École polytechnique, et tout particulièrement la Direction des Études, pour l’aide matérielle importante qu’elle a apportée à la préparation des journées X-UPS. Nous remercions les Éditions de l’École polytechnique qui ont bien voulu accueillir la série Journées mathématiques X-UPS au sein de leurs collections. Nous remercions aussi les secrétaires du Centre de mathématiques, notamment Claudine Harmide et Michèle Lavallette, pour leur contribution à l’organisation de ces journées.

Nicole Berline, Alain Plagne et Claude Sabbah

DÉMONSTRATION DE LA CONJECTURE DE CATALAN par Henri Cohen

Table des matières 1. 2. 3. 4. 5.

Introduction aux corps de nombres. . . . . . . . . . . . . . . La conjecture de Catalan : exposants pairs . . . . . . . La conjecture de Catalan : les résultats de Cassels Sommes de Gauss. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Le premier théorème de Mihăilescu : les paires de Wieferich. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6. Le deuxième théorème de Mihăilescu : p | h− q et . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .... q | h− p 7. Le troisième théorème de Mihăilescu : p < 4q 2 et q < 4p2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8. Le quatrième théorème de Mihăilescu : p ≡ 1 (mod q) ou q ≡ 1 (mod p). . . . . . . . . . . . . . . . . . . . . . . . Références. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1 12 17 25 40 45 60 65 83

1. Introduction aux corps de nombres 1.1. Propriétés en tant que corps. — Il n’est pas exagéré de dire que la théorie des corps de nombres a été inventée (dans un langage un peu différent) par Kummer, Dedekind, Dirichlet, et bien d’autres, dans le seul but de résoudre le « grand » théorème de Fermat, du moins dans les cas où ceci est possible avec ces méthodes. Rappelons de quoi il s’agit. Fermat a affirmé qu’il n’existe pas d’entiers non nuls x, y et z tels que xn + y n = z n pour n > 3. Il a lui-même démontré (par une

2

H. COHEN

méthode dite de descente infinie) que cette équation est effectivement impossible pour n = 4. Il en résulte qu’il suffit de démontrer son impossibilité pour n = p premier impair, et par homogénéité on peut également supposer que x, y et z sont premiers entre eux deux à deux. L’idée fondamentale de la démonstration, peut-être imaginée par Fermat, mais en tous cas explicitée par Kummer, est de factoriser l’équation. On peut le faire partiellement sur Z en mettant x + y en facteur, mais ce n’est pas suffisant. Il est donc nécessaire d’agrandir le corps sur lequel on travaille : cela conduit à la notion d’adjonction. Soit ζ une racine primitive p-ième de l’unité et K = Q(ζ) le corps obtenu par adjonction de ζ à Q, c’est-à-dire l’ensemble des fractions rationnelles en ζ à coefficients dans Q. On peut maintenant complètement factoriser l’équation de Fermat comme suit : (x + y)(x + ζy) · · · (x + ζ p−1 y) = z p . L’idée est alors la suivante : si les facteurs du membre de gauche sont « premiers entre eux » deux à deux en un sens convenable, alors ils doivent tous être des puissances p-ièmes, et on peut espérer en déduire une contradiction. Cette idée fondamentale est correcte à la base, mais se heurte à plusieurs obstacles. Tout d’abord la notion de « premiers entre eux » n’a de sens que dans un anneau principal, ce qui n’est pas nécessairement le cas. Ceci va donc conduire les auteurs ci-dessus à introduire la notion d’idéal, pour essayer de s’affranchir de cette restriction. Ensuite, même si cette étape peut être franchie, il n’est pas tout à fait exact de dire que les facteurs doivent être des puissances p-ièmes : ce sera des puissances p-ièmes multiplié par des éléments inversibles (qui dans Z ne sont autres que ±1), et il va donc falloir aussi s’occuper de cet aspect. Enfin, il se peut que les facteurs ne soient pas premiers entre eux, mais dans ce cas il faut faire appel à des techniques spécifiques au théorème de Fermat, et donc que nous ne considérerons pas ici. Tout ceci conduit donc aux définitions suivantes, volontairement biaisées vers les équations diophantiennes. Définition 1.1. — Soit T (X) un polynôme irréductible de degré n à coefficients rationnels, et soit θ ∈ C une racine complexe de T . On note K = Q(θ) l’ensemble des fractions rationnelles en θ à coefficients dans Q, et on l’appelle corps obtenu par adjonction de θ à Q.

DÉMONSTRATION DE LA CONJECTURE DE CATALAN

3

Il est évident que K est un corps. De plus, si P (θ)/Q(θ) est une fraction rationnelle en θ avec Q(θ) 6= 0, les polynômes T (X) et Q(X) sont premiers entre eux, donc par « Bezout » il existe des polynômes U (X) et V (X) tels que U (X)T (X) + V (X)Q(X) = 1, donc 1/Q(θ) = V (θ). Il en résulte que tout élément de K s’exprime de manière unique comme polynôme en θ de degré inférieur ou égal à n − 1. En particulier K est un Q-espace vectoriel de dimension n, une base étant 1, θ, . . . , θn−1 . Un corps obtenu par adjonction d’un élément θ comme ci-dessus sera appelé corps de nombres. Le théorème de l’élément primitif (dont nous ne nous servirons pas) affirme que tout Q-espace vectoriel de dimension finie est un corps de nombres. Si θ1 = θ,. . .,θn sont les n racines complexes de T (X), il est clair que l’application σi telle que σi (A(θ)) = A(θi ) est un plongement complexe de K dans C, et il est évident que tout plongement est de cette forme. De plus, si θi ∈ K pour tout i, on dira que K est une extension galoisienne de Q. Dans ce cas σi est non seulement un plongement de K dans C mais un automorphisme de K, et l’ensemble de ces automorphismes forme donc un groupe d’ordre n appelé groupe de Galois de K/Q. Définition 1.2. — Soit α ∈ K = Q(θ). On appelle norme de α et on note NK/Q (α), ou simplement N(α) lorsqu’il n’y aura pas d’ambiguïté, le déterminant de l’application Q-linéaire x 7→ αx de K dans K. Il est clair par définition que la norme est multiplicative : N(αβ) = Q N(α) N(β), et que N(α) = 16i6n σi (α). 1.2. Propriétés en tant qu’anneau. — Soit K = Q(θ) un corps de nombres comme ci-dessus, où θ est racine de T (X) ∈ Q[X]. Pour faire de l’arithmétique dans K, ce qui est nécessaire pour les équations diophantiennes, nous devons agrandir Z, comme nous avons agrandi Q. Toutefois il n’est pas toujours vrai que ceci se fasse par adjonction. La définition est la suivante. Définition 1.3. — On dit que α ∈ K est un entier algébrique s’il est racine d’un polynôme unitaire (c’est-à-dire de coefficient dominant égal à 1) à coefficients dans Z (et pas seulement dans Q). L’ensemble des entiers algébriques de K est noté ZK .

4

H. COHEN

C’est un exercice classique et facile de montrer que ZK est un anneau. Si on choisit T (X) unitaire à coefficients entiers pour définir le corps K (ce qu’on peut toujours facilement faire), il est donc clair que Z[θ] ⊂ ZK , et il est facile de voir que l’indice [ZK : Z[θ]] est fini. En fait, dans les applications que nous avons en vue, K sera un corps cyclotomique (voir ci-dessous), et on aura ZK = Z[θ], mais ceci n’est pas vrai en général. Définition 1.4 (1) On dit qu’un sous-ensemble a de ZK est un idéal de ZK si c’est un sous-groupe additif stable par multiplication externe par ZK . (2) On dit que a est un idéal principal s’il est de la forme a = αZK pour α ∈ ZK . (3) On dit qu’un idéal p est premier s’il est différent de l’anneau tout entier et si pour tout α et β dans ZK , αβ ∈ p implique que α ou β appartient à p ou, de manière équivalente, si ZK /p est un anneau intègre. On conviendra toujours d’exclure l’idéal nul. Si a et b sont deux idéaux, on appellera produit de a et de b, et on notera ab, l’ensemble P des combinaisons linéaires finies i ai bi avec ai ∈ a et bi ∈ b. Il est clair que c’est un idéal. Le résultat suivant est immédiat, puisque tout anneau fini intègre est un corps. Proposition 1.5. — Si a est un idéal (non nul) l’anneau quotient ZK /a est fini. En particulier, p est un idéal premier non nul si et seulement si ZK /p est un corps fini. Ceci conduit donc à la définition suivante. Définition 1.6. — Si a est un idéal non nul de ZK on appelle norme de a, et on note N(a), le nombre d’éléments de l’anneau quotient ZK /a. Le résultat suivant n’est pas difficile mais est essentiel. Proposition 1.7 (1) La norme est multiplicative sur les idéaux : N(ab) = N(a) N(b). (2) Si a = αZK est un idéal principal on a N(a) = | N(α)|.


5

(3) Si p est un idéal premier, on a N(p) = pf , où p est la caractéristique du corps fini ZK /p, et f = dimZ/pZ (ZK /p). Quand on travaille dans les corps de nombres, il est essentiel de généraliser très légèrement la définition d’un idéal. Si a est un idéal de ZK et m ∈ Z>0 , on dira par abus que a/m est un idéal (appelé idéal fractionnaire pour ne pas confondre, les idéaux ordinaires étant appelés les idéaux entiers) de ZK . Toutes les notions ci-dessus se généralisent immédiatement aux idéaux fractionnaires. Toutefois, la raison principale pour laquelle nous avons besoin de cette notion est le théorème suivant, qui regroupe les propriétés essentielles des idéaux. Théorème 1.8 (1) L’ensemble des idéaux (fractionnaires) non nuls de K est un groupe abélien I(K) pour la multiplication des idéaux. (2) Tout idéal (non nul) a de K s’écrit de manière unique sous la Q forme a = p pvp (a) , où les idéaux p sont des idéaux premiers distincts de ZK et vp (a) ∈ Z. (3) Si on note Pr(K) le sous-groupe de I formé des idéaux principaux, le groupe quotient Cl(K) = I(K)/ Pr(K) est un groupe abélien fini, appelé groupe de classes d’idéaux de K. Ce théorème nous montre donc plusieurs choses. Tout d’abord, bien que l’existence et l’unicité de la décomposition en facteurs premiers ne soit pas vraie en général dans ZK (c’est équivalent au fait que ZK soit un anneau principal), c’est vrai pour les idéaux. D’autre part le groupe de classes Cl(K) mesure exactement « l’obstruction » de ZK à être un anneau principal. Le fait qu’il soit fini montre que cette obstruction n’est pas si grave que cela. L’un des thèmes du présent exposé est de montrer comment contourner cette obstruction. Notons immédiatement le résultat suivant : Proposition 1.9. — Soit h(K) = | Cl(K)| le nombre de classes de K. Pour tout idéal a de K l’idéal ah(K) est un idéal principal. Démonstration. — C’est clair, mais très important. Un autre groupe indissolublement lié au groupe de classes est le groupe des unités :

6

H. COHEN

Définition 1.10. — On dira que u ∈ ZK est une unité si u est inversible dans ZK . Le groupe des unités sera noté U (K). Il est immédiat de voir que si u ∈ ZK alors u est une unité si et seulement si N(u) = ±1. L’importance du groupe des unités réside dans le fait évident que deux éléments α et β engendrent le même idéal principal si et seulement si α/β est une unité. Le théorème fondamental sur les unités, dû à Dirichlet, et qui se démontre simultanément avec le théorème sur la finitude du groupe de classes Cl(K), est le suivant. Théorème 1.11. — Soit K un corps de nombres de degré n, soit r1 le nombre de ses plongements complexes σi tels que σi (K) ⊂ R, et posons 2r2 = n − r1 et r = r1 + r2 − 1. Il existe une racine de l’unité ζ ∈ K d’ordre w ∈ Z>0 , et des unités ε1 , . . . , εr tels que toute unité u ∈ U (K) s’écrive de manière unique Y x u = ζj εi i avec xi ∈ Z et 0 6 j < w. 16i6r

1.3. Les corps cyclotomiques. — Les corps de nombres qui pour nous seront les plus importants sont les corps dits cyclotomiques, car provenant de la division du cercle. Soit ζn une racine primitive n-ième de l’unité dans C. On appelle n-ième corps cyclotomique le corps de nombres obtenu en adjoignant ζn à Q. Pour simplifier nous nous restreindrons au cas où n = p est un nombre premier. Le théorème suivant résume les propriétés de base et n’est pas difficile. Théorème 1.12. — Soit p > 3 un nombre premier, ζ = ζp une racine primitive p-ième de l’unité et K = Q(ζ). (1) Le polynôme minimal de ζ est le polynôme (X p − 1)/(X − 1) = + · · · + X + 1. (2) Le corps K est galoisien. Les automorphismes de K sont les applications σj de K dans K laissant fixe Q et envoyant ζ sur ζ j , où 1 6 j 6 p − 1, et donc Gal(K/Q) = (Z/pZ)∗ . (3) L’idéal principal p = (1 − ζ)ZK est un idéal premier de ZK de norme p, et c’est le seul idéal premier divisant pZK . Plus précisément on a pZK = pp−1 . (4) On a ZK = Z[ζ].

X p−1


7

(5) Le groupe des racines de l’unité de K est engendré par −ζ, en d’autres termes une racine de l’unité de K est de la forme ±ζ k pour un certain signe ± et 0 6 k < p. (6) Les éléments ui,j = (1 − ζ i )/(1 − ζ j ) pour 1 6 i, j 6 p − 1 sont des unités de ZK . Un autre résultat sur les unités est crucial bien que facile. Proposition 1.13 (Kronecker). — Soit u ∈ ZK un entier algébrique de K. Supposons que |σi (u)| = 1 pour tout plongement σi de K dans C. Alors u est une racine de l’unité. Démonstration. — La démonstration est très simple et je l’esquisse Q ici. Soit A(X) = i (X − σi (α)) le polynôme caractéristique de u, qui est donc dans Z[X]. Pour tout k ∈ Z>0 considérons le polynôme Q Ak (X) = i (X − σi (α)k ). Les coefficients de Ak sont des polynômes symétriques en σi (α) à coefficients entiers, donc sont des polynômes à coefficients entiers dans les coefficients de A, donc sont dans Z. De plus, puisque |σi (α)k | = 1 pour tout i le coefficient de X n−m n . Il ne peut donc y dans Ak (X) est borné en valeur absolue par m avoir qu’un nombre fini de polynômes distincts Ak (X), et donc qu’un nombre fini de σi (α)k . Il est aisé d’en déduire que α est une racine de l’unité. Corollaire 1.14. — Soit K = Q(ζ) un corps cyclotomique avec ζ = ζp et p 6= 2. (1) Si u ∈ U (K) alors u/u est une racine de l’unité, où u désigne la conjugaison complexe. (2) Si u ∈ U (K) il existe k ∈ Z tel que u/ζ k ∈ R. Démonstration. — (1) résulte immédiatement du résultat ci-dessus puisque K/Q est galoisien de groupe de Galois abélien, et que la conjugaison complexe appartient à ce groupe. (2) n’est pas difficile et laissé en exercice. 1.4. Retour au théorème de Fermat. — Avant de passer à l’équation de Catalan, voyons comment utiliser les outils que nous avons introduits pour le théorème de Fermat, qui est à l’origine de la théorie algébrique des nombres. Considérons donc notre équation xp + y p = z p avec p > 3 et xyz 6= 0. Comme il a déjà été mentionné,

8

H. COHEN

on peut supposer x, y et z premiers entre eux deux à deux. Puisque p est impair on peut écrire xp + y p =

Y

(x + ζ j y).

06j6p−1

Supposons tout d’abord que l’anneau ZK = Z[ζ] soit un anneau principal. Parmi les propriétés essentielles et caractéristiques des anneaux principaux figurent l’existence d’un PGCD défini à multiplication près par un élément inversible de l’anneau, donc par une unité, et l’existence et l’unicité (à permutation et unités près) de la décomposition en éléments premiers. Revenant au produit ci-dessus, puisque les puissances de ζ sont des unités il est clair que le PGCD de x + ζ j y et x + ζ k y doit diviser (1 − ζ k−j )y = ζ −j (x + ζ j y − (x + ζ k y)) ainsi que (1 − ζ k−j )x = (x + ζ k y − ζ k−j (x + ζ j y)), et donc puisque x et y sont premiers entre eux (dans Z, mais a fortiori dans ZK ) il doit diviser 1−ζ k−j . Or si k 6≡ j (mod p) on a vu (et il est immédiat de le vérifier) que (1 − ζ k−j )/(1 − ζ) est une unité, donc comme le PGCD est défini à une unité près il doit diviser 1 − ζ. Comme (1 − ζ)ZK est idéal premier et qu’il divise p, il en résulte que (à une unité près bien sûr) le PGCD ne peut qu’être égal à 1 ou à 1 − ζ, ce dernier cas ne pouvant de produire que si p | z. On est donc amené à considérer deux cas dans le théorème de Fermat : le premier cas où p - z, et le deuxième où p | z. Le deuxième cas étant plus difficile, et de toutes façons le théorème de Fermat n’étant pas notre but principal, nous allons nous limiter au premier cas p - xyz. Il résulte donc de la discussion ci-dessus que les facteurs x + ζ j y de z p sont premiers entre eux deux à deux. Remarquons alors que le cas p = 3 est immédiat : comme x3 ≡ 0 ou ±1 modulo 9 on ne peut pas avoir x3 + y 3 = z 3 sans que 3 | xyz. Nous supposerons donc p > 5 (on verra ci-dessous où cela intervient). Utilisant l’existence et l’unicité de la décomposition en facteurs premiers dans ZK il en résulte que chaque x+ζ j y individuellement est une puissance p-ième dans ZK à une unité près, en d’autres termes que pour chaque j il existe αj ∈ ZK et une unité uj tels que x+ζ j y = uj αjp . En particulier nous pouvons écrire x + ζy = uαp pour une certaine unité u, et un α ∈ ZK .


9

Avant de poursuivre, voyons maintenant ce qu’on peut faire si on ne suppose plus que ZK est principal. Le seul outil à notre disposition est maintenant la notion d’idéal : on a existence et unicité de la décomposition en produit d’idéaux premiers, et la notion de PGCD a un sens en tant qu’idéal. Le raisonnement ci-dessus montre donc que les idéaux principaux (x + ζ j y)ZK sont premiers entre eux deux à deux (si on suppose p - z), et donc qu’ils sont individuellement égaux à une puissance p-ième d’un idéal : (x + ζ j y)ZK = apj pour un certain idéal aj . Nous voulons maintenant « tuer » l’obstruction provenant du fait que le groupe des classes n’est pas forcément réduit à l’élément neutre. La manière la plus simple (mais non la seule comme nous le verrons) h(K) est d’utiliser le fait mentionné ci-dessus que aj est un idéal principal. Supposons que p ne divise pas h(K) (nous reviendrons ci-dessous sur cette hypothèse). Par « Bezout » il existe des entiers u et v tels h(K) que up + vh(K) = 1. Il en résulte que aj = (apj )u (aj )v est un idéal principal ! Si on écrit aj = αj ZK , on a donc (x + ζ j y)ZK = αjp ZK . Nous avons donc deux générateurs du même idéal principal, et donc il existe une unité uj ∈ U (K) telle que x + ζ j = uj αjp . Nous aboutissons donc à exactement la même conclusion qu’en supposant ZK principal, ce qui est remarquable. Reste à voir dans quelle mesure la condition p - h(K) est restrictive. Un nombre premier vérifiant cette condition est dit régulier. Parmi les 24 nombres premiers impairs inférieurs à 100, seuls les trois nombres p = 37, 59 et 67 ne le sont pas, ce qui est bon signe. Toutefois il faut noter que bien que l’on sache montrer qu’il existe une infinité de nombres premiers irréguliers, on ne sait pas montrer qu’il en existe une infinité de réguliers, bien que cela semble être le cas (et on conjecture beaucoup plus). Bref, si on se limite aux exposants premiers p 6 100, le travail que nous avons fait ci-dessus est applicable pour 21 des 24 valeurs possibles. Pour terminer la démonstration du premier cas du théorème de Fermat pour les exposants réguliers, il faut maintenant s’occuper des unités. C’est un phénomène tout à fait général : quand on utilise des méthodes de théorie algébrique des nombres pour étudier une équation diophantienne, on commence par utiliser les idéaux et la structure du

10

H. COHEN

groupe de classes d’idéaux, puis les propriétés des unités. Puisque notre but est Catalan et pas Fermat, le lecteur peut sauter ce qui suit sans que cela nuise à la compréhension. Soit p = (1 − ζ)ZK comme ci-dessus l’unique idéal premier divisant p, qui est tel que pp−1 = pZK . Notons tout d’abord que pour tout j on a ζ j = ζ p−j ≡ ζ j (mod p), donc par linéarité, pour tout α ∈ ZK on a α ≡ α (mod p). D’après ce que nous avons dit ci-dessus on a x + ζ j y = uj αjp pour certains αj ∈ ZK et certaines unités uj . Posons α = α1 et u = u1 . Comme z p /α ∈ ZK et que p - z par hypothèse, on a nécessairement p - α, donc α/α ≡ 1 (mod p), en d’autres termes il existe β ∈ K tel que α/α = 1 + (1 − ζ)β, où vp (β) > 0 (noter que β n’est pas nécessairement dans ZK , mais ce n’est pas important). Si on élève cette égalité à la puissance p et qu’on utilise le fait que les coefficients binomiaux kp pour 1 6 k 6 p − 1 sont divisibles par p, donc par (1 − ζ)p−1 , on obtient αp /αp = 1 + (1 − ζ)p γ, où vp (γ) > 0. Or par définition on a x + ζy = uαp , donc x + ζ −1 y = uαp , et donc on obtient (x + ζy)/(x + ζ −1 y) = (u/u)(1 + (1 − ζ)p γ), en d’autres termes x + ζy − (u/u)(x + ζ −1 y) ≡ 0 (mod pp ), où nous pouvons à nouveau mettre des congruences puisque tout est dans ZK , u étant inversible. D’après le corollaire énoncé ci-dessus comme conséquence du théorème de Kronecker, u/u est une racine de l’unité dans K, donc on a u/u = ±ζ m pour un certain signe et un entier m tel que 0 6 m < p, donc que x + ζy ∓ ζ m (x + ζ −1 y) ≡ 0 (mod pp ). J’affirme que m = 1. En effet, supposons le contraire. Si m = 0 on multiplie la congruence par ζ, et si m = p − 1 on la multiplie par ζ 2 , et sinon on ne fait rien. Nous voyons donc qu’il existe un polynôme f (T ) ∈ Z[T ] de degré au plus égal à p − 2 > 3 (puisque nous avons supposé que p > 5), non divisible par p, et tel que f (ζ) ≡ 0 (mod pp ). Posons g(X) = f (1 − X), qui est aussi de degré au plus égal à p − 2 et non divisible par p, et tel que g(π) ≡ 0 (mod pp ).


11

Toutefois, comme vp (p) = p − 1, il est clair que les différents monômes non nuls intervenant dans g(π) ont des valuations qui ne sont pas congrues entre elles modulo p − 1, et qui sont donc distinctes. La valuation de g(π) est donc égale à la valuation du monôme de plus petite valuation. Comme le degré de g est au plus p − 2 et que vp (g(π)) > p il en résulte que pour tous les coefficients gi de g on a vp (gi ) > 1, donc vp (gi ) > 1, ce qui contredit l’hypothèse que les coefficients ne sont pas tous divisibles par p. Il en résulte que la seule possibilité est m = 1, et donc que notre congruence s’écrit x + ζy ∓ (xζ + y) = (x ∓ y)(1 ∓ ζ) ≡ 0 (mod pp ), et donc puisque pp−1 = pZK et vp (1 ∓ ζ) 6 1 on doit avoir x ∓ y ≡ 0 (mod p). Toutefois x + y ≡ 0 (mod p) est impossible, sinon p | z. Il en résulte que y ≡ x (mod p). Nous pouvons maintenant appliquer le même raisonnement à l’équation (−x)p + z p = y p et en déduire que −z ≡ x (mod p). Il en résulte que 0 = xp + y p − z p ≡ 3xp (mod p), et puisque p - x, on obtient p = 3, qui a été exclu car traité directement. Ceci termine la démonstration du premier cas du théorème de Fermat dans le cas d’un exposant premier régulier. La démonstration ci-dessus est essentiellement due à Kummer. Remarques (1) En utilisant des techniques semblables mais un peu plus compliquées, on peut démontrer que le deuxième cas du théorème de Fermat est aussi valable pour un exposant régulier. (2) En utilisant d’autres outils, et en particulier la loi de réciprocité d’Eisenstein, on peut démontrer la validité du premier cas pour tous les p < 1018 . Ces outils seront implicitement utilisés aussi dans la démonstration de la conjecture de Catalan. (3) Par contre, on ne sait démontrer le deuxième cas de manière algébrique que si certaines conditions sont remplies, ce qui a été le cas dans tous les exemples étudiés. (4) Bien entendu, le théorème de Fermat a finalement été démontré en 1995 par Wiles, Taylor et Ribet en utilisant des techniques complètement différentes et nettement plus sophistiquées.

12

H. COHEN

2. La conjecture de Catalan : exposants pairs 2.1. Introduction : le théorème de V. Lebesgue. — La conjecture de Catalan, démontrée en 2003 par P. Mihăilescu, est l’énoncé suivant. Théorème 2.1. — Soient m et n deux entiers supérieurs ou égaux à 2. Les seules solutions en entiers non nuls x et y de l’équation xm − y n = 1 sont (m, n, x, y) = (2, 3, ±3, 2). Remarquons que l’exposant 2 n’est pas exclu. De ce fait, nous devons démontrer trois résultats bien distincts : Théorème 2.2 (V. Lebesgue). — Si p > 2 est premier, l’équation xp − y 2 = 1 n’a pas de solution non triviale. Théorème 2.3 (Ko Chao). — Si q > 2 est premier, les seules solutions non triviales de l’équation x2 − y q = 1 sont (q, x, y) = (3, ±3, 2). Théorème 2.4 (Mih˘ailescu). — Si p et q sont deux nombres premiers impairs, l’équation xp − y q = 1 n’a pas de solution non triviale. Avant d’attaquer le vif du sujet, remarquons que le théorème de V. Lebesgue (1850) se démontre sans difficulté par des méthodes semblables à celles que nous avons vues ci-dessus pour le théorème de Fermat. Par contre, il est à noter que le théorème de Ko Chao (1965) n’a été démontré que plus d’un siècle plus tard, bien que les méthodes soient analogues mais plus subtiles. Enfin le théorème de Mihăilescu (2003) utilise toute la puissance de la théorie des corps cyclotomiques et est beaucoup plus complexe. C’est d’ailleurs un peu miraculeux que les techniques des corps cyclotomiques suffisent pour démontrer Catalan complètement (les techniques de Ribet–Wiles sont inapplicables). Nous commençons donc par démontrer le théorème de V. Lebesgue. Noter qu’il ne s’agit pas de l’inventeur de l’intégrale du même nom.


13

Démonstration du théorème de Lebesgue. — Notons tout d’abord que si y est impair on a y 2 + 1 ≡ 2 (mod 8) ce qui est impossible pour une puissance p-ième avec p > 2. Il en résulte que y est pair, donc que x est impair. D’autre part il est clair que l’équation n’a pas de solution non triviale pour p = 2, et nous supposerons donc p impair. Écrivant notre équation sous la forme y 2 + 1 = xp , nous la factorisons dans le corps des nombres de Gauss K = Q(i), dont l’anneau d’entiers ZK = Z[i] est l’anneau des entiers de Gauss, qui est principal et dont les unités sont ik pour 0 6 k 6 3. De la factorisation (y+i)(y−i) = xp on déduit, puisque x est impair, que les deux facteurs sont premiers entre eux, donc qu’ils sont égaux à une puissance p-ième, à une unité près. Il existe donc α ∈ Z[i] et un entier k tel que y + i = ik αp . Mais comme p est premier à 4, par « Bezout » on peut écrire up + 4v = 1 donc i = (i4 )v (iu )p = (iu )p , donc i est une puissance p-ième. Donc quitte à modifier α on a y + i = αp . Écrivons α = a + ib. On a αp = A + iB avec en particulier (p−1)/2 X p a2k bp−2k (−1)(p−1)/2−k . B= 2k k=0

En particulier on voit que b | B. Comme B = 1 on a donc b = ±1, d’où la relation (p−1)/2 X p a2k (−1)(p−1)/2−k = ±1. 2k k=0 p Puisque p | 2k pour 1 6 k 6 (p − 1)/2 on en déduit, en regardant modulo p, que le membre de droite est congru à (−1)(p−1)/2 modulo p, donc qu’il est égal à cette quantité. On a donc (p−1)/2 X p L= a2k (−1)k = 0. 2k k=1

J’affirme que a est pair. En effet, sinon en considérant l’équation modulo 2 on obtiendrait (p−1)/2 X p (−1)k ≡ 1 (mod 2), 2k k=0

ce qui est absurde puisque le membre de gauche est égal à 2p−1 qui est pair.

14

H. COHEN

Posons maintenant p−2 p p(p − 1) 2k a2k . uk = a = 2k(2k − 1) 2k − 2 2k Puisque u1 = p(p − 1)a2 /2 on a uk 1 p−2 = a2k−2 , u1 k(2k − 1) 2k − 2 ce qui implique que pour k > 1 (donc pour p > 3) on a v2 (uk ) − v2 (u1 ) > (2k − 2)v2 (a) − v2 (k) > (2k − 2) − v2 (k) puisque a est pair. On vérifie immédiatement que cette dernière expression est toujours plus grande ou égale à 1, et donc que v2 (uk ) > P(p−1)/2 v2 (u1 ) pour k > 1. Puisque L = k=1 (−1)k uk il en résulte que v2 (L) = v2 (u1 ) = v2 ((p(p − 1)/2)a2 ), ce qui est impossible pour a 6= 0 puisque L = 0. On doit donc avoir a = 0, donc α = ±i, et donc y = 0, montrant qu’il n’y a pas de solution non triviale. 2.2. Les théorèmes de Nagell et Ko Chao. — Notre but est maintenant de démontrer le théorème de Ko Chao, en d’autres termes de montrer que les seules solutions non triviales de l’équation x2 − y q = 1 sont (q, x, y) = (3, ±3, 2). Le fait qu’il existe des solutions est une indication que la démonstration sera (un peu) plus difficile. Nous commençons par démontrer le résultat préliminaire suivant, dû à Nagell. C’est la partie la plus délicate. Proposition 2.5 (Nagell). — Si x et y sont des entiers non nuls et q un nombre premier tel que x2 − y q = 1 alors 2 | y et q | x. Démonstration. — Comme nous l’avons déjà vu, on peut supposer que q 6= 2, et puisque xy 6= 0 on a y > 0, et nous pouvons bien sûr supposer que x > 0. Si y est impair x est pair, donc x − 1 et x + 1 sont premiers entre eux, et puisque (x − 1)(x + 1) = y q , ceci implique que x − 1 et x + 1 sont tous deux des puissances q-ièmes, ce qui est impossible puisque deux puissances q-ièmes distinctes ne peuvent pas différer de 2. Il en résulte que y est pair, donc que x est impair. Supposons par l’absurde que q - x. On utilise ici la factorisation dans Q x2 = (y + 1)((y q + 1)/(y + 1)) = Y ((Y − 1)q + 1)/Y = Y r(Y ),


15

où Y = y + 1. Il est clair que q

r(Y ) = ((Y − 1) + 1)/Y =

X 16k6q

q−k

(−1)

q Y k−1 , k

donc que pgcd(r(Y ), Y ) = pgcd(q, Y ) = pgcd(q, y + 1). Comme q - x on ne peut pas avoir q | y + 1, donc Y et r(Y ) sont premiers entre eux. Il en résulte que chacun d’eux est un carré (car nous avons choisi y > 0). Écrivons donc y + 1 = a2 , (y q + 1)/(y + 1) = b2 , et donc x = ab, avec a > 0, b > 0. Puisque y 6= 0, notons en particulier que y n’est pas un carré. √ √ Soit K = Q( y) le corps de nombres obtenu en adjoignant y à Q, √ √ qui est donc différent de Q, et posons α = x + y (q−1)/2 y ∈ Z[ y]. √ Notons que l’anneau A = Z[ y] est un sous-anneau de ZK , mais n’est pas égal à ZK en général. La norme de α dans K est égale à x2 −y q donc à 1, et α est un entier algébrique. C’est donc une unité de A. Puisque y 2 + 1 = a2 , il n’est pas difficile de démontrer dans ce cas particulier (nous l’admettrons) √ que toute unité u de A s’écrit de manière unique u = ±(a + y)k pour un k ∈ Z et un signe uniques. Comme nous avons supposé x > 0 et y > 0, il en résulte qu’il existe k > 0 tel que √ √ α = x + y (q−1)/2 y = (a + y)k . Regardons tout d’abord cette équation modulo l’idéal yA. On obtient √ x ≡ ak +kak−1 y (mod yA), en d’autres termes y | ak −x et y | kak−1 , et puisque y et a sont premiers entre eux (puisque y 2 + 1 = a2 ) on a y | k. Puisque y est pair, il en résulte que k est pair. Nous regardons maintenant l’égalité ci-dessus modulo l’idéal aA, en utilisant le fait que x = ab ≡ 0 (mod a) et y = a2 − 1 ≡ −1 (mod a). On obtient √ (−1)(q−1)/2 y ≡ y k/2 ≡ (−1)k/2 (mod aA), ce qui implique que a | 1, donc que a = 1, ce qui contredit l’hypothèse y 6= 0. Nous pouvons maintenant démontrer le théorème de Ko Chao. Démonstration du théorème de Ko Chao. — Nous supposerons tout d’abord q > 5. D’après le résultat de Nagell nous savons que x est impair, et on peut supposer x > 0. Soit ε = ±1 choisi tel que x ≡ ±1

16

H. COHEN

(mod 4). Comme on peut écrire x2 −1 = (x−ε)(x+ε) et que (x+ε)/2 est impair, un raisonnement analogue à ceux que nous avons fait à plusieurs reprises montre qu’il existe des entiers a et b (que l’on peut supposer strictement positifs) tels que x − ε = 2q−1 aq et x + ε = 2bq . Puisque q > 5 on a aq = (bq − ε)/2q−2 < bq , et donc a < b (en fait il est immédiat de voir que ceci est encore vrai pour q = 3). D’autre part on a b2q − (2εa)q x+ε 2 2 2q q (b − 2εa) 2 = b − (2εa) = − 2ε(x − ε) b − 2εa 2 x − 3ε 2 = . 2 D’après le résultat de Nagell nous savons que q | x. Puisque q > 5 (ici c’est essentiel), il en résulte que q - (x − 3ε)/2, et donc, par un raisonnement analogue à celui fait pour le théorème de Nagell on en déduit que les deux facteurs du membre de gauche sont premiers entre eux, donc sont des carrés parfaits. Toutefois puisque 0 < a < b on a (b − 1)2 = b2 − 2b + 1 < b2 − 2a < b2 < b2 + 2a < b2 + 2b + 1 = (b + 1)2 , ce qui montre que b2 − 2εa ne peut pas être un carré, contradiction. Il reste à traiter le cas q = 3, qui est plus simple mais nécessite une technique un peu différente due à Skolem, donc bien antérieure. Comme ci-dessus nous savons qu’il existe deux entiers a et b tels que x − ε = 4a3 et x + ε = 2b3 , donc b3 − 2a3 = ±1. Ici il est naturel de travailler dans le corps de nombres K = Q(θ), où θ est la racine cubique réelle de 2. Notre nouvelle équation signifie que α = b−aθ est un entier algébrique de norme ±1, c’est-à-dire une unité de K. D’après le théorème de Dirichlet sur la structure du groupe des unités, il est facile de voir qu’il existe k ∈ Z tel que α = b − aθ = ±(θ − 1)k . Ce qui est remarquable dans cette égalité est le fait que le coefficient de θ2 soit nul. En la considérant modulo des puissances de 3, Skolem démontre qu’il ne peut exister qu’au plus une valeur de k 6= 0 pour laquelle ceci se produit (nous admettrons ce résultat). Comme k = 1 convient, correspondant à (a, b) = ∓(1, 1), on en déduit qu’il n’y a pas d’autres solutions. Par contre, (a, b) = ∓(1, 1) conduit aux solutions (x, y) = (±3, 2).


17

3. La conjecture de Catalan : les résultats de Cassels 3.1. Énoncés et réductions préliminaires. — Grâce aux résultats de V. Lebesgue et de Ko Chao, il suffit maintenant de considérer l’équation de Catalan xp − y q = 1 avec p et q nombres premiers impairs. Il est important de noter que si (p, q, x, y) est une solution, alors (q, p, −y, −x) en sera une. Bien entendu cette réduction n’est possible que grâce au fait que nous avons traité les exposants pairs. La démonstration de la conjecture de Catalan finalement obtenue par P. Mihăilescu repose de manière essentielle sur des résultats préliminaires obtenus par Cassels en 1960, qui généralisent le résultat de Nagell ci-dessus. Le but des paragraphes qui suivent va être la démonstration du théorème suivant. Théorème 3.1 (Cassels). — Soient p et q des nombres premiers impairs et x et y des entiers non nuls tels que xp − y q = 1. (1) On a q | x et p | y. (2) Plus précisément il existe des entiers non nuls a et b et des entiers positifs u et v tels que q - u, p - v et vérifiant xp − 1 = pv q , x−1 yq + 1 y = pav, y + 1 = q p−1 bp , = qup . y+1

x = qbu, x − 1 = pq−1 aq ,

Montrons tout de suite que (1) implique (2), l’inverse étant trivial. Comme d’habitude on écrit y q = (x − 1)r(x), avec r(x) = (xp − 1)/(x − 1) et, en développant avec la formule du binôme, on a donc comme ci-dessus X p p p k r(x) = (x−1) = p+ (x−1)+· · ·+ (x−1)p . k+1 2 p 06k6p−1

Comme p | y, on en déduit que p | (x − 1) ou p | r(x), et dans ce dernier cas la formule ci-dessus montre que l’on a encore p | (x − 1). En appliquant à nouveau cette formule, on en déduit que r(x) ≡ p (mod p2 ), et donc que vp (r(x)) = 1. Puisque vp (x − 1) + vp (r(x)) = qvp (y), il en résulte que vp (x − 1) ≡ q − 1 (mod q). Comme la formule ci-dessus montre que pgcd(x − 1, r(x)) = p, on en déduit donc qu’il existe a et v avec p - v tels que x − 1 = pq−1 aq et r(x) = pv q , et alors

18

H. COHEN

y = pav. Les autres formules en résultent par symétrie en changeant (p, q, x, y) en (q, p, −y, −x), ce qu’on peut faire puisque p et q sont impairs. Pour la même raison de symétrie il suffit de prouver que p | y. Notons que, puisque deux puissances q-ièmes ne peuvent différer de 1 que quand l’une est nulle, on a p 6= q. Nous allons considérer séparément les cas p < q et p > q, qui sont, comme nous allons le voir, de difficultés assez différentes. 3.2. Preuve du théorème de Cassels pour p < q. — Nous avons d’abord besoin du petit lemme suivant, dont la démonstration facile est laissée au lecteur : Lemme 3.2 (1) Pour tout x ∈ R>0 on a (x + 1) log(x + 1) > x log(x). (2) Soit b ∈ R>1 . La fonction (bt + 1)1/t est une fonction décroissante de R>0 dans R>0 et la fonction (bt − 1)1/t est une fonction croissante de R>0 dans R>0 . (3) Supposons que 0 1 alors (aq + 1)p < (ap + 1)q et si a ∈ R>1 alors (aq − 1)p > (ap − 1)q . Le théorème de Cassels pour p < q est donc le résultat suivant : Proposition 3.3. — Si p et q sont des nombres premiers impairs tels p < q et x et y des entiers non nuls tels que xp − y q = 1 alors p | y. Démonstration. — Supposons par l’absurde que p - y. D’après le raisonnement fait ci-dessus, les entiers x − 1 et r(x) = (xp − 1)/(x − 1) sont premiers entre eux et, comme leur produit est égal à y q , chacun d’eux est une puissance q-ième. Écrivons donc x − 1 = aq pour un entier a, avec a 6= 0 (sinon y = 0) et a 6= −1 (sinon x = 0), et donc (aq + 1)p − y q = 1. Considérons la fonction f (z) = (aq + 1)p − z q − 1, qui est trivialement une fonction strictement décroissante. Supposons tout d’abord que a > 1. Alors f (ap ) = (aq +1)p −apq −1 > 0 d’après la formule du binôme, alors que f (ap + 1) = (aq + 1)p − (ap + 1)q − 1 < 0 d’après (3) du lemme ci-dessus. Puisque f est strictement décroissante, il en résulte que la valeur de y telle que f (y) = 0 n’est pas un entier, contradiction. De manière analogue, supposons que a < 1, donc que a 6 −2 d’après la remarque ci-dessus, et posons b = −a.


19

Puisque p et q sont impairs on a f (ap ) = (aq + 1)p − apq − 1 = −((bq − 1)p − bpq + 1) > 0 par la formule du binôme, alors que f (ap + 1) = (aq + 1)p − (ap + 1)q − 1 = −((bq − 1)p − (bp − 1)q + 1) < 0, à nouveau grâce au lemme ci-dessus puisque b > 2. On obtient à nouveau une contradiction, ce qui démontre la proposition et donc le résultat de Cassels pour p < q. Avant d’attaquer le cas plus difficile p > q, nous démontrons une inégalité due à S. Hyyrö dont nous aurons besoin. Corollaire 3.4. — Avec les mêmes hypothèses que ci-dessus, et en particulier en supposant toujours que p < q, on a |y| > pq−1 + p. Démonstration. — Grâce à la proposition que nous venons de démontrer nous savons que p | y, et donc, comme dans la démonstration de (1) implique (2) du théorème de Cassels donnée ci-dessus, on en déduit qu’il existe des entiers a et v tels que a 6= 0, v > 0 et p - v tels que x − 1 = pq−1 ap , (xp − 1)/(x − 1) = pv q et y = pav. Nous avons vu ci-dessus que X p p (x − 1)/(x − 1) = p + (x − 1)k ≡ p (mod (x − 1)), k+1 16k6p−1

donc que pq−1 | (x − 1) | (xp − 1)/(x − 1) − p = p(v q − 1). Il en résulte que v q ≡ 1 (mod pq−2 ). Toutefois l’ordre du groupe multiplicatif (Z/pq−2 Z)∗ est égal à pq−3 (p − 1), et puisque p < q, ceci est premier à q. Si k est l’ordre de v dans ce groupe, on a donc k | pgcd(q, pq−3 (p − 1)) = 1, donc v ≡ 1 (mod pq−2 ). J’affirme que v > 1. En effet supposons par l’absurde que v = 1, donc que xp−1 + · · · + x + 1 = p. Si x > 1 alors 2p−1 > p, donc ceci est impossible. Puisque p et q sont premiers impairs et a 6= 0 on a |x − 1| = pq−1 |a|p > 9, donc si x 6 1 nous devons avoir en fait z = −x > 8. Mais alors, puisque p − 1 est pair, on a p = z p−1 − z p−2 + · · · + 1 > z p−1 (z − 1) > z p−1 > 2p−1 , une contradiction qui démontre que v > 1. Puisque v ≡ 1 (mod pq−2 ) il en résulte que v > pq−2 + 1, et donc que |y| = pav > pv > pq−1 + p.

20

H. COHEN

Remarque. — Une fois démontré le théorème de Cassels il n’est pas difficile de montrer que le résultat ci-dessus reste vrai sans l’hypothèse p < q. La démonstration est laissée au lecteur. 3.3. Preuve du théorème de Cassels pour p > q. — Nous pouvons maintenant aborder la démonstration du théorème de Cassels pour p > q. Nous avons vu que, dans le cas p < q, nous avons eu besoin d’une petite inégalité analytique facile à démontrer (et d’ailleurs laissée au lecteur). Ici nous avons besoin d’une telle inégalité, mais elle est un peu plus délicate donc nous la démontrons complètement. Lemme 3.5. — Supposons que p > q, posons F (t) = ((1 + t)p − tp )1/q , soit m = bp/qc+1 la partie entière de p/q plus 1, et appelons Fm (t) la somme des termes de degré au plus égaux à m dans le développement en série de Taylor de F (t) autour de t = 0. Alors, pour tout t ∈ R tel que |t| 6 1/2, on a |F (t) − Fm (t)| 6

|t|m+1 . (1 − |t|)2

(Je conseille au lecteur « taupinal » de démontrer ce résultat tout seul au lieu de lire la démonstration qui suit). Démonstration. — Posons G(t) = (1 + t)p/q . Il est clair que les coefficients de Taylor de F (t) et de G(t) autour de t = 0 coïncident à tout ordre k < p, et en particulier à l’ordre m puisque m 6 p/3 + 1 3 donc p > 5). Dans ce qui suit, supposons que |t| < 1. Par la formule de Taylor–Lagrange appliquée aux fonctions x1/q et G(x) respectivement, il existe t1 et t2 tels que |F (t) − Fm (t)| 6 |F (t) − G(t)| + |G(t) − Fm (t)| |t|p 1/q−1 1 t + |t|m+1 G(m+1) (t2 ) q 1 (m + 1)! p/q |t|p 1/q−1 m+1 6 t + |t| (1 + t2 )p/q−m−1 , q 1 m+1

6

où t1 est entre (1 + t)p et (1 + t)p − tp , et t2 entre 0 et t. Puisque p/q < m 6 p/q + 1 on a −1 6 p/q − m < 0, et pour tout j > 1 on a 0 < p/q − (m − j) = j − (m − p/q) < j. Il en résulte que Y Y 0< (p/q − (m − j)) < j = m!, 16j6m

16j6m


21

et donc que Q p/q (m − p/q) 16j6m (p/q − (m − j)) 1 6 . m+1 = m+1 m! m+1 Puisque 1/q−1 < 0 et p/q−m−1 < 0, nous devons trouver des bornes inférieures pour t1 et 1 + t2 . Si t > 0, (1 + t)p et (1 + t)p − tp sont tous deux strictement plus grands que 1, donc t1 > 1 > 1 − tp . Si t < 0 alors (1+t)p = (1−|t|)p et (1+t)p −tp = (1−|t|)p +|t|p > (1−|t|)p , et donc t1 > (1 − |t|)p dans tous les cas. D’autre part on a trivialement |1 + t2 | > 1 − |t|. En regroupant ces inégalités on obtient |F (t) − Fm (t)| 6

|t|p |t|m+1 (1 − |t|)−p+p/q + (1 − |t|)p/q−m−1 , q m+1

cette inégalité étant valable pour tout t ∈ R tel que |t| < 1. Si nous supposons de plus que |t| 6 1/2 alors |t|p−m−1 6 (1 − |t|)p−m−1 (puisque m 6 p − 1), et donc |t|p (1 − |t|)−p+p/q 6 |t|m+1 (1 − |t|)p/q−m−1 . Il en résulte que |F (t) − Fm (t)| 6

1 1 + q m+1

|t|m+1 (1 − |t|)p/q−m−1 .

Puisque p/q − m − 1 > −2 et 1/q + 1/(m + 1) 6 1, on obtient le résultat voulu. En plus de ce lemme donnant une inégalité de nature analytique, nous avons également besoin d’un lemme donnant une inégalité de nature arithmétique. Rappelons que si a ∈ C et k ∈ Z>0 , on peut définir les coefficients du binôme généralisés ka par la formule a = a(a − 1) · · · (a − k + 1)/k!. k Ce sont les coefficients du développement de Taylor à l’origine de (1 + t)a . Lemme 3.6. — Soient p et q deux nombres premiers distincts, et pop/q w(k) sons w(k) = k + vq (k!). Alors q est un entier non divisible k par q, et w(k) est une fonction strictement croissante de k.

22

H. COHEN

(À nouveau, le lecteur est invité à démontrer ce résultat tout seul sans lire ce qui suit). Démonstration. — La démonstration qui suit pourra paraître artificielle, mais c’est en fait la plus naturelle qui soit quand on considère x l’aspect « p-adique ». Fixons k et posons P (x) = k . C’est un polynôme de degré k en x à coefficients rationnels. Soit maintenant ` un nombre premier différent de q. Pour tout N entier, soit xN un entier positif tel que qxN ≡ p (mod `N ), qui existe puisque q est premier à `N . D’après la formule de Taylor on peut écrire X P (j) (p/q) P (xN ) = P (p/q) + (xN − p/q)j . j! 16j6k

Soit M le plus grand exposant de ` figurant au dénominateur des coefficients P (j) (p/q)/j!. Puisque q 6= `, il est clair que, pour N > M , aucun des dénominateurs des nombres rationnels figurant dans la somme de droite ne sera divisible par `. Comme il en va de même pour P (xN ) puisque P (xN ) ∈ Z, il en résulte que ` ne figure pas au dénominateur du nombre rationnel P (p/q). Il résulte de ceci que p/q = n/q w(k) k pour un entier n premier à q. Le calcul de l’exposant exact w(k) est immédiat : on a p/q p(p − q) · · · (p − q(k − 1)) . = k q k k! Comme p et q sont premiers entre eux, le numérateur est premier à q, et donc w(k) = vq (q k k!) = k + vq (k!), ce qui démontre la première assertion. La deuxième est évidente puisque w(k +1) = 1+vq (k +1)+ w(k). Nous sommes maintenant en mesure de démontrer le théorème de Cassels pour p > q. Proposition 3.7. — Si p et q sont des nombres premiers impairs tels p > q et x et y des entiers non nuls tels que xp − y q = 1 alors p | y. Démonstration. — Nous conservons les notations du lemme 3.5, et nous commençons comme pour le cas p < q : on suppose par l’absurde que p - y, et on en déduit qu’il existe a ∈ Z r {0} tel que x − 1 = aq , et donc y q = (aq + 1)p − 1, d’où y = ap F (1/aq ), où F est comme dans le lemme 3.5. Il en résulte que si on pose z = amq−p y−amq Fm (1/aq ) on a


23

z = amq (F (1/aq ) − Fm (1/aq )). Comme dans beaucoup de problèmes diophantiens, nous allons démontrer que pour un certain entier non nul D on a Dz ∈ Z, et que par ailleurs |Dz| < 1, ce qui montrera que z = 0 et conduira à une contradiction. Nous appliquons le lemme 3.5 à t = 1/aq (qui vérifie bien |t| 6 1/2 puisque a 6= ±1), et on obtient donc |a|q 1 1 6 q 6 . q 2 (|a| − 1) |a| − 2 |x| − 3 m−j P D’après la formule de Taylor on a tm Fm (1/t) = 06j6m p/q , j t m+v (m!) q et d’après le lemme 3.6 D = q est un dénominateur commun p/q de tous les coefficients binomiaux j pour 0 6 j 6 m. Il en résulte que Damq Fm (1/aq ) ∈ Z, et puisque mq > p, que Dz ∈ Z. Nous allons maintenant borner |Dz|. D’après le résultat de Hyyrö (corollaire 3.4), avec (p, q, x, y) remplacé par (q, p, −y, −x) pour que l’inégalité p > q soit renversée, on a |x| > q p−1 + q > q p−1 + 3, et donc d’après l’inégalité pour |z| obtenue ci-dessus on a |z| 6

|Dz| 6

D 6 q m+vq (m!)−(p−1) . |x| − 3

Or il est bien connu et facile que pour m > 1 on a vq (m!) < m/(q −1), et puisque m < p/q + 1 on a m + vq (m!) − (p − 1) < m

3 − (p − 2)(q − 2) q − (p − 1) = 6 0, q−1 q−1

puisque q > 3 et p > 5 (noter qu’il est absolument essentiel que l’inégalité obtenue ci-dessus soit stricte). Il en résulte que |Dz| < 1, et puisque Dz ∈ Z on a donc Dz = 0. Ceci va rapidement conduire à une contradiction : en effet on a X p/q q(m−j) mq−p Dz = Da y− D a , j 06j6m

et d’après le lemme 3.6 on a aussi vq p/q < v q j

p/q m

= vq (D)

pour 0 6 j 6 m − 1, et donc 0 = Dz ≡ D p/q m 6≡ 0 (mod q) toujours d’après le même lemme. Cette contradiction termine la démonstration de la proposition et donc du théorème de Cassels.

24

H. COHEN

3.4. Conséquence des formules de Cassels. — Nous conservons les notations du théorème de Cassels, et en particulier p et q sont des nombres premiers impairs et distincts. Comme pour le théorème de Fermat nous allons maintenant factoriser l’équation de Catalan dans le corps cyclotomique K = Q(ζ), où ζ = ζp est une racine primitive p-ième de l’unité. Rappelons que dans ce contexte on a ZK = Z[ζ], et que p = (1 − ζ)ZK est l’unique idéal premier divisant p, et qu’on a pp−1 = pZK . Enfin, soient x et y des entiers non nuls tels que xp − y q = 1. Lemme 3.8. — Pour tout i tel que 1 6 i 6 p − 1 posons βi = (x − ζ i )/(1 − ζ i ). Alors les βi sont des entiers algébriques non divisibles par p, et les idéaux principaux qu’ils engendrent sont premiers entre eux deux à deux et égaux à des puissances q-ièmes d’idéaux. Démonstration. — D’après le théorème de Cassels on a p | (x − 1), donc vp (x − 1) > p − 1 > 2, et donc vp (βi − 1) = vp (x − 1) − vp (1 − ζ i ) > 1. Il en résulte que vp (βi ) = 0, et puisque (1−ζ i )ZK = p, on voit que βi est un entier algébrique premier à p. De plus, (1−ζ i )βi −(1−ζ j )βj = ζ j − ζ i , et puisque (ζ j − ζ i )ZK = p pour tout i 6≡ j (mod p) il en résulte que pour 1 6 i 6= j 6 p − 1 les idéaux βi ZK et βj ZK sont premiers entre eux. Enfin, en utilisant l’identité polynomiale Q i p 16i6p−1 (X − ζ ) = (X − 1)/(X − 1) et le théorème de Cassels on a Q i Y xp − 1 16i6p−1 (x − ζ ) βi = Q = vq = i) (1 − ζ p(x − 1) 16i6p−1 16i6p−1

pour un v ∈ Z>0 . Puisque les βi ZK sont premiers entre eux deux à deux, il en résulte que chacun d’eux est individuellement la q-ième puissance d’un idéal. Pour simplifier, dans la suite nous poserons β = β1 = (x−ζ)/(1−ζ), et donc il existe un idéal b tel que βZK = bq . Nous pourrions maintenant continuer la démonstration d’une manière similaire à celle que nous avons utilisée pour le théorème de Fermat : si on suppose que q ne divise pas le nombre de classes hp = | Cl(K)| de K, on déduit de ce que nous venons de montrer que l’idéal b est principal, et donc qu’il existe γ ∈ ZK et une unité u tels que (x − ζ)/(1 − ζ) = uγ q . En continuant de cette manière on


25

arrive effectivement ainsi à un théorème, dû à Inkeri, qui affirme que, si q - hp et si pq−1 6≡ 1 (mod q 2 ), alors l’équation xp − y q = 1 n’a pas de solutions non triviales. Ceci est un résultat très similaire à celui de Kummer énoncé pour le théorème de Fermat. Les conditions d’Inkeri sont peu restrictives mais, comme pour Fermat, il est peu probable qu’elles puissent conduire (du moins directement) à une démonstration complète de la conjecture de Catalan. L’idée fondamentale de Mihăilescu est de reconsidérer la démonstration ci-dessus : la seule raison pour laquelle nous avons introduit le nombre de classes de K a été pour « tuer » l’obstruction à la principalité des idéaux, grâce à la remarque triviale que ah est principal pour tout idéal a. Il n’y a toutefois pas de raison de n’utiliser que cet annulateur du groupe de classes : en effet, un remarquable (mais assez ancien, puisqu’il date de 1890) théorème dû à Stickelberger donne un annulateur plus « fin ». C’est celui-ci que Mihăilescu utilise de manière fondamentale, et qui conduit à des résultats bien meilleurs. En particulier, les restrictions sur le nombre de classes disparaissent complètement. La démonstration du théorème de Stickelberger nécessite de nombreux préparatifs, auxquels nous consacrons les paragraphes qui suivent. La théorie est de toutes façons intéressante en elle-même, indépendamment de ses applications.

4. Sommes de Gauss 4.1. Définitions et propriétés de base. — Soit FQ un corps fini de caractéristique q, donc ayant Q = q f éléments pour un certain entier f = [FQ : Fq ]. Définition 4.1 (1) On appelle caractère additif (resp., multiplicatif) sur FQ tout homomorphisme de groupes du groupe additif FQ (resp., du groupe multiplicatif F∗Q ) dans le groupe multiplicatif C∗ . (2) Si ψ est un caractère additif et χ un caractère multiplicatif, on appelle somme de Gauss associée à ces deux caractères le nombre

26

H. COHEN

complexe τ (χ, ψ) =

X

χ(x)ψ(x).

x∈F∗Q

Puisque FQ est isomorphe à (Z/qZ)f en tant que groupe additif, il est clair qu’un caractère additif est à valeurs dans les racines q-ièmes de l’unité et un caractère multiplicatif est clairement à valeurs dans les racines (Q − 1)-ièmes de l’unité. Nous dirons qu’un caractère est trivial si son image est réduite à 1, et nous supposerons toujours implicitement par la suite que les caractères additifs ψ sont non triviaux. Par contre, il sera nécessaire de considérer des caractères multiplicatifs triviaux. Les sommes de Gauss possèdent des propriétés tout à fait remarquables. Comme ce sont des sommes finies, la plupart de ces propriétés se démontrent par des manipulations algébriques convenables. Toutefois les plus subtiles d’entre elles n’ont pas de démonstration vraiment « élémentaire ». Les résultats les plus importants dont nous ayons besoin concernent les valuations « archimédiennes » et « p-adiques » de ces sommes (nous verrons ci-dessous la signification de ces termes). Proposition 4.2. — Soit ψ un caractère additif (non trivial) et χ un caractère multiplicatif. (1) Si χ est trivial on a τ (χ, ψ) = −1. (2) On a τ (χ−1 , ψ) = χ(−1)τ (χ, ψ). (3) Si χ est non trivial on a |τ (χ, ψ)| = Q1/2 . Démonstration (1) Si χ est trivial on a X X τ (χ, ψ) = ψ(x) = −1 + ψ(x). x∈F∗Q

x∈FQ

Or il est bien connu que la somme des valeurs d’un caractère non trivial d’un groupe abélien est nulle : si S désigne la somme ci-dessus et si a ∈ FQ est tel que ψ(a) 6= 1, alors comme l’application x 7→ x+a est une bijection de FQ et que ψ est un caractère, on voit que S = ψ(a)S donc que S = 0. (2) Puisque 1 = ψ(0) = ψ(x)ψ(−x) on a ψ(−x) = ψ(x) puisque c’est une racine de l’unité. Puisque χ−1 (x) = χ(x) (pour la même


27

raison) on a τ (χ−1 , ψ) =

X

X

χ(x)ψ(x) =

x∈F∗Q

χ(−y)ψ(y) = χ(−1)τ (χ, ψ),

y∈F∗Q

ce qui démontre (2). (3) Posant z = xy −1 , on a |τ (χ, ψ)|2 = τ (χ, ψ)τ (χ, ψ) =

X

χ(x)χ(y)ψ(x)ψ(y)

x,y∈F∗Q

=

X z∈F∗Q

χ(z)

X

ψ(y(z − 1)).

y∈F∗Q

Il est clair que y 7→ ψ(y(z − 1)) est un caractère additif, qui est non trivial si et seulement si (z−1) ∈ F∗Q (puisque dans ce cas l’application y 7→ y(z − 1) est une bijection de F∗Q dans lui-même). Il en résulte P comme dans (1) que y∈FQ ψ(y(z − 1)) = 0 quand z 6= 1, et donc que X X |τ (χ, ψ)|2 = χ(1)(Q − 1) + (−1)χ(z) = Q − χ(z) = Q, z∈F∗Q , z6=1

z∈F∗Q

utilisant à nouveau le résultat sur la somme des valeurs d’un caractère, mais cette fois-ci appliqué au caractère non trivial χ. Une propriété importante et très légèrement plus délicate est la suivante. Lemme 4.3 (1) Si χ1 et χ2 sont des caractères multiplicatifs d’ordre divisant m alors τ (χ1 , ψ)τ (χ2 , ψ)/τ (χ1 χ2 , ψ) ∈ Q(ζm ). (2) Si χ est un caractère multiplicatif d’ordre divisant m alors τ (χ, ψ)m ∈ Q(ζm ). Démonstration. — Les résultats sont évidents si l’un des caractères qui interviennent est trivial. Sinon, pour (1), un argument combinatoire très simple laissé au lecteur montre que X τ (χ1 , ψ)τ (χ2 , ψ) = χ1 (x)χ2 (x). τ (χ1 χ2 , ψ) x6=0,1

28

H. COHEN

Pour (2), un argument analogue montre que X χ(x1 · · · xk−1 ). τ (χ, ψ)m = Qχ(−1) x1 +···+xk−1 =1 xi 6=0

Dans les deux cas le résultat est démontré puisque les valeurs de χ appartiennent à Q(ζm ). Les sommes qui apparaissent ci-dessus, et que nous rencontrerons à nouveau, s’appellent des sommes de Jacobi. 4.2. Instanciation des sommes de Gauss. — Pour poursuivre notre étude des sommes de Gauss, il est indispensable de pouvoir préciser les caractères χ et ψ que nous utilisons. Bien qu’a priori il n’y ait rien de « canonique », on va voir que l’on peut quand même obtenir ce qu’on veut. Tout d’abord, comme FQ est une Fq -algèbre, la multiplication par x ∈ FQ est une application linéaire de FQ dans lui-même, et on peut donc parler de sa trace, appelée trace de x et notée Tr(x), et de son déterminant, appelé norme de x et noté N(x). La trace et la norme sont donc des éléments de Fq . De fait, il est facile de voir que le polynôme Q i caractéristique de notre application est 06i 0 d’après le lemme ci-dessus, et on en déduit de même que v(q − 1) = q − 1. Les assertions (2) et (4) du lemme 4.11 entraînent évidemment que v(r) 6 s(r). Quand r parcourt l’ensemble des entiers de l’intervalle [0, Q − 1], chaque coefficient du développement en base q prend chacune des valeurs de 0 à q − 1 exactement q f −1 fois, et donc X q(q − 1) s(r) = f q f −1 = f Q(q − 1)/2. 2 06r6Q−1

Comme s(Q − 1) = (q − 1)f on a donc X s(r) = f (q − 1)(Q − 2)/2 = 06r6Q−2

X

v(r)

06r6Q−2

d’après (5) du lemme 4.11 et, puisque v(r) 6 s(r) pour tout r, on a donc v(r) = s(r). Corollaire 4.13. — Soit p un diviseur premier de Q − 1, posons d = (Q − 1)/p, et soit Pp un idéal premier de Lp = Q(ζq , ζp ) ⊂ L en des−rd sous de P (et donc au-dessus de q). Pour tout r on a vPp (τ (ωP )) = s(rd). −rd ) Démonstration. — C’est clair, puisque τ (ωP vP (Pp ) = 1 comme on le voit aisément.

∈

Lp et que

Maintenant que nous avons calculé la valuation de la somme de −rd Gauss τ (ωP ) pour l’idéal premier Pd lui-même, il est très facile de le faire pour les autres idéaux premiers. Le résultat est le suivant : Corollaire 4.14. — Gardons les mêmes hypothèses que le corollaire précédent. Pour t premier à p, soit σt ∈ Gal(Lp /Q) l’automorphisme de Lp laissant Q et ζq invariant, et envoyant ζp sur ζpt . On a vσ−1 (Pp ) (τ (ω −rd )) = s(rtd). t

34

H. COHEN

Démonstration. — Résulte immédiatement du lemme 4.7 et laissé au lecteur. Remarque. — Dans les énoncés ci-dessus nous avons toujours utilisé un diviseur premier p de Q − 1, car c’est dans ce contexte que nous en aurons besoin, mais bien entendu les résultats sont vrais en toute généralité. 4.4. Réinterprétation en termes de théorie de Galois Nous commençons par réinterpréter le résultat ci-dessus en termes de théorie de Galois. Proposition 4.15. — Gardons toutes les notations ci-dessus. Alors Y −rd )ZLp = σt−1 (Pp )s(rtd) , τ (ωP t∈(Z/pZ)∗ /hqi

où hqi désigne le sous-groupe engendré par (la classe de) q. −rd ) ∈ ZLp , donc l’idéal prinDémonstration. — Il est clair que τ (ωP cipal du membre de gauche a bien un sens. Un raisonnement très simple de théorie de Galois montre que les idéaux de Lp au-dessus de l’unique idéal premier q de Q(ζq ) au-dessus de q sont obtenus une fois et une seule comme σt−1 (Pp ) pour σt ∈ Gal(Lp /Q(ζq ))/H, où H est le sous-groupe des σt ∈ Gal(Lp /Q(ζq )) tel que σt (Pp ) = Pp . Dans l’isomorphisme canonique Gal(Lp /Q(ζq )) ' (Z/pZ)∗ il est facile de voir que le sous-groupe H correspond aux classes modulo p des puissances de q, donc Gal(Lp /Q(ζq ))/H ' (Z/pZ)∗ /hqi. Enfin, remarquons que −rd 2 )| = Q = q f , les seuls idéaux premiers pouvant dipuisque |τ (ωP −rd viser τ (ωP ) sont ceux au-dessus de q, et la proposition est donc démontrée.

Corollaire 4.16. — Gardons les mêmes hypothèses, et en particulier soit q l’idéal premier de K en dessous de P (et donc au-dessus de q). On a Y −d p τ (ωP ) ZK = σt−1 (q)vt , où t∈(Z/pZ)∗ /hqi

vt =

X qit Q−1 p s t =p . q−1 p p 06i vq (m) pour tous les idéaux premiers q | m, ce qui permet de travailler sur des congruences entre nombres algébriques qui ne sont pas nécessairement des entiers algébriques. Puisque (1−xζ −1 ) = (−ζ −1 )(x−ζ) et puisque (−ζ −1 )θ est une racine 2p-ième de l’unité, donc une q-ième puissance dans K, il résulte du lemme 5.1 que pour tout θ ∈ (1 − ι)Is le nombre (1 − xζ −1 )θ est une puissance q-ième dans K. D’autre part, d’après le théorème de Cassels, on a q | x, et donc (1 − xζ −1 )θ ≡ 1 (mod ∗ qZK ). Puisque q est non ramifié dans K, il résulte du corollaire 5.3 que (1 − xζ −1 )θ ≡ 1 (mod ∗ q 2 ZK ) (en toute rigueur nous n’avons pas démontré le résultat dans le contexte des congruences généralisées de ce type, mais il est facile de voir que le raisonnement est toujours P valable). D’autre part, si nous écrivons θ = σ∈G aσ σ avec aσ ∈ Z, il est clair en développant et en utilisant le fait que q | x que X (1 − xζ −1 )θ = 1 − xS (mod ∗ q 2 ZK ) avec S = aσ σ(ζ −1 ). σ∈G

Il résulte de la combinaison de ces deux congruences que xS ≡ 0 (mod ∗ q 2 ZK ). Nous allons commencer par démontrer que q 2 | x. Si par l’absurde nous supposons le contraire on a donc S ≡ 0 (mod ∗ qZK ). Comme les σ(ζ −1 ) forment une permutation des ζ j pour 1 6 j 6 p−1, ils forment une Z-base de ZK = Z[ζ], et donc par unicité q | aσ pour tout σ ∈ G. Toutefois, rappelons nous que l’on a seulement demandé à θ d’appartenir à (1 − ι)Is , donc que nous avons un grand choix pour obtenir une contradiction. Par exemple, si on choisit θ = (1 − ι)Θ2


43

(où Θb est défini ci-dessus), il est immédiat de voir que X X σj−1 + σj−1 , θ=− 16j6(p−1)/2

(p+1)/26j6p−1

et cet élément de (1 − ι)Is ne satisfait clairement pas à la condition q | aσ pour tout σ ∈ G, contradiction. Nous avons donc démontré que q 2 | x, ce qui est un renforcement crucial du théorème de Cassels, et nous permet aisément de prouver les autres conditions du théorème : puisque q 2 | x, d’après le théorème de Cassels dont on reprend les notations, on a pq−1 aq = x − 1 ≡ −1 (mod q 2 ), et puisque d’après le « petit » théorème de Fermat on a pq−1 ≡ 1 (mod q), on en déduit que aq ≡ (−1)q (mod q). En utilisant à nouveau le lemme crucial 5.2 (mais cette fois-ci dans le corps Q) on en déduit que aq ≡ −1 (mod q 2 ), et en remplaçant dans le théorème de Cassels on obtient pq−1 ≡ 1 (mod q 2 ). Comme nous l’avons déjà remarqué dans la démonstration du théorème de Cassels, p et q étant impairs jouent des rôles symétriques (changer (p, q, x, y) en (q, p, −y, −x)), ce qui démontre les résultats obtenus en échangeant p et q. Remarques (1) Un résultat important dû à Wieferich affirme que le premier cas du théorème de Fermat est vrai dès que 2p−1 6≡ 1 (mod p2 ) (les seuls contre-exemples connus sont p = 1093 et 3511, pour lesquels on démontre le premier cas de Fermat avec des résultats analogues). On a donc coutume d’appeler un couple de nombres premiers (p, q) tels que l’on ait simultanément pq−1 ≡ 1 (mod q 2 ) et q p−1 ≡ 1 (mod p2 ) une paire de Wieferich. Le premier théorème de Mihăilescu ci-dessus implique donc que si (p, q) n’est pas une paire de Wieferich (avec p et q premiers impairs) alors l’équation de Catalan est impossible pour cette paire d’exposants. Les seules paires de Wieferich connues au moment de la rédaction de ce texte sont (2, 1093), (3, 1006003), (5, 1645333507), (5, 188748146801), (83, 4871), (911, 318917) et (2903, 18787) (voir [2]), la plus grande ayant été obtenue en 2004. Toutefois par un raisonnement probabiliste très raisonnable, on s’attend à ce qu’il y en ait une infinité, et en fait même à p fixé.

44

H. COHEN

(2) Le théorème ci-dessus a été démontré par Mihăilescu en 2001. Il est tout à fait surprenant qu’il ait fallu attendre si tard pour obtenir cette démonstration : la clef est le lemme 5.1, mais on voit que la démonstration de ce lemme est immédiate en utilisant le théorème de Stickelberger, démontré en 1890, couplée avec le théorème de Cassels qui date de 1960. On aurait donc pu s’attendre à obtenir la démonstration ci-dessus peu après celle du théorème de Cassels, c’est-à-dire dans les années 1960. C’est d’autant plus étonnant que le critère de Wieferich pour premier cas du théorème de Fermat, qui a un énoncé très analogue, se démontre aussi grâce au théorème de Stickelberger, à travers ce qu’on appelle la loi de réciprocité d’Eisenstein, qui en est une conséquence. L’histoire des mathématiques n’est pas toujours logique. La suite de la démonstration de la conjecture de Catalan se fait à travers trois théorèmes plus ou moins indépendants. Les deux premiers ne sont pas véritablement essentiels, mais aident à obtenir une démonstration n’utilisant ni outil informatique, ni outils analytiques sophistiqués sur les formes linéaires en logarithmes de nombres algébriques. Par contre le dernier théorème est tout à fait extraordinaire et très difficile, et en toute honnêteté, bien que je comprenne la démonstration « localement » comme on dit, je ne peux pas dire que je comprenne le pourquoi et le comment. Ce dernier théorème est basé à nouveau sur une idée forcément géniale et naturelle de Mihăilescu : puisque l’utilisation du théorème de Stickelberger, qui décrit très précisément l’annulateur de Cl− (K) a si bien marché, ne pourrait-on pas maintenant utiliser aussi l’annulateur de Cl(K + ) et obtenir des informations complémentaires qui résoudraient la conjecture ? C’est bien sûr une très bonne idée, mais qui se heurte à un obstacle de taille. Autant on contrôle fort bien Cl− (K) (il existe par exemple une formule très simple pour calculer son cardinal), autant Cl(K + ) est beaucoup plus mystérieux, principalement à cause de la présence d’unités. Le lecteur ayant déjà un peu manipulé les corps quadratiques peut imagi√ ner sans peine qu’il est beaucoup plus facile de travailler dans√Q( −6) (qui ne possède pas d’unités autres que ±1) que dans Q( 6), dont le groupe des unités est infini, même si les deux anneaux d’entiers correspondants sont principaux, c’est-à-dire ont un nombre de classes


45

égal à 1. De fait, dans toutes les démonstrations que nous avons faites ci-dessus, nous avons évacué sans difficulté le problème des unités dans K en remarquant que si u est une telle unité alors u/u = u/ι(u) est une racine de l’unité, donc entièrement sous contrôle. Mais clairement cette opération « tue » les unités réelles, c’est-à-dire les unités de K + , et il faudrait donc les récupérer d’une manière ou d’une autre. Contrairement au cas de Cl− (K), le problème du calcul de l’annulateur de Cl(K + ) demeure un problème difficile, et le restera probablement à tout jamais. Heureusement pour nous, pour Mihăilescu et pour la conjecture de Catalan, il existe un remarquable théorème dû au mathématicien Brésilien F. Thaine et démontré en 1988, qui donne une réponse partielle à la question. Bien que partiel, ce théorème a eu des conséquences extrêmement importantes dans plusieurs branches de la théorie des nombres. Par exemple, c’est grâce à lui que Kolyvagin et Rubin ont montré la validité de la conjecture de Birch et Swinnerton-Dyer sur les courbes elliptiques de rang analytique 0 ou 1, et en particulier la finitude de leur groupe de Tate-Shafarevitch, qui n’était connu auparavant pour aucune courbe elliptique (je ne définis pas toutes ces notions). Et donc c’est également grâce au théorème de Thaine que en 2003 Mihăilescu a pu finir la démonstration de la conjecture de Catalan. Comme expliqué ci-dessus, la suite de la démonstration est plus ardue. Bien que le titre l’exposé oral ait été « premières approches » de la démonstration, ce qui dans mon esprit s’arrête ici, je vais donner ci-dessous la démonstration complète. Celle-ci est la traduction quasiment littérale d’un chapitre d’un livre que j’espère publier en 2006, et est fortement inspiré de [3]. Toutefois, je tiens à avertir le lecteur qu’un certain nombre de notions ne seront pas définies, et que le niveau d’abstraction est plus élevé. Il est donc prié, s’il le désire, de se référer aux nombreux excellents ouvrages existants de théorie algébrique des nombres.

− 6. Le deuxième théorème de Mihăilescu : p | h− q et q | hp

6.1. L’inclusion Cl(K + ) ⊂ Cl(K). — Comme annoncé ci-dessus nous allons devoir maintenant considérer encore plus en détail l’action de la conjugaison complexe sur tous les objets que nous étudierons.

46

H. COHEN

Nous appelons donc K + le sous-corps de K = Q(ζ) fixé par la conjugaison complexe, en d’autres termes le sous-corps (totalement) réel maximal de K. On sait que K + = Q(ζ + ζ −1 ). On désigne par h+ p son nombre de classes d’idéaux. Nous allons montrer ci-dessous que h+ p divise le nombre de classes d’idéaux hp de K, et on posera donc + − h− p = hp /hp . Il faut se rendre compte que hp est facile à calculer bien qu’il soit exponentiellement grand en p (nous donnerons des formules ci-dessous), alors que h+ p est très difficile à calculer (on ne connaît pas sa valeur pour p > 500 par exemple), bien qu’il soit conjecturalement très petit. Proposition 6.1. — L’application qui envoie un idéal a de ZK + vers aZK induit un homomorphisme injectif de Cl(K + ) dans Cl(K). En particulier h+ p divise hp . Démonstration. — Puisqu’elle passe aux idéaux principaux, il est clair que cette application induit un homomorphisme de groupes de Cl(K + ) dans Cl(K), et on doit montrer qu’elle est injective. Soit donc a un idéal (entier) de ZK + tel que aZK = αZK soit un idéal principal de K. Puisque ι(a) = a on en déduit que ι(α)ZK = αZK , et donc que α/ι(α) est une unité de K. Il résulte de la démonstration du corollaire 1.14 (1), qui n’utilise que le fait que u/ι(u) est un entier algébrique, que α/ι(α) est une racine de l’unité, en d’autres termes que α/ι(α) = (−ζ)j pour un certain entier j. J’affirme que j est pair. En effet, si on pose comme d’habitude π = 1 − ζ et p = πZK , et si p+ = p ∩ ZK + est l’idéal premier de K + en dessous de p, alors comme pZK = pp−1 on doit avoir p+ ZK = p2 . Il en résulte que vp (aZK ) = 2vp+ (a) ≡ 0 (mod 2), et donc que vp (α) ≡ 0 (mod 2). Puisque π/ι(π) = (1 − ζ)/(1 − ζ −1 ) = −ζ, on a α/ι(α) = (π/ι(π))j donc si on pose β = αι(π)j on a β = ι(β), en d’autres termes β ∈ K + . On en déduit à nouveau que vp (β) ≡ 0 (mod 2), et donc j = vp (ι(π)j ) = vp (β) − vp (α) ≡ 0 (mod 2), ce qui démontre mon assertion. Posant j = 2i et γ = α(−ζ)−i , on voit donc que ι(γ) = ι(α)(−ζ)i = γ(ι(α)/α)(−z)j = γ, et donc γ ∈ K + . Puisque α et γ ne diffèrent que par une unité on a aZK = αZK = γZK . Puisque a et γZK + sont des idéaux de ZK + , en intersectant avec K + il en résulte que a = γZK + (exercice : si L/K est une extension de corps de nombres et a et b des


47

idéaux de K, alors on a aZL = bZL si et seulement si a = b. Pour cela on montrera que ab−1 et ba−1 sont des idéaux entiers). Il en résulte donc que a est bien un idéal principal de K + . 6.2. Diagonalisation de l’élément de Stickelberger À un unique endroit ci-dessous nous allons avoir besoin d’un résultat d’injectivité (le lemme 6.3) qui se démontre par des voies analytiques. Le but de ce paragraphe est donc de démontrer ce résultat. b le groupe des caractères de G ' (Z/pZ)∗ , qui est non Notons G b on pose canoniquement isomorphe à G. Pour χ ∈ G X 1 eχ = χ(σ)σ −1 ∈ C[G]. p−1 σ∈G

On vérifie immédiatement que les eχ forment un système complet d’idempotents orthogonaux, en d’autres termes que e2χ = eχ , que P eχ1 eχ2 = 0 quand χ1 6= χ2 , et que χ∈Gb eχ = 1. Comme conséquence immédiate on en déduit que M C[G] = eχ C[G]. b χ∈G

Puisque eχ 6= 0 tous les eχ C[G] sont non nuls, et d’autre part le b = |G| = dimC C[G]. Il nombre de termes dans la somme est égal à |G| en résulte que tous les termes sont de dimension égale à 1, et donc que eχ C[G] = Ceχ , donc que les eχ forment une C-base de C[G]. D’autre part puisque eχ C[G] est l’idéal principal de C[G] engendré par eχ , il en résulte que Ceχ est un idéal de C[G]. Lemme 6.2. — Appelons j l’isomorphisme canonique de (Z/pZ)∗ dans G tel que j(t) = σt , et comme d’habitude notons ι = σ−1 la conjugaison complexe. On a Θeχ = λχ eχ avec   si χ est le caractère trivial  (p − 1)/2 λχ = 0 si χ(ι) = 1 et χ est non trivial   L(χ ◦ j, 0) si χ(ι) = −1. Ici, L(χ ◦ j, 0) est défini comme la valeur en 0 du prolongement analytique de la fonction L(χ ◦ j, s) définie pour Re(s) > 1 par X χ ◦ j(n) L(χ ◦ j, s) = . ns n>1

48

H. COHEN

Démonstration. — Par définition de eχ on a 1 X 1 X σt eχ = χ(σ)σt σ −1 = χ(σσt )σ −1 = χ(σt )eχ . p−1 p−1 σ∈G

σ∈G

Ainsi Θeχ = λχ eχ , où λχ =

1 p

X

tχ(σt ).

16t6p−1

Il est clair que λχ = (p − 1)/2 quand χ est le caractère trivial, et en regroupant les termes en t et en p − t il est également évident que λχ = 0 si χ(ι) = 1 avec χ non trivial, puisque la somme des valeurs d’un caractère non trivial est nul. Enfin, si χ(ι) = −1, la théorie (tout à fait élémentaire, mais que nous ne ferons pas ici) du prolongement des fonctions L de Dirichlet montre que λχ = L(χ ◦ j, 0). Remarque. — Le fait que λχ = 0 quand χ est un caractère pair non trivial est une autre manière de dire que l’idéal de Stickelberger ne donne de renseignements que sur la partie − du groupe de classes, comme nous l’avons signalé à plusieurs reprises. De fait, si on pose C[G]− = {x ∈ C[G], ιx = −x} = (1 − ι)C[G] (où la dernière égalité est évidente), nous avons en fait le résultat suivant, qui est le but de ce paragraphe. Lemme 6.3 (1) Les eχ pour lesquels χ(ι) = −1 (en d’autres termes tels que χ◦j soit un caractère impair) forment une C-base de C[G]− . (2) La multiplication par Θ induit une application C-linéaire bijective de C[G]− dans lui-même. Démonstration (1) Puisque σt eχ = χ(σt )eχ on a ιeχ = χ(ι)eχ = −eχ quand χ(ι) = −1, donc de tels eχ appartiennent à C[G]− . Or le nombre de caractères impairs modulo p est égal à (p − 1)/2. D’autre part puisque ισt = P σ−t , t∈(Z/pZ)∗ at σt ∈ C[G]− si et seulement si a−t = −at , et donc les σt pour 1 6 t 6 (p − 1)/2 forment une base de C[G]− , donc dimC C[G]− = (p − 1)/2, ce qui démontre (1) puisque les eχ sont C-linéairement indépendants.


49

(2) D’après le lemme ci-dessus, sur la C-base (eχ )χ(ι)=−1 de C[G]− la matrice de la multiplication par Θ est diagonale, les éléments diagonaux étant le s L(χ ◦ j, 0) pour χ(ι) = −1. Or un théorème très important et pas tout à fait évident de théorie analytique des nombres affirme que toutes ces valeurs en 0 sont non nulles (le théorème est habituellement énoncé pour les valeurs en 1, mais il est facile de voir que dans notre cas la non nullité en 0 est équivalente). Noter que c’est ce même théorème qui permet de démontrer le théorème de Dirichlet sur l’infinité des nombres premiers dans les progressions arithmétiques. En tous cas ce théorème montre que la matrice de la multiplication par Θ sur la base des eχ est une matrice diagonale avec des éléments diagonaux non nuls, et est donc inversible, ce qui démontre le lemme. Remarque. — On peut montrer que le déterminant de l’application multiplication par Θ de C[G]− dans lui-même est égal à 2(p−3)/2 h− p /p. Il est à noter que ceci donne une manière tout à fait élémentaire de calculer h− p. 6.3. Les sous-espaces + et −. — Soit R un anneau commutatif et M un R[G]-module. Nous poserons M ± = {x ∈ M, ι(x) = ±x}. Si 2 est inversible dans R (ce qui n’est pas le cas pour R = Z par exemple), nous poserons ε± = (1 ± ι)/2 ∈ R[G]. Il est clair que les ε± sont des projecteurs complémentaires, en d’autres termes que (ε± )2 = ε± , ε+ + ε− = 1 et ε+ ε− = 0. Il est également évident que M ± = ε± M et que M = M + ⊕ M − . Si 2 n’est pas inversible dans R (donc par exemple pour R = Z) nous poserons ε± = 1 ± ι, et nous avons seulement les inclusions ε± M ⊂ M ± et M + ⊕ M − ⊂ M , les indices étant des puissances de 2. Toutefois, dans le cas particulier où M = R[G] nous avons le résultat suivant : Lemme 6.4. — On a ε± R[G] = R[G]± , et ce sont des R-modules libres de dimension (p − 1)/2. Démonstration. — Le membre de gauche est toujours un sous-module P de celui de droite. Ainsi, soit x = 16t6p−1 at σt ∈ R[G]± . Puisque ισt = σp−t on a donc ap−t = ±at . Il en résulte que si l’on pose P ± y = 16t6(p−1)/2 at σt on aura x = ε y. La dernière assertion est évidente puisque ap−t = ±at .

50

H. COHEN

Exercice. — Montrer que l’indice de Z[G]+ ⊕ Z[G]− dans Z[G] est égal à 2(p−1)/2 . Rappelons que l’élément de Stickelberger est défini par 1 X Θ= tσt−1 ∈ Q[G], p 16t6p−1

et que l’idéal de Stickelberger Is est défini par Is = ΘZ[G] ∩ Z[G]. Nous poserons I = (1 − ι)Is = ε− Is ⊂ Is− = Is ∩ Z[G]− = Is ∩ ε− Z[G], où la dernière égalité résulte du lemme ci-dessus (noter que nous avons déjà utilisé l’idéal I dans le lemme 5.1). D’après la proposition 4.22 (2), Is est engendré par Θp+1 et par les Θb pour 1 6 b 6 p − 1. Posons gb = −Θb pour 1 6 b 6 p − 1 et gp = −Θp+1 . D’après la proposition P 4.22 (1) nous avons gb = 16t6p−1 bbt/pcσt−1 , y compris quand b = p puisque b(p + 1)t/pc = t pour 1 6 t 6 p − 1. Enfin, pour 1 6 i 6 p − 1 posons X t(i + 1) ti − σt−1 , fi = gi+1 − gi = p p 16t6p−1

où nous notons que le coefficient de σt−1 est égal à 0 ou à 1. Puisque les gi pour 1 6 i 6 p engendrent Is et que g1 = 0, il en résulte que les fi pour 1 6 i 6 p − 1 engendrent aussi Is . De plus, puisque btp/pc = t et P bt(p − 1)/pc = t − 1 pour 1 6 t 6 p − 1 on a donc fp−1 = 16t6p−1 σt . Ceci est exactement l’élément norme N de l’anneau de groupe Z[G] vu ci-dessus, que nous noterons ici s(G) (somme des éléments de G), et qui vérifie αs(G) = N(α). P Définition 6.5. — Si f = 16t6p−1 at σt ∈ Z[G] on pose X kf k = |at |. 16t6p−1

Il est clair que kf k > 0, que kf k = 0 si et seulement si f = 0, et on vérifie immédiatement que kf gk 6 kf kkgk, et qu’il y a égalité quand tous les coefficients de f et de g sont positifs ou nuls. Lemme 6.6 (1) Pour 1 6 i 6 p − 2 on a kfi k = (p − 1)/2.


51

(2) L’idéal Is est un Z-module libre de dimension (p+1)/2 engendré par les fi pour 1 6 i 6 (p − 1)/2 et par fp−1 = s(G). (3) L’idéal I est un Z-module libre de dimension (p−1)/2 engendré par les ei pour 1 6 i 6 (p − 1)/2, où on pose ei = ε− fi . (4) Pour 1 6 i 6 (p − 1)/2 les coefficients de ei sont tous égaux à ±1, et en particulier kei k = p − 1. Démonstration (1) et (4). Pour 1 6 t 6 p − 1 et 1 6 i 6 p − 1 nous avons bti/pc + b(p − t)i/pc = bti/pc + i − dti/pe = i − 1 puisque p - ti. Il en résulte que X X bti/pc = (bti/pc + b(p − t)i/pc) = (i − 1)(p − 1)/2. 16t6p−1

16t6(p−1)/2

Puisque les coefficients de fi valent 0 ou 1, pour 1 6 i 6 p − 2 on a kfi k = i(p − 1)/2 − (i − 1)(p − 1)/2 = (p − 1)/2, ce qui démontre (1) (noter que ceci est faux pour i = p − 1 puisque pour cette valeur de i le calcul ci-dessus n’est pas valable pour i + 1 = p, et de fait nous savons que kfp−1 k = ks(G)k = p − 1). La démonstration de (4) résulte immédiatement de (1) et est laissée au lecteur. (2) et (3). En échangeant i et t dans la première égalité prouvée dans (1) nous voyons que bit/pc + b(p − i)t/pc = t − 1 = b(i + 1)t/pc + b(p − i − 1)t/pc, en d’autres termes que b(p − i)t/pc − b(p − i − 1)t/pc = b(i + 1)t/pc − bit/pc. Il en résulte que fp−1−i = fi , et donc que les fi pour 1 6 i 6 (p − 1)/2 ainsi que s(G) engendrent Is . Posons ei = ε− fi . Puisqu’on a trivialement ε− (s(G)) = 0 et que I = ε− Is , il en résulte que les ei pour 1 6 i 6 (p − 1)/2 engendrent I. Supposons que nous ayons démontré (3), c’est-à-dire que nous sachions que les ei forment une Z-base de I. Il est alors évident que les fi pour 1 6 i 6 (p−1)/2 ainsi que s(G) forment une Z-base de Is : P en effet, si nous avions une relation 16i6(p−1)/2 λi fi + λs(G) = 0, P appliquant ε− on en déduirait 16i6(p−1)/2 λi ei = 0, donc λi = 0, et donc aussi λ = 0, ce qui démontre (2).

52

H. COHEN

Reste à démontrer (3), ce que nous allons faire de manière indirecte. Puisque Is est un Z-module de type fini et sans torsion il est libre, ainsi que ses sous-modules. Montrer (3) est donc équivalent à montrer que la Z-dimension de I est égale à (p − 1)/2. Or d’après le lemme 6.4 on a dimZ Z[G]− = (p −1)/2. D’après le lemme 6.3, que nous utilisons de manière cruciale et uniquement ici, la multiplication par pΘ est une application injective de Z[G]− dans Z[G]− , et donc dimZ pΘZ[G]− = (p−1)/2. Or puisque par définition Is = ΘZ[G]∩Z[G] on a donc Is− = ΘZ[G] ∩ Z[G]− . Puisque pΘ ∈ Z[G] nous avons la chaîne d’inclusions pΘZ[G]− = pΘZ[G]− ∩ Z[G]− ⊂ ΘZ[G]− ∩ Z[G]− ⊂ Is− ⊂ Z[G]− . Puisque les extrémités de cette chaîne sont de Z-dimension égale à (p − 1)/2 on en déduit que c’est le cas pour tous les termes, et donc en particulier que dimZ (Is− ) = (p − 1)/2. Finalement, notons que si x ∈ Is− alors ε− x ∈ I, mais que d’autre part ε− x = x+x = 2x. Il en résulte que 2Is− ⊂ I ⊂ Is− , et donc que dimZ (I) = dimZ (Is− ) = (p−1)/2, ce qui finit la démonstration du lemme. Remarque. — Il résulte de ce lemme que les ei pour 1 6 i 6 (p−1)/2 sont Z-linéairement indépendants. Nous laissons en exercice au lecteur le soin de démontrer que ceci est équivalent au fait que la matrice carrée M = (mi,j )16i,j6(p−1)/2 d’ordre (p − 1)/2 définie par mi,j = b(i + 1)(j + 1)/pc a un déterminant non nul. Ceci peut se faire sans trop de mal en montrant que det(M ) est égal au déterminant de l’application multiplication par Θ de C[G]− dans lui-même, multiplié par p/(2(p−3)/2 ). Comme nous l’avons déjà remarqué après le lemme 6.3, on a donc h− p = | det(M )|, d’où une formule immédiatement implantable pour h− p. 6.4. Le groupe S. — Le lecteur aura pu remarquer que les résultats obtenus ci-dessus n’ont pour l’instant rien à voir avec Catalan. Nous nous en approchons maintenant en introduisant un nombre premier impair q différent de p. Rappelons que π = 1 − ζ est le générateur de l’unique idéal premier p au-dessus de p dans K, qui vérifie pp−1 = pZK . Définition 6.7 (1) Nous définissons E = {uπ k , u ∈ U (K), k ∈ Z}.


53

(2) Soit V le groupe des éléments α ∈ K ∗ tels que vr (α) ≡ 0 (mod q) pour tous les idéaux premiers r 6= p. On pose S = V /K ∗ q . Remarque. — Nous pourrions faire toute la démonstration en utilisant U (K) à la place de E, et en effectuant les modifications correspondantes pour les groupes S, etc., mais nous avons un peu plus de liberté en autorisant également des puissances de π. Le prix à payer est que nous devons travailler dans Z[ζp , 1/p] au lieu de Z[ζp ]. Proposition 6.8 (1) E est un Z[G]-module et E = Z[ζp , 1/p]∗ . (2) α ∈ V si et seulement si il existe un idéal a et k ∈ Z tels que αZK = π k aq . (3) S est un Z[G]-module annulé par qZ[G], donc S est un Fq [G]module. Démonstration. — Conséquences immédiates des définitions et laissé au lecteur. Nous poserons G+ = Gal(K + /Q) = G/hιi, qui est de cardinal (p − 1)/2. Le groupe Cl(K) est un Z[G]-module, donc nous pouvons parler de Cl(K)± . Par définition Cl(K)+ est le sous-groupe des classes d’idéaux invariantes par la conjugaison complexe ι. Il est important de noter que ceci n’est en général pas égal à Cl(K + ), mais d’après la proposition 6.1 l’application naturelle de Cl(K + ) vers Cl(K)+ est injective, donc Cl(K + ) peut être considéré comme un + sous-groupe de Cl(K)+ , et en particulier h+ p | | Cl(K) |. De plus, d’après les considérations générales du début du paragraphe 6.3, on a Cl(K)− ⊕ Cl(K)+ ⊂ Cl(K). Il en résulte qu’il existe une injection naturelle de Cl(K)− vers Cl(K)/ Cl(K)+ , et qu’en particulier − | Cl(K)− | | (hp /| Cl(K)+ |) | (hp /h+ p ) = hp .

De la même manière, ne pas confondre Cl− (K) défini comme Cl(K)/ Cl(K + ) avec Cl(K)− . Pour le lemme qui suit rappelons la notation suivante : si A est un groupe abélien A[q] est l’ensemble des x ∈ A tels que xq = 1 (ou qx = 0 en notation additive). Rappelons aussi qu’une suite M1 → M2 → M3 · · · de modules et d’homomorphismes de modules est dite

54

H. COHEN

exacte si l’image de chaque homomorphisme est égale au noyau de l’homomorphisme qui le suit. Lemme 6.9 (1) Il existe une suite exacte de Fq [G]-modules 0 −→ E/E q −→ S −→ Cl(K)[q]. (2) E/E q est invariant par ι, donc est un Fq [G+ ]-module. (3) On a S − ' Cl(K)[q]− = Cl(K)− [q], et il existe une suite exacte de Fq [G+ ]-modules 0 −→ E/E q −→ S + −→ Cl(K)[q]+ . (4) S est annulé par I. Démonstration. — (1) est immédiat : si α ∈ S alors αZK = π k aq pour un idéal a, et nous envoyons α sur la classe d’idéaux de a. Il est clair qu’on aboutit dans Cl[q], que c’est indépendant du représentant choisi pour α (le changement de α en αγ q change a en γa, qui est dans la même classe d’idéaux). Son noyau est l’ensemble des α tels que αZK = π k γ q ZK pour un certain γ, donc α = π k γ q u pour un u ∈ U (K), donc α/γ q ∈ E est tel que α/γ q = α. Finalement l’application est surjective puisque si aq = αZK la classe de a est l’image de la classe de α. (2) Soit α = π k u ∈ E. Puisque ι(π) = 1 − ζ −1 = −z −1 π et −ζ −1 est une puissance q-ième (comme q et 2p sont premiers entre eux) il en résulte que ι(π)/π ∈ E q . De plus si u ∈ U (K) alors, par le corollaire 1.14, ι(u)/u est une racine 2p-ième de l’unité, donc ι(u)/u ∈ E q , ce qui montre (2). (3) Puisque q est impair, 2 est inversible dans Fq , donc pour tout Fq [G]-module M on a M = M + ⊕M − . En particulier prendre les parties + et − dans une suite exacte de Fq [G]-modules conserve l’exactitude. Puisque d’après (2) on a (E/E q )+ = E/E q et (E/E q )− = 0, en prenant la partie − de la suite exacte de (1) on obtient S − ' Cl(K)[q]− , qui est clairement égal à Cl(K)− [q], et en prenant la partie + on obtient la suite exacte de (3). (4) D’après le théorème de Stickelberger on sait que Is annule Cl(K) et donc Cl(K)[q], et d’après (3) que ε− annule E/E q , où


55

ε− = 1 − ι. Puisque I = ε− Is il en résulte que I annule à la fois Cl(K)[q] et E/E q , et donc aussi S grâce à la suite exacte de (1). Nous revenons maintenant vraiment à la conjecture de Catalan. Soit donc à nouveau p et q des nombres premiers impairs distincts et x et y des entiers non nuls tels que xp − y q = 1. Nous avons déjà vu et utilisé le fait qu’il existe un idéal entier b tel que ((x − ζ)/(1 − ζ))ZK = bq . Lemme 6.10 (1) La classe de x − ζ appartient à S. 1−ι dans S est triviale. (2) Si de plus q - h− p , la classe de (x − ζ) Démonstration. — (1) résulte de ((x − ζ)/(1 − ζ))ZK = bq et de la définition de S. Pour (2), d’après les remarques précédant le lemme − − 6.9 on sait que | Cl(K)− | | h− p , donc si q - hp a fortiori q - | Cl(K) |, donc Cl(K)− [q] = 0. D’après le lemme 6.9 on en déduit que S − = 0, ce qui démontre (2) puisque la classe de (x − ζ)1−ι appartient à S − . 6.5. Démonstration du théorème. — Pour démontrer le deuxième théorème de Mihăilescu nous devrons démontrer la proposition technique mais essentielle suivante, donc la démonstration est assez longue. Il est clair qu’elle sera en contradiction avec le lemme 6.10 (2) quand q - h− p. Proposition 6.11. — Si p et q sont des nombres premiers et x et y des entiers non nuls tels que xp − y q = 1 alors la classe de (x − ζ)1−ι dans S est non triviale. Démonstration. — Supposons le contraire, en d’autres termes que (x − ζ)1−ι ∈ K ∗ q , et donc qu’il existe α ∈ K ∗ tel que (x − ζ)/(x − ζ −1 ) = αq . Posons µ = (x − 1)/(1 − ζ) = (x − 1)/π. D’après le théorème de Cassels nous savons que x ≡ 1 (mod pq−1 ), donc vp (µ) > (p − 1)(q − 1) − 1 > 4 puisque p et q sont des premiers impairs distincts. De plus 1 + µ = (x − ζ)/(1 − ζ), donc il existe β ∈ K ∗ tel que (1 + µ)/(1 + µ) = −ζ −1 αq = β q , puisque −ζ −1 est une puissance q-ième. Plus précisément, si r ∈ Z est tel que qr ≡ −1 (mod 2p) alors −ζ −1 = (−ζ)qr , donc on peut choisir β = (−ζ)r α = −ζ r α.

56

H. COHEN

J’affirme que β ≡ 1 (mod pZp ) (nous devons ici introduire un peu de p-adique, sans définitions, mais vraiment en quantité minimale) : en effet, puisque vp (µ) > 1 et vp (µ) > 1 on a β q ≡ 1 (mod pZp ), et en particulier β est premier à p. Puisque ZK /p ' Z/pZ il en résulte qu’il existe b ∈ Z tel que β ≡ b (mod pZp ), et donc bq ≡ 1 (mod p). De plus ββ = 1, donc b2 ≡ 1 (mod p). Puisque q et 2 sont premiers entre eux il en résulte que β ≡ b ≡ 1 (mod pZp ), comme annoncé. Dans une extension convenable L de K soit ρ1 tel que ρq1 = 1+µ. Si on pose ρ2 = ρ1 /β il est clair que ρq2 = (1+µ)/β q = 1+µ. Finalement, posons η = (ρ1 + ζ r ρ2 )q , où r est comme ci-dessus. Puisque η = ρq2 (ρ1 /ρ2 + ζ r )q = (1 + µ)(β + ζ r )q , il est clair que η ∈ K. De plus ρq1 + (ζ r ρ2 )q = 1 + µ + ζ −1 (1 + µ) =

x−ζ x − ζ −1 1 − ζ2 + = ζ −1 , 1−ζ ζ −1 1−ζ

qui est une unité. Puisque (ρq1 + (ζ r ρ2 )q )/η est un entier algébrique, il en résulte que η est aussi une unité, en d’autres termes que η ∈ U (K). En particulier NK/Q (η) = ±1, et puisque les plongements de K dans C vont par paires car il n’y en a aucun de réel toute norme est positive ou nulle, donc NK/Q (η) = 1. Puisque vp (µ) > 4 et p 6= q, le développement en série entière de (1 + µ)1/q converge p-adiquement dans Qp (ζp ) (il n’y a pas besoin de savoir grand-chose sur les p-adiques pour comprendre le raisonnement qui va suivre). Nous choisissons donc L = Qp (ζp ) et nous définissons ρ1 par ce développement en série, et donc en particulier on a ρ1 ≡ 1 (mod pZp ). J’affirme que ρ2 est égal à la somme du développement en série entière de (1 + µ)1/q , qui bien entendu converge également. En effet, si on définit ρ2 de cette manière on a ρ1 /ρ2 ≡ 1 (mod p) et (ρ1 /ρ2 )q = (1 + µ)/(1 + µ) = β q , donc ρ1 /ρ2 = εβ pour une certaine racine q-ième de l’unité ε dans Qp (ζp ). Puisqu’on a vu ci-dessus que β ≡ 1 (mod p), et puisque ρ1 /ρ2 ≡ 1 (mod pZp ) par construction, il en résulte que ε ≡ 1 (mod pZp ). Toutefois il est facile de montrer que si p 6≡ 1 (mod q) la seule racine q-ième de l’unité dans Qp (ζp ) est égale à 1, donc ρ1 /ρ2 = β comme annoncé. D’autre part, si p ≡ 1 (mod q) il existe maintenant q racines q-ièmes de l’unité


57

distinctes ε dans Qp (ζp ), qui relèvent les racines q-ièmes de l’unité de Zp /p, et qui sont donc distinctes modulo p. Il en résulte que le seul ε tel que ε ≡ 1 (mod pZp ) est ε = 1, d’où la conclusion également dans ce cas. Ainsi, en utilisant les définitions de ρ1 et ρ2 par des séries entières nous posons u = ρ1 + ζ r ρ2 , en se rappelant que par définition η = uq ∈ U (K). Notons que µ/µ = (1 − ζ)/(1 − ζ −1 ) = −ζ. Ainsi, en utilisant les développements en série donnant ρ1 et ρ2 on a µ µ µ + ζrµ u ≡ 1 + + ζr 1 + ≡ (1 + ζ r ) 1 + q q q(1 + ζ r ) r+1 1−ζ ≡ (1 + ζ r ) 1 + µ (mod µ2 Zp ) q(1 + ζ r ) avec des notations évidentes. Noter que 1 + ζ r = (1 − ζ 2r )/(1 − ζ r ) est une unité, et est donc de norme 1. D’où, en prenant les normes on obtient x−1X 1 − ζ r+1 NKp /Qp (u) ≡ 1 + (mod µ2 ), q (1 − ζ)(1 + ζ r ) ζ6=1

où la somme est de manière implicite sur toutes les racines p-ièmes de l’unité différentes de 1. Noter qu’il y a ici un léger abus de notation puisque µ dépend de ζ, mais la valuation p-adique de µ n’en dépend pas. P Puisque ζ ≡ 1 (mod p) nous avons (1−ζ r+1 )/(1−ζ) = 06j6r ζ j ≡ (r + 1) (mod p), et 1 + ζ r ≡ 2 (mod p), donc NKp /Qp (u) ≡ 1 +

x − 1 (r + 1)(p − 1) (mod (x − 1)pZp ) q 2

puisque l’on remarque que vp (µ2 ) = 2(vp (x − 1) − 1) > vp (x − 1) + 1, ceci étant équivalent à vp (x − 1) > 3. En élevant à la puissance q et en remarquant que vp ((x − 1)j ) > vp (p(x − 1)) pour j > 2 nous avons donc 1 = NK/Q (η) = NKp /Qp (u)q ≡ 1 + (x − 1)(r + 1)(p − 1)/2 (mod (x − 1)pZp ), donc p | r + 1 c’est-à-dire r ≡ −1 (mod p) puisque r ∈ Z. Comme par définition qr ≡ −1 (mod p) il en résulte que q ≡ 1 (mod p). Donc si q 6≡ 1 (mod p) nous avons obtenu une contradiction. Pour le reste de la démonstration nous pouvons donc supposer que q ≡ 1

58

H. COHEN

(mod p), en d’autres termes que l’on peut choisir r = −1. Nous allons maintenant calculer le développement de u modulo µ3 au lieu de µ2 . En remarquant que µ + ζ −1 µ = 0 on a donc µ 1/q 2 µ 1/q 2 −1 1+ + u≡1+ + µ +ζ µ q q 2 2 (1 − q)(x − 1)2 ζ −1 ≡ (1 + ζ ) 1 + (mod µ3 ). 2q 2 (1 − ζ)2 Prenant les normes et en raisonnant comme ci-dessus on obtient ζ (1 − q)(x − 1)2 X NKp /Qp (u) ≡ 1 + 2 2q (1 − ζ)2 ζ6=1

≡1+

(q −

1)(p2

− 1)(x − 1)2 (mod µ3 ), 24q 2

(le calcul des sommes sur les racines de l’unité qui interviennent cidessus est un joli exercice laissé au lecteur). Donc à nouveau en élevant à la puissance q et en notant que vp ((x − 1)4 ) > vp (µ3 ) on obtient 1≡1+

(q − 1)(p2 − 1)(x − 1)2 (mod µ3 ). 24q

On a donc vp ((q − 1)(x − 1)2 /24) > vp (µ3 ), en d’autres termes vp ((q − 1)/3) + 2vp (x − 1) > 3(vp (x − 1) − 1), ce qui implique vp ((q−1)/3) > vp (x−1)−3. Or d’après le théorème de Cassels nous savons que x ≡ 1 (mod pq−1 ). Il en résulte que vp (x−1) > (p − 1)(q − 1), et nous en déduisons donc que (p − 1)vp ((q − 1)/3) > (p − 1)(q − 1) − 3, et donc que vp (q − 1) > (q − 1) + vp (3) − 3/(p − 1). Puisque pour tout p impair on a vp (3) − 3/(p − 1) > −1, il en résulte que vp (q − 1) > q − 1, ce qui est trivialement impossible puisque le membre de droite est bien plus grand, et ce qui termine la démonstration de cette proposition très technique. Théorème 6.12 (Mih˘ailescu). — Soient p et q des nombres premiers − p q impairs distincts. Si p - h− q ou q - hp l’équation x − y = 1 n’a pas de solutions avec xy 6= 0. Démonstration. — C’est maintenant évident : par symétrie on peut supposer que q - h− p , et alors le lemme 6.10 (2) et la proposition ci-dessus se contredisent.


59

Corollaire 6.13. — Si p et q sont des nombres premiers distincts et si p ou q est inférieur ou égal à 43 l’équation xp − y q = 1 n’a pas de solutions avec xy 6= 0. Démonstration. — Grâce au théorème ci-dessus il suffit de vérifier − que pour tout p et q tels que min(p, q) 6 43 on a p - h− q ou q - hp . Nous devons tout d’abord calculer h− p pour de petites valeurs de p, ce qui se fait très facilement comme nous l’avons expliqué ci-dessus. Sous forme complètement factorisée on trouve que h− p = 1 pour p 6 19, − 3 , h− = 32 , h− = 37 (qui provient du fait et que h− = 3, h = 2 23 29 31 37 − 2 que 37 est un nombre premier irrégulier), h− 41 = 11 et h43 = 211. Par symétrie on peut supposer que 3 6 p < q. De la liste ci-dessus on déduit que, en dehors du cas p = 43 on a q - h− p puisque tous les − diviseurs premiers de hp sont inférieurs ou égaux à p. Pour p = 43 on a également q | h− 43 pour q = 211, et nous devons donc vérifier que − 43 - h211 , ce qui est bien le cas puisqu’on calcule que 2 2 h− 211 = 3 ·7 ·41·71·181·281·421·1051·12251·113981701·4343510221

(le fait qu’il y ait beaucoup de petits facteurs premiers n’est pas un hasard, et bien entendu nous n’avons pas besoin de la factorisation complète simplement pour vérifier que 43 - h− 211 ). Remarques (1) La raison pour laquelle nous nous arrêtons à 43 est que pour p = − 47 et q = 139 on peut vérifier que q | h− p et p | hq , donc le théorème n’est pas applicable dans ce cas. De toutes façons la démonstration complète n’utilise ce théorème que pour min(p, q) 6 11. (2) Nous avons maintenant deux critères différents nous permettant de conclure que l’équation de Catalan n’a pas de solutions non nulles : les théorèmes 5.4 et 6.12. Il est très probable qu’il n’existe pas de couples (p, q) satisfaisant les deux, mais ceci n’est pas démontré. Toutefois, grâce au théorème de Baker et successeurs sur les formes linéaires en logarithmes, il n’est pas difficile de montrer que les deux théorèmes ci-dessus suffisent à démontrer la conjecture de Catalan complète, moyennant une quantité finie et pas complètement déraisonnable de calculs sur ordinateur. Ceux-ci ont d’ailleurs été commencés, mais ils n’ont pas été achevés, tout d’abord parce qu’ils seraient très longs, mais surtout parce que grâce aux deux autres théorèmes

60

H. COHEN

de Mihăilescu (qui évitent même tout recours aux formes linéaires de logarithmes) ils ne sont pas nécessaires. 7. Le troisième théorème de Mihăilescu : p < 4q 2 et q < 4p2 Bien qu’assez longue, ceci n’est pas vraiment une partie importante de la démonstration de la conjecture de Catalan, et n’a en fait été trouvée qu’après. Son seul avantage est d’éviter complètement l’utilisation de formes linéaires en logarithmes et des calculs assez longs sur ordinateur. Nous gardons les notations ci-dessus, et pour simplifier nous écrirons N à la place de NK/Q . Si u ∈ V nous noterons [u] sa classe dans S = V /K ∗ q . Rappelons que d’après le lemme 6.10, si xp − y q = 1 on a [x − ζp ] ∈ S. Définition 7.1. — Nous appellerons X l’annulateur de [x − ζp ] dans Z[G], en d’autres termes l’ensemble des θ ∈ Z[G] tels que (x − ζp )θ = αq pour un α ∈ K ∗ . Il est clair que X est un idéal de Z[G]. Lemme 7.2. — L’application qui à θ ∈ X associe α ∈ K ∗ tel que (x − ζp )θ = αq est bien définie et est un homomorphisme de groupes injectif. Démonstration. — Puisque K = Q(ζp ) ne contient aucune racine qième de l’unité autre que 1 il est clair que l’application est bien définie, et il est évident que c’est un homomorphisme de groupes du groupe additif X dans le groupe multiplicatif K ∗ . Montrons qu’il est injectif : soit θ ∈ X tel que (x − ζp )θ = 1. Pour tout σ ∈ G on a donc (x − σ(ζp ))θ = σ(1) = 1, et donc N(x − ζp )θ = 1. Si θ = P σ, puisque N(x − ζp ) ∈ Z, il en résulte que N(x − ζp )s = 1, σ∈G aσP où s = σ∈G aσ . Or nous savons que (x − ζp )/(1 − ζp ) ∈ ZK , et puisque N(1 − ζp ) = p il en résulte que p | N(x − ζp ), et en particulier N(x − ζp ) > p, et est donc différent de 1. Nous avons donc P s = σ∈G aσ = 0, donc nous pouvons écrire Y x − σ(ζp ) aσ (x − ζp )θ 1= = , (1 − ζp )s 1 − ζp σ∈G


61

et puisque (1 − σ(ζp ))/(1 − ζp ) est une unité pour tout σ ∈ G il en Q résulte que σ∈G σ(β)aσ est une unité, où nous avons posé comme d’habitude β = (x − ζp )/(1 − ζp ). Or d’après le lemme 3.8 nous savons que les idéaux bσ = σ(β)ZK sont entiers et premiers entre eux deux Q à deux. Puisque σ∈G baσσ = ZK il en résulte que aσ = 0 pour tout σ ∈ G, en d’autres termes que θ = 0, ce qui démontre l’injectivité. Proposition 7.3. — Supposons que min(p, q) > 11. Soit θ = P ι)Z[G], soit α ∈ K ∗ tel que (x − ζp )θ = αq , et σ∈G aσ σ ∈ X ∩ (1 − P supposons que kθk = σ∈G |aσ | 6 3q/(p − 1). Alors pour tout τ ∈ G on a kθk π | Arg(τ (α)q )| 6 et | Arg(τ (α))| > , |x| − 1 q où Arg(z) désigne la détermination principale de l’argument, c’est-àdire telle que −π < Arg(z) 6 π. Démonstration. — Puisque θ ∈ (1 − ι)Z[G] on a ιθ = −θ, donc pour tout τ ∈ G |τ (α)|2q = |(x−ζp )τ θ |2 = (x−ζp )τ θ (x−ζp )τ ιθ = (x−ζp )τ θ (x−ζp )−τ θ = 1, et donc |τ (α)| = 1. Pour la même raison on a aισ = −aσ , donc P s = σ∈G aσ = 0. Il en résulte que Y αq = (x − ζp )θ = (x − σ(ζp ))aσ σ∈G

= xs

Y

(1 − σ(ζp )/x)aσ =

σ∈G

Y

(1 − σ(ζp )/x)aσ .

σ∈G

Fixons un τ ∈ G et posons ζ = τ (ζp ). Nous avons donc Y τ (α)q = (1 − σ(ζ)/x)aσ . σ∈G

Notons Log la détermination principale du logarithme complexe, donc telle que Log(z) = log(|z|) + i Arg(z), et soit f une détermination du logarithme, ce qui fait que f (z) − Log(z) ∈ 2iπZ. On a donc X aσ Log(1 − σ(ζ)/x) = f (τ (α)q ). σ∈G

Comme |x| > 1 nous avons X X k k |x|−k = 1/(|x| − 1). | Log(1 − σ(ζ)/x)| = σ(ζ) /(kx ) 6 k>1

k>1

62

H. COHEN

Notons que pour tout z on a f (z) = log(|z|) + i(Arg(z) + 2kπ) pour un certain k ∈ Z, donc |f (z)| > | Arg(z) + 2kπ|. Si k = 0 cela donne |f (z)| > | Arg(z)|, et si k 6= 0 cela donne |f (z)| > |2kπ| − | Arg(z)| > (2|k| − 1)π > π > | Arg(z)| puisque | Arg(z)| 6 π, ce qui montre qu’on a toujours |f (z)| > | Arg(z)|. Ainsi X 1 kθk | Arg(τ (α)q )| 6 |f (τ (α)q )| 6 |aσ | 6 , |x| − 1 |x| − 1 σ∈G

ce qui démontre la première inégalité. Supposons maintenant par l’absurde que | Arg(τ (α))| 6 π/q. On vérifie immédiatement que dans ce cas on a | Arg(τ (α)q )| = q| Arg(τ (α))|, et donc que | Arg(τ (α))| 6 kθk/(q(|x| − 1)). De plus si on pose φ = Arg(τ (α)), comme |τ (α)| = 1 on a τ (α) = cos(φ) + i sin(φ), donc τ (α) − 1 = 2 sin(φ/2)(− sin(φ/2) + i cos(φ/2)), d’où |τ (α) − 1| = 2| sin(φ/2)| 6 |φ| = | Arg(τ (α))|. Nous avons donc |τ (α) − 1| 6 kθk/(q(|x| − 1)), et donc en prenant le produit sur tous les σ ∈ G on obtient 2 Y kθk 2 2p−3 , | N(α − 1)| = |τ (α) − 1| |σ(α) − 1| 6 q(|x| − 1) σ∈G σ6=τ, σ6=ιτ

puisque |σ(α) − 1| 6 |σ(α)| + 1 = 2. P P Posons θ+ = σ∈G, aσ >0 aσ σ et θ− = σ∈G, aσ 60 (−aσ )σ, ce qui fait que θ = θ+ − θ− . Puisque aισ = −aσ on a ιθ+ = θ− donc + αq = (x − ζp )θ = β/ι(β), où β = (x − ζp )θ est un entier algébrique. Or N(β 2 ) = N(β) N(ι(β)) = N(βι(β)) Y = NK/Q ( (x − σ(ζp ))|aσ | ) 6 (|x| + 1)kθk(p−1) , σ∈G

et donc N(β) 6 (|x| + 1)kθk(p−1)/2 . Écrivons αZK = a/b, où a et b sont des idéaux entiers premiers entre eux. On a aq /bq = (β/ι(β))ZK , donc aq ι(β) = bq β, et puisque a et b sont premiers entre eux il en résulte que bq | ι(β)ZK . En particulier N(bq ) 6 N(ι(β)) = N(β), donc N(b) 6 (|x| + 1)kθk(p−1)/(2q) . Or d’après le lemme 7.2, puisque


63

nous avons choisi θ 6= 0 nous avons α 6= 1. Puisque bα = a et b sont des idéaux entiers il en résulte que a1 = b(α − 1) = {xα − x, x ∈ b} est aussi un idéal entier, et donc que 1 6 N(a1 ) = N(b)| N(α − 1)|. En combinant toutes les inégalités obtenues ci-dessus on a donc 2 kθk kθk(p−1)/(2q) 1 6 (|x| + 1) 2p−3 . q(|x| − 1) Cette égalité va nous donner une contradiction. Puisque |x| > 6 (voir ci-dessous), on a (1 + |x|)2 6 2(|x| − 1)2 , donc (1 + |x|)2−kθk(p−1)/(2q) 6 2p−1 (kθk/q)2 , et donc d’après l’hypothèse de la proposition kθk 6 3q/(p − 1) et le fait que p > 5 on en déduit que (1 + |x|)1/2 6 2p−1 (3/(p − 1))2 6 2p−1 = 4(p−1)/2 . Or d’après la remarque que nous avons faite après la démonstration du résultat de Hyrrö (corollaire 3.4), nous savons que |x| > q p−1 + q (ce qui montre au passage que |x| > 6). Il en résulte que q (p−1)/2 < (1 + |x|)1/2 6 4(p−1)/2 , ce qui est absurde puisque par hypothèse q > 5. Pour démontrer le résultat important suivant, à savoir la proposition 7.6, nous avons besoin de plusieurs lemmes. Lemme 7.4. — Le nombre de k-uplets positifs ou nuls λi tels d’entiers P s+k s+k que 16i6k λi 6 s est égal à s = k . Démonstration. — C’est classique : il est facile de voir que l’appliP cation qui à (λi )16i6k associe l’ensemble des 16i6j (λi + 1) pour 1 6 j 6 k est une bijection de l’ensemble des k-uplets de somme s dans l’ensemble des parties de [1, s + k] ayant k éléments. Lemme 7.5. — Supposons que min(p, q) > 11 et que q > 4p2 . Il existe au moins q + 1 éléments θ ∈ I tels que kθk 6 3q/(2(p − 1)). Démonstration. — Rappelons que le lemme 6.6 nous dit que I a une base formée d’éléments ei pour 1 6 i 6 (p−1)/2 tels que kei k = p−1. P Considérons l’ensemble des θ = 16i6(p−1)/2 λi ei , où λi ∈ Z>0 et P 2 i λi 6 s = b3q/(2(p − 1) )c. Pour un tel θ on a X kθk 6 (p − 1) λi 6 (p − 1)s 6 3q/(2(p − 1)). i

64

H. COHEN

. D’après le lemme ci-dessus le nombre de tels θ est égal à s+(p−1)/2 s Puisque nous pouvons aussi considérer les −θ quand θ 6= 0, il en résulte que nous construisons de cette manière 2 s+(p−1)/2 −1 éléments s distincts θ. Montrons que ce nombre est supérieur ou égal à q + 1. On note tout d’abord que Q s+(p−1)/2 26j6(p−1)/2 (s + j) s = , p2 (s + 1) p2 ((p − 1)/2)! qui est évidemment une fonction croissante de s. Puisque q > 4p2 > 4(p − 1)2 on a s > 6, et donc s+(p−1)/2 /(s + 1) > s 6+(p−1)/2 2 /(7p ) = f (p), disons. On calcule que f (p)/f (p − 2) = 6 (p + 11)(p − 2)2 /(p2 (p − 1)), et on vérifie immédiatement que ceci est plus grand que 1 dès que p > 5, ce qui montre que f (p) est une fonction croissante de p. En particulier on a f (11) = 6/11 > 1/3. Ainsi, si p > 11 on a p2 q q+2 s + (p − 1)/2 p2 (s + 1) > > , > 2 2 2(p − 1) 2 s la dernière égalité étant évidente puisque q > 4p2 . Nous avons donc bien construit au moins q+1 éléments θ distincts qui conviennent. Proposition 7.6. — Supposons que min(p, q) > 11 et que q > 4p2 . Pour tout τ ∈ G il existe θ ∈ I non nul tel que kθk 6 3q/(p − 1) et tel que | Arg(τ (α))| 6 π/q, où α ∈ K ∗ est l’élément tel que (x−ζp )θ = αq . Démonstration. — D’après le lemme ci-dessus il existe au moins q + 1 éléments θ ∈ I tels que kθk 6 3q/(2(p − 1)). Pour un tel θ il existe un unique α tel que (x − ζp )θ = αq . Puisque θ ∈ I ⊂ (1 − ι)Z[G], d’après la première inégalité de la proposition 7.3 on en déduit que | Arg(τ (α)q )| 6 kθk/(|x| − 1). Or il existe un entier k tel que Arg(τ (α)q ) = q Arg(τ (α)) + 2kπ, d’où 2kπ = −q Arg(τ (α)) + Arg(τ (α)q ), et puisque Arg est toujours entre −π et π on a 2|k|π < (q + 1)π. Il en résulte que 2|k| 6 q et donc que |k| 6 (q − 1)/2 puisque q est impair. Comme il y a exactement q entiers k tels que −(q − 1)/2 6 k 6 (q − 1)/2 et que nous avons au moins q + 1 éléments θ distincts qui conviennent, il résulte du principe des tiroirs qu’il existe θ1 et θ2 distincts qui conviennent et qui de plus correspondent à la même valeur de k. Pour i = 1 et 2 écrivons (x − ζp )θi = αiq et θ = θ1 − θ2 , ce qui fait que (x − ζp )θ = αq ,


65

où α = α1 /α2 , et évidemment kθk 6 kθ1 k + kθ2 k 6 3q/(p − 1). Puisque Arg(τ (αi )q ) 2kπ Arg(τ (αi )) = − q q on a 1 | Arg(τ (α2 ))−Arg(τ (α1 ))| = | Arg(τ (α2 )q )−Arg(τ (α1 )q )| 6 2π/q < π, q donc Arg(τ (α)) = Arg(τ (α2 ))−Arg(τ (α1 )). En utilisant les inégalités kθk 6 3q/(2(p − 1)) et |x| − 1 > q p−1 on a donc | Arg(τ (α))| = | Arg(τ (α2 )) − Arg(τ (α1 ))| 6 | Arg(τ (α2 )) + 2kπ/q| + | Arg(τ (α1 )) + 2kπ/q| 6 (| Arg(τ (α2 )q )| + | Arg(τ (α1 )q )|)/q 6 2kθk/(q(|x| − 1)) 6 3/((p − 1)q p−1 ) < π/q, ce qui démontre la proposition. Il est maintenant immédiat de démontrer le troisième théorème de Mihăilescu. Théorème 7.7. — Soient p et q des nombres premiers impairs distincts tels que min(p, q) > 11, et soient x et y des entiers non nuls tels que xp − y q = 1. On a alors p < 4q 2 et q < 4p2 . Démonstration. — Par symétrie il suffit de démontrer que q < 4p2 . Supposons par l’absurde que q > 4p2 . D’après la proposition ci-dessus, pour tout τ ∈ G il existe θ ∈ I non nul tel que kθk 6 3q/(p − 1) avec | Arg(τ (α))| 6 π/q, où (x − ζp )θ = αq . D’après le lemme 6.9 (4), S est annulé par I, donc [x − ζp ] est annulé par I et donc I ⊂ X. Puisque par définition I = (1 − ι)Is ⊂ (1 − ι)Z[G] il en résulte que θ ∈ X ∩ (1 − ι)Z[G], et puisque kθk 6 3q/(p − 1) on déduit de la proposition 7.3 que | Arg(τ (α))| > π/q, ce qui contredit l’inégalité de la proposition 7.6 et démontre le théorème. 8. Le quatrième théorème de Mihăilescu : p ≡ 1 (mod q) ou q ≡ 1 (mod p) Ceci est la partie la plus délicate de la démonstration. Jusqu’à présent nous n’avons en fait utilisé que des propriétés simples et très classiques des corps cyclotomiques (bien que certaines démonstrations

66

H. COHEN

soient très techniques), l’outil principal étant le théorème de Stickelberger et les propriétés de la partie − du groupe de classes. Comme nous l’avons déjà mentionné, le quatrième théorème de Mihăilescu repose au contraire sur les propriétés de la partie + du groupe de classes, qui est beaucoup moins bien comprise. L’utilisation du théorème de Thaine, que nous ne démontrerons pas (voir [3] ou la deuxième édition de [4]), qui est un analogue plus faible du théorème de Stickelberger pour la partie +, va se révéler indispensable. Dans les trois premières parties nous démontrons les résultats dont nous aurons besoin sur la partie +, et qui sont complètement indépendants de l’équation de Catalan. Nous aurons bien sûr besoin du théorème de Thaine à un moment crucial. Nous donnerons ensuite la démonstration du quatrième théorème de Mihăilescu, qui finira la démonstration de la conjecture de Catalan. 8.1. Préliminaires d’algèbre commutative Lemme 8.1. — Soit R un anneau commutatif, b un idéal de R, M un R-module de type fini et φ un R-endomorphisme de M tel que φ(M ) ⊂ bM . Il existe un polynôme unitaire non nul P ∈ R[X] tel que P (φ) = 0, et tel que tous les coefficients de P autres que le coefficient dominant appartiennent à b. Rappelons que dans l’énoncé ci-dessus bM est le R-module des combinaisons linéaires de produits d’un élément de b par un élément de M , et que pour tout endomorphisme φ on convient que φ0 est l’identité. Démonstration. — Soit (mi )16i6n un système générateur de M , et P soient bi,j ∈ b tels que φ(mj ) = 16i6n bi,j mi pour 1 6 j 6 n. La loi A(φ) · m = A(φ)(m) pour A ∈ R[X] et m ∈ M permet de considérer M comme un R[φ]-module. Si on pose B = (bi,j )16i,j6n et si on désigne par In la matrice identité d’ordre n nous pouvons donc écrire dans l’anneau des matrices à coefficients dans R[φ] l’équation (φIn − B)V = 0, où V est le vecteur (colonne) des mi . En multipliant par la comatrice de φIn − B on en déduit que det(φIn − B)V = 0, en d’autres termes que det(φIn − B)mi = 0 pour tout i. Comme les mi engendrent M ceci signifie que (en tant qu’élément de R[φ], c’està-dire en tant qu’endomorphisme) on a det(φIn − B) = 0, et ceci est


67

évidemment un polynôme unitaire non nul en φ dont les coefficients sont dans b, en dehors du coefficient dominant. Nous noterons comme il est l’usage AnnR (M ) l’annulateur d’un Rmodule M , en d’autres termes l’ensemble des x ∈ R tels que xM = 0. C’est évidemment un idéal de R. Lemme 8.2. — Soit R un anneau commutatif, b un idéal de R, M un R-module de type fini, et notons ψ la surjection canonique de R dans R/b. Si R/(AnnR (M ) + b) n’a pas d’éléments nilpotents non nuls alors ψ(AnnR (M )) = AnnR/b (M/bM ). Démonstration. — L’inclusion ⊂ est triviale, montrons l’autre. Soit ψ(α) ∈ AnnR/b (M/bM ), en d’autres termes soit α ∈ R tel que αM ⊂ bM . Appliquant le lemme précédent à l’endomorphisme multiplication par α on en déduit qu’il existe des bi ∈ b tels que l’application multiplication par β = αn + bn−1 αn−1 + · · · + b0 soit l’application nulle de M dans M , en d’autres termes tels que β ∈ AnnR (M ). Puisque bi ∈ b il en résulte que αn ∈ AnnR (M ) + b, et puisque R/(AnnR (M ) + b) n’a pas d’éléments nilpotents non nuls on doit donc avoir α ∈ AnnR (M ) + b, donc ψ(α) ∈ ψ(AnnR (M )). Lemme 8.3. — Soit H un groupe cyclique d’ordre n, et supposons P que q - n. Posons s = σ∈H σ ∈ Fq [H]. Les anneaux Fq [H] et Fq [H]/(sFq [H]) n’ont pas d’éléments nilpotents non nuls. Démonstration. — Puisque H est cyclique, on a Fq [H] ' Fq [X]/((X n − 1)Fq [X]) et Fq [H]/(sFq [H]) ' Fq [X]/((X n−1 + · · · + X + 1)Fq [X]), donc Fq [H] ' (Fq [X]/((X − 1)Fq [X])) × Fq [H]/((X n−1 + · · · + X + 1)Fq [H]) ' Fq × Fq [H]/(sFq [H]) si (X − 1) et X n−1 + · · · + X + 1 sont premiers entre eux, ce qui est le cas puisque q - n. Si η est un élément nilpotent de Fq [H]/(sFq [H]), alors par cet isomorphisme (0, η) sera un élément nilpotent de Fq [H],

68

H. COHEN

donc il suffit de montrer qu’il n’y en a pas dans cet anneau. Or Fq [H] ' Fq [X]/((X n − 1)Fq [X]), donc si la classe de A(X) ∈ Fq [X] est nilpotente on doit avoir (X n − 1) | A(X)k pour un certain k > 1. Toutefois les racines de X n − 1 dans une clôture algébrique de Fq sont distinctes puisque sa dérivée vaut nX n−1 qui est non nulle puisque q - n. Il en résulte que X n − 1 | A(X), donc que la classe de A est nulle. Nous terminons cette partie en rappelant sans démonstration des résultats de base sur les modules et anneaux semi-simples que l’on peut trouver dans tout bon livre sur les sujet, et en particulier dans Bourbaki. Définition 8.4 (1) Un anneau commutatif R sera dit semi-simple si c’est un produit fini de corps. (2) Un R-module M est simple si ses seuls sous-modules sont 0 et M , et il est semi-simple s’il est somme directe de modules simples. (3) Un R-module M est cyclique s’il est engendré en tant que Rmodule par un seul élément, en d’autres termes s’il existe a ∈ M tel que M = aR. Lemme 8.5. — Soit H un groupe cyclique d’ordre n, et supposons que q - n. Alors l’anneau Fq [H] est semi-simple. Q Démonstration. — Soit X n − 1 = 16i6g Piei (X) la décomposition de X n − 1 comme produit de puissances de polynômes irréductibles unitaires distincts dans Fq [X]. Puisque q - n, comme nous l’avons déjà mentionné les racines de X n − 1 dans une clôture algébrique sont distinctes, donc ei = 1 pour tout i. D’après le lemme ci-dessus on a donc Y Fq [H] ' Fq [X]/((X n − 1)Fq [X]) ' Ki , 16i6g

où Ki = Fq [X]/(Pi (X)Fq [X]) est un corps, donc Fq [H] est bien semisimple. La proposition suivante résume les résultats dont nous aurons besoin.


69

Proposition 8.6. — Soit R un anneau semi-simple. Alors : (1) Tout R-module est semi-simple. (2) Toute suite exacte de R-modules est scindée. (3) Pour tout R-module M il existe α ∈ M tel que AnnR (α) = AnnR (M ), donc M contient le sous-module cyclique aR qui est isomorphe au module quotient R/ AnnR (M ). (4) Si R et M sont finis alors |M | > |R/ AnnR (M )| avec égalité si et seulement si M est cyclique. (5) Soit M un module cyclique. Tout sous-module M 0 de M est aussi cyclique, AnnR (M ) = AnnR (M 0 ) · AnnR (M/M 0 ), et les idéaux AnnR (M ) et AnnR (M/M 0 ) sont premiers entre eux (c’est-à-dire de somme égale à R). Noter que (2) signifie que si 0 → M1 → M2 → M3 → 0 est une suite exacte alors M2 ' M1 ⊕ M3 . 8.2. Préliminaires sur la partie plus. — Rappelons que l’on note G+ = Gal(K + /Q) = G/hιi, et que le corollaire 1.14 nous dit que U (K) = hζp iU (K + ). Rappelons enfin que d’après la proposition 6.1 l’application naturelle de Cl(K + ) dans Cl(K) est injective. Lemme 8.7. — On a Cl(K + )[q] = Cl(K)[q]+ . Bien observer la position des +, et se rappeler que ce résultat est faux en général si on enlève les [q]. Démonstration. — Par abus de notation, d’après la proposition 6.1 on peut écrire Cl(K + )[q] ⊂ Cl(K)[q], et puisque Cl(K + ) est trivialement invariant par ι on a Cl(K + )[q] ⊂ Cl(K)[q]+ . Réciproquement, soit a un représentant d’une classe de Cl(K)[q]+ . Puisque Cl(K)[q] est un Fq [G]-module et que 2 est inversible dans Fq , il en résulte que Cl(K)[q]+ est égal au noyau de la multiplication par (1 − ι)/2 (ou par 1 − ι) de Cl(K)[q] dans lui-même. Ainsi il existe α et β dans K ∗ tels que aι(a)−1 = αZK et aq = βZK . Soit b l’idéal de K + défini par b = NK/K + (a). Nous avons bZK = aι(a), donc bq ZK = aq ι(aq ) = βι(β)ZK = NK/K + (β)ZK , et donc en intersectant avec K + on en déduit que bq = NK/K + (β)K + , donc la classe de b appartient à Cl(K + )[q]. De plus, en posant m = (q + 1)/2 on voit que bm ZK = am ι(a)m = am (aα−1 )m = aq+1 α−m = aβα−m ,

70

H. COHEN

et donc la classe de a est égale à celle de bm ZK , ce qui démontre le lemme. Rappelons (définition 6.7) que l’on a posé E = {uπ k , u ∈ U (K), k ∈ Z} = Z[ζp , 1/p]∗ . C’est un Z[G]-module, donc E/E q est un Fq [G]-module. Puisque π = 1 − ζp , d’après le corollaire 1.14 pour tout x ∈ E la quantité ι(x)/x est une racine 2p-ième de l’unité, donc comme d’habitude une puissance q-ième. Il en résulte que E/E q est invariant sous l’action de ι, donc que c’est en fait un Fq [G+ ]-module. Le lemme suivant décrit très précisément sa structure. Lemme 8.8. — Supposons que p 6≡ 1 (mod q). (1) On a |E/E q | = q (p−1)/2 . (2) Si on pose V = U (K + )/{±1}, alors AnnZ[G+ ] (V ) = sZ[G+ ], P où s = σ∈G+ σ. (3) On a AnnFq [G+ ] (V /V q ) = sFq [G+ ]. (4) On a AnnFq [G+ ] (E/E q ) = 0. (5) E/E q est un Fq [G+ ]-module libre de rang 1. Noter que le V de ce lemme n’a rien à voir avec le V utilisé ci-dessus pour définir le groupe S. Démonstration (1) L’application (u, k) de U (K) × Z dans E est un isomorphisme puisque k est déterminé de manière unique comme la valuation p-adique de uπ k . D’après le théorème de Dirichlet donnant la structure du groupe des unités, on en déduit que comme groupe abélien on a E ' µ2p × Z(p−1)/2 puisque le rang du groupe des unités de K est égal à (p − 3)/2. Puisque 2p est premier à q il en résulte que E/E q ' (Z/qZ)(p−1)/2 , ce qui montre (1). P (2) Soit a σ un élément de AnnZ[G+ ] (V ), en d’autres σ∈G Q+ σ aσ = ±1 pour tout ε ∈ U (K + ), et termes tel que σ∈G+ σ(ε) soit (εi )16i6(p−3)/2 un système d’unités fondamentales de K + . P En prenant les logarithmes, on a σ∈G+ aσ log(|σ(εi )|) = 0 pour tout i. Par ailleurs, toujours d’après le théorème de Dirichlet, la matrice ((p − 3)/2) × ((p − 1)/2) des σ(εi )i6(p−3)/2,σ∈G+ est de rang (p − 3)/2, et donc son noyau est de dimension 1. Puisque l’on a


71

P

σ∈G+ log(|σ(εi )|) = 0, ce noyau est engendré sur R par le vecteur colonne dont les (p − 1)/2 coordonnées sont égales à 1. Il en résulte P que aσ = a pour tout σ, donc que σ∈G+ aσ σ = a · s, comme annoncé. (3) D’après le lemme 8.3 appliqué à H = G+ , on voit que, si p 6≡ 1 (mod q), l’anneau Fq [G+ ]/(sFq [G+ ]) n’a pas d’éléments nilpotents non nuls. Posons temporairement I = sZ[G+ ] + qZ[G+ ]. Il est clair que Z[G+ ]/I ' Fq [G+ ]/(sFq [G+ ]), et donc n’a pas de nilpotents non nuls. D’après (2) il est clair que sFq [G+ ] ⊂ AnnFq [G+ ] (V /V q ). Montrons l’inclusion inverse. Soit θ ∈ AnnFq [G+ ] (V /V q ), en d’autres termes soit θ ∈ Fq [G+ ] tel que V θ ⊂ V q . Nous appliquons le lemme 8.2 à R = Z[G+ ], b = qZ[G+ ] et M = V , où nous rappelons que l’action de R sur M est bien évidemment multiplicative, alors qu’elle est écrite additivement dans le lemme. Puisque d’après (2) on a AnnR (M ) = sR on voit que puisque R/(AnnR (M ) + b) n’a pas de nilpotents non nuls on a ψ(AnnR (M )) = AnnR/b (M/bM ). Traduisant ceci dans notre contexte signifie que sFq [G+ ] = AnnFq [G+ ] (V /V q ). (4) Calculons l’image et le noyau de l’application naturelle de U (K + ) dans U (K)/U (K)q . Comme nous l’avons rappelé ci-dessus, tout u ∈ U (K) peut s’écrire u = ζε, où ε ∈ U (K + ) et ζ une racine 2p-ième de l’unité, donc une puissance q-ième. La classe de u dans U (K)/U (K)q est donc égale à la classe de ε, ce qui montre que l’application est surjective. Soit maintenant ε ∈ U (K + ) dans le noyau, en d’autres termes tel que ε = uq pour un u ∈ U (K). On a donc ε = ι(u)q = uq , donc ι(u) = u (il n’y a pas de racines q-ièmes de l’unité non triviales dans K), d’où u ∈ U (K + ), et donc le noyau est égal à U (K + )q . Il résulte de ceci que

U (K)/U (K)q ' U (K + )/U (K + )q ' V /V q , et donc que E/E q ' V /V q × Z/qZ. Noter que tous les isomorphismes ci-dessus sont canoniques, et en particulier sont des isomorphismes de Fq [G+ ]-modules. Il résulte donc de (3) que AnnFq [G+ ] (E/E q ) ⊂ AnnFq [G+ ] (V /V q ) ⊂ sFq [G+ ]. Remarquons maintenant que pour tout σ ∈ G+ on a sσ = s. Il en résulte que sFq [G+ ] = Fq s. Ainsi, soit as ∈ AnnFq [G+ ] (E/E q ) avec a ∈ Z. Puisque π = 1 − ζp ∈ E on a π as ∈ E q , donc vp (π as ) ≡ 0 (mod q) par définition de E. D’autre part, pour tout σ ∈ G on a

72

H. COHEN

π σ = uσ π pour une certaine unité uσ , et donc π s = uπ (p−1)/2 pour une unité u. Il en résulte que vp (pas ) = a(p−1)/2. Comme q - (p−1)/2 on doit donc avoir q | a, donc a = 0, ce qui démontre (4). (5) D’après la proposition 8.6 (3) appliquée à l’anneau semi-simple R = Fq [G+ ] et à M = E/E q il existe α ∈ M tel que AnnR (α) = AnnR (M ), et donc AnnR (α) = 0 d’après (4). Ceci signifie que l’application x 7→ x · α de R dans M est un homomorphisme injectif de Rmodules. Or d’après (1) on a |M | = |E/E q | = q (p−1)/2 = |Fq [G+ ]| = |R|. Il en résulte que cet homomorphisme est une bijection, et donc que R et M sont des R-modules isomorphes. Définition 8.9 (1) Pour simplifier les notations on posera Rp = Z[ζp , 1/p], d’où E = Rp∗ . (2) Rappelons que l’on écrit [α] pour la classe de α dans S modulo les puissances q-ièmes. On définit le groupe des éléments q-primaires de S comme suit : Sq = {[α] ∈ S, α ≡ β q (mod q 2 Rp ), β inversible modulo q 2 Rp }, et Eq = {u ∈ E, [u] ∈ Sq }. Lemme 8.10. — On a Eq = {u ∈ E, u ≡ β q (mod q 2 Rp )}. Démonstration. — Si u appartient au membre de droite alors u ∈ E, u ≡ β q (mod q 2 Rp ), donc β q modulo q 2 est égal à u. Comme les éléments de E sont inversibles dans Rp (ce sont d’ailleurs exactement ceux qui le sont), il en résulte que β q modulo q 2 est inversible, et donc β aussi, ce qui montre que u ∈ Eq . Réciproquement soit u ∈ Eq , donc tel que u ∈ E et [u] ∈ Sq . Par définition de Sq il existe α ∈ K ∗ et β, γ ∈ Rp tels que uαq = β q + q 2 γ, et β inversible modulo q 2 Rp . Soit q un idéal premier de ZK différent de p = πZK . On a donc vq (u) = 0, et puisque β et γ sont dans Rp et q 6= p on a vq (β) > 0 et vq (γ) > 0. Il en résulte que vq (α) > 0 pour tous les idéaux premiers q q 6= p, en d’autres termes que α ∈ Rp . Or modulo q 2 Rp on a uαq = β . Puisque β est inversible il en résulte que α est aussi inversible et u = (βα−1 )q . Donc si β0 ∈ Rp est un représentant de βα−1 on a


73

q

u = β0 , en d’autres termes u = β0q + q 2 γ0 pour un γ0 ∈ Rp , ce qui démontre l’inclusion réciproque et donc le lemme. 8.3. Unités cyclotomiques et le théorème de Thaine Définition 8.11. — Le groupe C des unités p-cyclotomiques de K est le sous-groupe multiplicatif de K ∗ engendré par les racines de l’unité et les 1 − ζpk pour k ∈ Z. On pose Cq = C ∩ Eq et on appelle les éléments de Cq les unités p-cyclotomiques q-primaires. Lemme 8.12. — Si p et q sont des nombres premiers impairs distincts, l’égalité C = Cq implique que p < q. Démonstration. — Soit ζ une racine primitive p-ième de l’unité quelconque, pas nécessairement égale à ζp . Puisque 1 + ζ q = (1 − ζ 2q )/(1 − ζ q ) ∈ C on a 1 + ζ q ∈ Cq . De plus j’affirme que Rp /q 2 Rp ' Z[ζp ]/q 2 Z[ζp ] : en effet, soit φ l’application qui envoie x ∈ Z[ζp ] sur sa classe dans Rp /q 2 Rp . Son noyau est égal à q 2 Rp ∩ Z[ζp ] = q 2 Z[ζp ], donc il suffit de montrer que φ est surjective. Soit donc y/pn ∈ Rp = Z[ζp , 1/p] avec y ∈ Z[ζp ]. Puisque pn et q 2 sont premiers entre eux, il existe u et v dans Z tels que upn + vq 2 = 1. Il en résulte que y/pn = uy + vyq 2 /pn , donc que la classe de y/pn dans Rp /q 2 Rp est égale à celle de uy ∈ Z[ζp ], et donc elle est dans l’image de φ, ce qui démontre mon assertion. Puisque 1 + ζ q ∈ Cq ⊂ Eq on peut écrire 1 + ζ q = β q + q 2 γ avec β et γ dans Rp et donc, grâce à l’isomorphisme ci-dessus, en changeant si nécessaire β et γ par un élément de q 2 Rp , on peut supposer que β et γ appartiennent à Z[ζp ]. Il en résulte que 1 + ζ q ≡ β q (mod q 2 Z[ζp ]). D’après la formule du binôme on a donc (1 + ζ)q ≡ 1 + ζ q ≡ β q (mod qZ[ζp ]). Puisque q est non ramifié dans K, il résulte du corollaire 5.3 que (1 + ζ)q ≡ β q (mod q 2 Z[ζp ]). Ainsi (1 + ζ)q ≡ 1 + ζ q (mod q 2 Z[ζp ]), et donc F (ζ) ∈ qZ[ζp ], où F (X) = ((1 + X)q − 1 − X q )/(qX), qui est évidemment un polynôme de degré q − 2 à coefficients entiers. Notons F ∈ Fq [X] la réduction de F modulo q. Si q est un idéal premier au-dessus de q, dans le corps fini ZK /q = Z[ζp ]/q on a F (ζ) = 0, où ζ est l’image de ζ dans ZK /q. Puisque ceci est vrai pour les p − 1 racines primitives p-ièmes de l’unité ζ et que ces racines ne sont pas congrues modulo q puisque la norme de leur différence est égal à p, il en résulte que F a

74

H. COHEN

au moins p − 1 racines distinctes dans ZK /q. Puisque deg(F ) = q − 2 on doit donc avoir p − 1 6 q − 2, donc p < q. Nous énonçons maintenant sans démonstration le théorème remarquable et très important de F. Thaine (voir [3] ou la deuxième édition de [4] pour la démonstration). Nous ne donnons que le cas particulier dont nous aurons besoin. Théorème 8.13 (Thaine). — Rappelons que C est le groupe des punités cyclotomiques de K. On a AnnFq [G+ ] (E/CE q ) ⊂ Cl(K + )[q]. Le théorème principal de cette partie que nous utiliserons pour démontrer le quatrième et dernier théorème de Mihăilescu est le suivant. Théorème 8.14. — Soient p et q des nombres premiers impairs tels que p > q et p 6≡ 1 (mod q). On a alors AnnFq [G+ ] (S + ∩ Sq ) 6= 0. Démonstration. — Posons R = Fq [G+ ], qui est semi-simple d’après le lemme 8.5. D’après le lemme 8.8 (5), E/E q est un R-module cyclique R, donc d’après la proposition 8.6 (5) et (4) tout sous-module M de E/E q est aussi cyclique, donc isomorphe à R/ AnnR (M ). Puisque R ' Fq [X]/((X (p−1)/2 − 1)Fq [X]), tout idéal de R est isomorphe à f (X)Fq [X]/((X (p−1)/2 − 1)Fq [X]) pour un f (X) ∈ Fq [X] divisant X (p−1)/2 − 1, que l’on peut supposer unitaire, et donc en particulier M ' R/ AnnR (M ) ' Fq [X]/(f (X)Fq [X]). En particulier on a dimFq (M ) = deg(f ). Rappelons maintenant que d’après le lemme 6.9 (3) on a une suite exacte de R-modules 0 → E/E q → S + → Cl(K)[q]+ → 0. Par définition on a Eq = {u ∈ E, [u] ∈ Sq }, donc par restriction cette suite exacte donne la suite exacte 0 → Eq /E q → S + ∩ Sq → Cl(K)[q]+ , où le dernier homomorphisme n’est pas nécessairement surjectif. Puisque R est semi-simple, d’après la proposition 8.6 (2) toute suite exacte est scindée, donc en particulier S + ∩ Sq est isomorphe à un sousmodule de Eq /E q ⊕ Cl(K)[q]+ , ce que nous noterons S + ∩ Sq ,→ Eq /E q ⊕ Cl(K)[q]+ . Rappelons aussi que C est le groupe des p-unités cyclotomiques et que Cq = C ∩ Eq . Considérons la suite d’inclusions 0 ⊂ Cq E q /E q ⊂


75

CE q /E q ⊂ E/E q , et appelons E1 , E2 et E3 les quotients successifs, c’est à dire E1 = Cq E q /E q , E2 = CE q /Cq E q et E3 = E/CE q . Puisque R est semi-simple, d’après la proposition 8.6 (1) et (2) tout R-module est semi-simple et toute suite exacte est scindée. En particulier si 0 ⊂ A ⊂ B ⊂ C est une suite d’inclusions on a C ' B ⊕ (C/B)⊕ ' A ⊕ (B/A) ⊕ (C/B). Comme d’après le lemme 8.8 E/E q est un R-module libre de dimension 1 on a donc un isomorphisme E1 ⊕ E2 ⊕ E3 ' R ' Fq [X]/((X (p−1)/2 − 1)Fq [X]). Il en résulte que les Ei sont isomorphes à des sous-modules de R, qui comme ci-dessus sont isomorphes à Fq [X]/(ei (X)Fq [X]) pour des facteurs unitaires ei (X) de X (p−1)/2 − 1 tels que dimFq (Ei ) = deg(ei ). D’après l’isomorphisme ci-dessus on a e1 e2 e3 = X (p−1)/2 − 1. Par définition de S on a E q ⊂ Eq et donc Cq E q ⊂ Eq . Nous avons donc une suite exacte 1 −→ Cq E q /E q −→ Eq /E q −→ Eq /Cq E q −→ 1. Puisque les suites exactes sont scindées il en résulte que Eq /E q ' E1 ⊕ Eq /Cq E q . D’autre part il est clair que le noyau de l’application naturelle de Eq dans E/CE q est égal à Eq ∩ Cq E q : une inclusion est triviale. Réciproquement, si x ∈ Eq est de la forme x = ceq avec c ∈ C et e ∈ E alors, puisque eq ∈ Eq , on a c ∈ Eq ∩ C = Cq , et donc x ∈ Cq E q . Il en résulte que Eq /Cq E q est isomorphe à un sous-groupe de E3 = E/CE q . Rassemblant tous les résultats ci-dessus on obtient S + ∩ Sq ,−→ Eq /E q ⊕ Cl(K)[q]+ ' E1 ⊕ Eq /Cq E q ⊕ Cl(K)[q]+ ,−→ E1 ⊕ E3 ⊕ Cl(K)[q]+ . C’est maintenant que nous appliquons le théorème de Thaine. D’après ce théorème, tout annulateur de E3 = E/CE q est aussi un annulateur de Cl(K + )[q], qui est égal à Cl(K)[q]+ d’après le lemme 8.7. Puisque par définition ei annule Ei , il en résulte que e1 e3 annule E1 ⊕ E3 , et le théorème de Thaine implique que e3 annule Cl(K)[q]+ , et donc que e1 e3 annule S + ∩ Sq . Supposons donc maintenant par l’absurde que AnnR (S + ∩ Sq ) = 0. On a donc e1 e3 = 0 dans Fq [X]/((X (p−1)/2 − 1)Fq [X]), en d’autres termes X (p−1)/2 − 1 = e1 e2 e3 | e1 e3 , donc e2 = 1, et donc E2 = 0. Par

76

H. COHEN

définition ceci signifie que Cq E q = CE q . Comme E q ⊂ Eq on a donc Cq ∩ E q = C ∩ E q . J’affirme que C = Cq : en effet, soit c ∈ C. Puisque c = c · 1 ∈ CE q = Cq E q nous pouvons écrire c = cq eq avec cq ∈ Cq et e ∈ E. Ainsi eq = c/cq ∈ C ∩ E q = Cq ∩ E q ⊂ Cq , donc c = cq eq ∈ Cq , ce qui démontre mon assertion. Appliquant maintenant le lemme 8.12 on en déduit que p < q, en contradiction avec les hypothèses de la proposition. 8.4. Préliminaires sur les séries entières. — Nous touchons presque au but, en tous cas nous avons surmonté les étapes les plus difficiles. Pour aborder la démonstration du dernier théorème, nous avons besoin de résultats de nature un peu particulière sur les séries formelles et les séries entières, à nouveau indépendants de Catalan. Rappelons que si R est un anneau commutatif on désigne par R[[T ]] l’anneau des séries formelles en une variable à coefficients dans R. Lemme 8.15. — Soit R un anneau commutatif de caractéristique 0, P P k k et g(T ) = soient f (T ) = k>0 (bk /k!)T , et soit k>0 (ak /k!)T q ∈ R. Supposons qu’il existe a et b dans R tels que ak ≡ ak (mod qR) P et bk ≡ bk (mod qR). On a alors f g(T ) = k>0 (ck /k!)T k avec ck ≡ (a + b)k (mod qR). Démonstration. — Évident et laissé au lecteur. Comme toujours, dans la suite on suppose que p et q sont des nombres premiers impairs distincts. Définition 8.16 P k (1) Si F (T ) = k>0 ak T ∈ K[[T ]] est une série formelle en T à coefficients dans K, pour tout σ ∈ G nous poserons F σ (T ) = P k k>0 σ(ak )T . P k (2) Si F (T ) = k>0 ak T ∈ K[[T ]] est une série formelle, pour tout entier k > 0 on appelle Fk (T ) la somme des termes de degré au P plus égaux à k, en d’autres termes Fk (T ) = 06j6k aj T j . P (3) Soit θ = σ∈G nσ σ ∈ Z[G]. On définit Fθ (T ) ∈ K[[T ]] comme la série formelle définie par le produit suivant Y Fθ (T ) = (1 − σ(ζp )T )nσ /q , σ∈G


77

où la puissance est calculée en utilisant le développement du binôme généralisé. Notons que, puisque |σ(ζp )| = 1, si z ∈ C est tel que |z| < 1, la série entière obtenue en remplaçant T par z dans Fθ (T ) converge absolument, et sa somme sera évidemment notée Fθ (z). P k ∈ C[[T ]] et G(T ) = Définition 8.17. — Soit F (T ) = k>0 ak T P k k>0 bk T ∈ R[[T ]]. Nous dirons que G domine F si pour tout k on a |ak | 6 bk . Proposition 8.18. — Pour simplifier, écrivons F à la place de Fθ . (1) Les coefficients de F (T ) sont entiers en dehors de q, en d’autres termes sont de la forme a/q k pour un a ∈ ZK et k ∈ Z>0 . P (2) Plus précisément, si θ = σ∈G nσ σ, alors on a F (T ) = P k k k>0 (ak /(q k!))T , où ak ∈ ZK vérifie X k ak ≡ − nσ σ(ζp ) (mod qZK ). σ∈G

(3) Si τ ∈ G et |t| < 1 la série F τ (t) converge. Si de plus 0 6 nσ 6 P q pour tout σ ∈ G, alors si on pose m = ( σ∈G nσ )/q on a m+k |t|k+1 |F τ (t) − Fkτ (t)| 6 . k + 1 (1 − |t|)m+k+1 Démonstration. — On a nσ /q

(1 − σ(ζp )T )

=

X nσ /q k>0

k

(−σ(ζp ))k T k ,

donc (1) résulte du lemme 3.6. Plus précisément on a n/q n(n − q) · · · (n − q(k − 1)) = , k q k k! P P k donc (1 − qσ(ζp )T )n/q = k>0 bk /k! où bk ≡ k>0 (−nσ(ζp )) (mod qZK ). Il résulte donc du lemme 8.15 que Y X F (qT ) = (1 − σ(ζp )T )nσ /q = (ak /k!)T k , σ∈G

où ak ≡

X

k>0

k (−nσ σ(ζp )) (mod qZK ),

σ∈G

78

H. COHEN

ce qui démontre (2). Pour (3) on remarque que pour 0 6 n 6 q on a n/q n(n − q) · · · (n − q(k − 1)) = k k! n(q − n)(2q − n) · · · (q(k − 1) − n) k! n(n + q) · · · (n + q(k − 1)) −n/q 6 = . k! k =

Il en résulte que la série (1 − σ(ζp )T )n/q est dominée par la séQ rie (1 − T )−n/q , donc F (T ) est dominée par σ∈G (1 − T )−nσ /q = (1 − T )−m , et il en va de même pour F τ (T ). Il en résulte que pour |t| < 1 on a X −m τ τ −m j |F (t)−Fk (t)| 6 (1−|t|) − (−|t|) = |S(|t|)−Sk (|t|)|, j 06j6k

disons, où on a posé S(T ) = (1 − T )−m . D’après le théorème de Taylor–Lagrange il existe c ∈ [0, |t|] tel que S(|t|) − Sk (|t|) = (|t|k+1 /(k + 1)!)S (k+1) (c). Puisque toutes les dérivées de S sont évidemment positives sur [0, 1[, elles sont croissantes, et donc S (k+1) (c) 6 S (k+1) (|t|) = m(m + 1) · · · (m + k)(1 − |t|)−m−k−1 = (m + k)!/((m − 1)!(1 − |t|)m+k+1 ), ce qui démontre (3). Proposition 8.19. — Gardons les mêmes notations et les mêmes hypothèses, mais supposons de plus que θ ∈ (1 + ι)Z[G]. Alors (1) Fθ = F ∈ K + [[T ]]. (2) Supposons que t ∈ Q vérifie |t| < 1 et soit tel qu’il existe α ∈ K tel que (1 − tζp )θ = αq . Alors α ∈ K + , et pour tout σ ∈ G on a F σ (t) = σ(α). P Démonstration. — Puisque θ = σ∈G nσ σ ∈ (1 + ι)Z[G] on a ιθ = θ donc nισ = nσ pour tout σ ∈ G. Si on choisit un ensemble P de représentants de G modulo hιi on peut donc écrire F = F1 F1 , où F1 est le même produit que F mais seulement pour les σ ∈ P . Il en résulte que les coefficients de F sont réels, donc dans K + , ce qui montre (1). Pour (2) le même raisonnement montre que (1−tζp )θ ∈ R. Il en résulte que αq = αq = β = β = αq , et donc que α = α puisque les racines q-ièmes sont uniques dans K. Il en résulte bien que α ∈ K + . Puisque


79

G est abélien il en résulte aussi que σ(α) ∈ K + pour tout σ ∈ G. De plus σ(α)q = (1 − tσ(ζp ))θ = F σ (t)q . Toutefois nous avons vu que F σ (t) ∈ R, donc F σ (t)/σ(α) est une racine q-ième de l’unité réelle dans C. Puisque q est impair elle doit être égale à 1, ce qui démontre la proposition. Remarque. — Bien qu’assez simple, ce dernier raisonnement est l’un des plus subtils de la démonstration, et a été initialement oublié, rendant la démonstration initiale incomplète. 8.5. Démonstration du quatrième théorème de Mihăilescu Nous avons étudié ci-dessus des propriétés des unités cyclotomiques, de la partie plus des corps cyclotomiques et des séries entières, sans référence explicite à la conjecture de Catalan, en dehors de l’omniprésence des nombres premiers impairs distincts p et q. Nous commençons maintenant la démonstration proprement dite. Nous conservons bien sûr toutes les notations ci-dessus, et en particulier nous rappelons que R = Fq [G+ ]. Théorème 8.20. — Soient p et q deux nombres premiers impairs distincts tels que min(p, q) > 11, et soient x et y deux entiers non nuls tels que xp − y q = 1. Le sous-module de S + engendré par la classe [x − ζp ]1+ι est libre, en d’autres termes AnnR ([x − ζp ]1+ι ) = 0. Démonstration. — Rappelons que puisque [x − ζp ] ∈ S on a effectiveP ment [x−ζp ]1+ι ∈ S + . Donc, soit ψ = σ∈G+ νσ σ ∈ AnnR ([x−ζp ]1+ι ) avec νσ ∈ Fq , donc tel que [x − ζp ](1+ι)ψ = 1. Comme ci-dessus, soit P un système de représentants dans G de G+ = G/hιi, et par abus de notation, si σ ∈ G+ nous écrirons encore σ pour l’élément P de P dont la classe est égale à σ. Si on pose ψ = σ∈P νσ σ on a donc [x − ζp ](1+ι)ψ = 1. Par définition de S il en résulte que pour tout θ ∈ Z[G] dont la réduction modulo q est égale à ±(1 + ι)ψ on a (x − ζp )θ ∈ K ∗ q . Si pour σ ∈ P on pose νισ = νσ , nous avons P P (1 + ι)ψ = σ∈G νσ σ ∈ Fq [G]. Soit θ1 = σ∈G nσ σ ∈ Z[G] le relèvement de (1+ι)ψ tel que 0 6 nσ < q, et donc tel que kθ1 k < (p−1)q. Si pour tout entier n tel que 0 6 n < q on pose c(n) = q − n pour n 6= 0 et c(0) = 0, on a encore 0 6 c(n) < q, et évidemment n + c(n) 6 q. P Il en résulte que θ2 = σ∈G c(nσ )σ est un relèvement de −(1 + ι)ψ, que 0 6 c(nσ ) < q, et donc que kθ2 k + kθ1 k 6 q(p − 1). Il en résulte

80

H. COHEN

que pour i = 1 ou pour i = 2 on doit avoir kθi k 6 q(p − 1)/2, et nous appellerons θ celui des deux θi (ou l’un des deux) qui satisfait à cette inégalité. Soit α ∈ K ∗ tel que (x − ζp )θ = αq . D’après le lemme 3.8 nous savons que β = (x − ζp )/(1 − ζp ) ∈ ZK , que vp (β) = 0, et que les idéaux engendrés par les conjugués de β sont premiers entre eux deux à deux. Il en résulte que pour tout σ ∈ G on a vp (x − σ(ζp )) = 1. Ainsi Y X nσ kθk = nσ vp (x − σ(ζp )) = vp (x − σ(ζp )) σ∈G

σ∈G θ

= vp (x − ζp )

= qvp (α) ≡ 0 (mod q).

Puisque 0 6 kθk 6 q(p−1)/2 il en résulte qu’il existe m ∈ [0, (p−1)/2] tel que kθk = mq. De plus, puisque nσ et nισ modulo q sont tous deux égaux à νσ et qu’ils sont dans l’intervalle [0, q − 1] ils sont en P fait égaux. Il en résulte que θ = (1 + ι)φ, où φ = σ∈P nσ σ est un relèvement de ψ. En particulier, pour tout σ ∈ G, (x − σ(ζp ))θ = ((x − σ(ζp ))(z − ι(σ(ζp ))))φ est un nombre réel. Comme les racines q-ièmes sont uniques dans K, quand elles existent, il en résulte que tous les conjugués de α sont réels. Puisque pour x ∈ Q on a xθ = xkθk , on voit que pour tout σ ∈ G on a (1 − σ(ζp )/x)θ = (σ(α)/xm )q . Comme 1/x ∈ Q et que |1/x| < 1 nous pouvons appliquer la proposition 8.19 et en déduire que pour tout σ ∈ G on a σ(α) = xm F σ (1/x), où F = Fθ . Posons σ Iσ = q m+vq (m!) |σ(α) − xm Fm (1/x)|.

Nous allons maintenant utiliser un argument voisin de celui utilisé dans la preuve du théorème de Cassels, et montrer que |Iσ | < 1 et Q que σ∈G Iσ ∈ Z. Tout d’abord, d’après la proposition 8.18 (3) on a σ Iσ = q m+vq (m!) |x|m |F σ (1/x) − Fm (1/x)| 2m 6 q m+vq (m!) |x|−1 (1 − 1/|x|)−(2m+1) m+1

6 q m+m/(q−1)+m(log(4)/ log(q)) |x|−1 (1 − 1/|x|)−(2m+1) , 2m . où nous avons utilisé le fait que vq (m!) 6 m/(q−1) et que 2m k 62 Puisque m 6 (p − 1)/2 et que d’après le théorème de Hyrrö on a


81

|x| > q p−1 , il en résulte que Iσ 6 q ((p−1)/2)(1+1/(q−1)+log(4)/ log(q)) |x|−1 (1 − 1/|x|)−p 6 q ((p−1)/2)(−1+1/(q−1)+log(4)/ log(q)) (1 − 1/q p−1 )−p . Or Iσ < 1 équivaut à log(Iσ )/ log(q) < 0, et on a log(Iσ ) 1 p p−1 log(4) −1 + − = + log(1 − 1/q p−1 ). log(q) 2 q − 1 log(q) log(q) D’après le théorème des accroissements finis il existe c ∈ [0, 1] tel que − log(1 − 1/q p−1 ) = log(q p−1 ) − log(q p−1 − 1) 1 1 1 = p−1 6 p−1 6 2 , q −c q −1 q −1 puisque p > 3. Puisque nous avons supposé que q > 7 on en déduit immédiatement que p−1 1 log(4) p log(Iσ ) 6 −1 + + + 6 −0.0497p + 0.061, log(q) 2 6 log(7) 48 log(7) ce qui est strictement négatif dès que p > 2, ce qui montre qu’on a bien Iσ < 1. Étudions maintenant les propriétés arithmétiques de Iσ . D’après P σ (T ) = k k avec la proposition 8.18 on a Fm 06k6m ak /(q k!)T ak ∈ ZK . Il en résulte que q m+vq (m!) ak /(q k k!) ∈ ZK , et donc σ (1/x) ∈ Z que q m+vq (m!) xm Fm K (notons qu’il n’y a ici aucun problème de convergence puisque nous ne considérons que des polynômes). De plus puisque (x − ζp )θ = αq et que tous les coefficients de θ sont positifs ou nuls αq est un entier algébrique, et il en va donc de même de α, donc α ∈ ZK = Z[ζp ]. Il en résulte que γ = q m+vq (m!) (α − xm Fm (1/x)) ∈ ZK , donc que NK/Q (γ) ∈ Z. Or Q | NK/Q (γ)| = σ∈G Iσ < 1 d’après ce que nous avons démontré ci-dessus. Il en résulte que NK/Q (γ) = 0, et donc que γ = 0, en d’autres termes que X ak q m+vq (m!) α = q m+vq (m!) k xm−k . q k! 06k6m

Nous sommes maintenant proches de la conclusion voulue : tous les termes de la somme ci-dessus sont divisibles par q sauf le terme avec k = m. On a donc 0 ≡ (q vq (m!) /m!)am (mod qZK ), donc am ≡ 0 (mod qZK ). D’autre part d’après la proposition 8.18 on a am ≡ sm

82

H. COHEN

P (mod qZK ), où s = − σ∈G nσ σ(ζp ). Ainsi sm ≡ 0 (mod qZK ), et donc pour tout idéal premier q de K au-dessus de q on a sm ∈ q, donc s ∈ q, et puisque q est non ramifié, d’après le théorème chinois on en déduit que s ≡ 0 (mod qZK ), en d’autres termes que P σ∈G (nσ /q)σ(ζp ) ∈ ZK . Puisque les σ(ζp ) sont à permutation près les ζpj pour 1 6 j 6 p − 1 qui forment une Z-base de ZK il en résulte que nσ /q ∈ Z pour tout σ, et puisque 0 6 nσ < q on en déduit que nσ = 0 pour tout σ. Donc θ = 0, et donc ψ = 0 et donc ψ = 0, ce qui démontre le théorème. Le quatrième théorème de Mihăilescu est maintenant évident : Théorème 8.21. — Soient p et q deux nombres premiers impairs distincts tels que min(p, q) > 11, et soient x et y des entiers non nuls tels que xp − y q = 1. Alors p ≡ 1 (mod q) ou bien q ≡ 1 (mod p). Démonstration. — D’après le théorème 8.20 ci-dessus, on a AnnR ([x − ζp ]1+ι ) = 0. D’après le premier théorème de Mihăilescu (théorème 5.4), nous savons que q 2 | x, et comme d’habitude (−ζp ) est une puissance q-ième. Il en résulte que x − ζp ≡ β q (mod q 2 Rp ), donc que [x − ζp ] ∈ Sq , donc que [x − ζp ]1+ι ∈ Sq ∩ S + . Par symétrie, supposons par exemple que p > q, ce qui implique évidemment que q 6≡ 1 (mod p). Si nous supposons par l’absurde que p 6≡ 1 (mod q) le théorème 8.14 nous dit que AnnFq [G+ ] (S + ∩ Sq ) 6= 0, et donc en particulier AnnR ([x − ζp ]1+ι ) 6= 0, contradiction. 8.6. Conclusion : Démonstration de la conjecture de Catalan. — Nous allons maintenant résumer tout le travail que nous avons fait et voir que nous avons en fait démontré la conjecture. Soient x et y deux entiers non nuls et m et n > 2 tels que xm − y n = 1. D’après le résultat de V. Lebesgue nous savons que le cas n = 2 est impossible, et donc a fortiori le cas n pair. De même le résultat de Ko Chao nous dit que le cas m pair est impossible, en dehors de l’égalité 32 − 23 = 1. On peut donc supposer que m et n sont impairs, et il suffit de démontrer l’impossibilité de l’équation quand m = p et n = q sont des nombres premiers impairs. En particulier l’équation devient symétrique puisque nous pouvons changer (p, q, x, y) en (q, p, −y, −x).


83

D’après le deuxième théorème de Mihăilescu (plus précisément d’après son corollaire 6.13) nous pouvons supposer que min(p, q) > 11 (en fait 43, mais 11 nous suffit). D’après le quatrième théorème de Mihăilescu (théorème 8.21), en échangeant p et q si nécessaire grâce à la symétrie, nous pouvons supposer que p ≡ 1 (mod q). D’après la formule du binôme on a X q q q p = (1 + (p − 1)) = 1 + q(p − 1) + (p − 1)i + (p − 1)q i 26i6q−1

2

≡ 1 (mod q ). D’autre part d’après le premier théorème de Mihăilescu (théorème 5.4) nous savons que pq−1 ≡ 1 (mod q 2 ), et donc pq ≡ p (mod q 2 ), ce qui combiné avec la congruence ci-dessus montre que p ≡ 1 (mod q 2 ). Enfin d’après le troisième théorème de Mihăilescu (théorème 7.7) nous savons que p < 4q 2 . Il en résulte que p = 1 + kq 2 avec k = 1, 2 ou 3. Les cas k = 1 et k = 3 sont exclus puisque sinon p serait pair, et le cas k = 2 est également exclu puisque q 2 ≡ 1 (mod 3) donc que p serait divisible par 3, ce qui termine la démonstration de la conjecture de Catalan ! ! !. Références [1] Y. Bilu – « Catalan’s conjecture (after Mihailescu) », in Séminaire Bourbaki 2002/2003, Astérisque, vol. 294, Société Mathématique de France, 2004, Exp. no 909, p. 1–25. [2] W. Keller & J. Richstein – « Solutions de the congruence ap−1 ≡ 1 (mod pr ) », Math. Comp. 74 (2005), p. 927–936. [3] M. Mischler – « La conjecture de Catalan racontée à un ami qui a le temps », preprint disponible à l’adresse http://arxiv.org/pdf/math. NT/0502350, 2005. [4] L. Washington – Introduction to cyclotomic fields, 2e éd., Graduate Texts in Math., vol. 83, Springer-Verlag, 1997.

H. Cohen, Laboratoire A2X, U.M.R. 5465 du C.N.R.S., Université Bordeaux I, 351 Cours de la Libération, 33405 Talence Cedex (France) E-mail : [email protected]

L’ALGORITHMIQUE DE LA THÉORIE ALGÉBRIQUE DES NOMBRES par Karim Belabas

Table des matières Partie I. Théorie algébrique des nombres . . . . . 88 1. Préliminaires. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 2. Corps de nombres. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 3. Anneau des entiers. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 4. Idéaux. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 5. Géométrie des nombres. . . . . . . . . . . . . . . . . . . . . . . . . . . 103 6. Groupe des classes, unités. . . . . . . . . . . . . . . . . . . . . . . . 107 7. Théorie analytique des nombres. . . . . . . . . . . . . . . . . . 110 8. Cahier des charges. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 Partie II. Algorithmique. . . . . . . . . . . . . . . . . . . . . . . . . 116 9. Introduction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 10. Préliminaires. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 11. Factorisation dans C[X]. . . . . . . . . . . . . . . . . . . . . . . . . 126 12. Factorisation dans Qp [X]. . . . . . . . . . . . . . . . . . . . . . . . 133 13. Factorisation dans Q[X]. . . . . . . . . . . . . . . . . . . . . . . . . 136 14. Ordres. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 15. L’ordre maximal OK . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 16. Groupe de classes et unités. . . . . . . . . . . . . . . . . . . . . . 148 Références. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153

86

K. BELABAS

Commençons par une équation difficile... dans un contexte sans difficulté : Théorème 0.1. — Soit n > 2 et x, y, z trois polynômes à coefficients complexes, premiers entre eux. Alors xn + y n = z n implique que les trois polynômes sont des constantes. Démonstration. — Supposons qu’il existe trois polynômes (x, y, z) premiers entre eux satisfaisant xn + y n = z n , tels que le maximum des trois degrés soit D > 0. On les choisit tels que D soit minimal. Posant ζ := exp(2iπ/n), on a (1)

z n = xn + y n = (x + y)(x + ζy)(x + ζ 2 y) · · · (x + ζ n−1 y).

Deux facteurs quelconques du produit n’ont pas de diviseur commun, puisqu’un tel facteur diviserait x et y. Leur produit étant une puissance n-ème, ces facteurs sont de la forme βun , β ∈ C∗ , ce qui s’écrit encore (αu)n . Puisque n − 1 > 2, il existe des polynômes u, v, w premiers entre eux tels que x + y = un ,

x + ζy = v n ,

x + ζ 2 y = wn .

En éliminant x et y de ces équations, on trouve wn + ζun = (1 + ζ)v n . Les constantes entrent de nouveau sous les puissances et on pose x0 = w, y 0 = ζ 1/n u, z 0 = (1 + ζ)1/n v, qui vérifient x0 n + y 0 n = z 0 n . Ces nouveaux polynômes sont toujours premiers entre eux (ζ + 1 = 0 implique n = 2) et de degré maximal D0 satisfaisant 0 < D0 6 D/n < D. Contradiction. Il y a essentiellement deux arguments dans la preuve : – C contient ζ et chaque complexe à une racine n-ème, – C[X] est factoriel (notion de pgcd et écriture comme puissances n-èmes). Le premier est surtout une étape conceptuelle : même si l’on s’intéresse aux solutions dans Z[X], raisonner dans Z[X] est inadapté. On agrandit l’anneau de base pour pouvoir travailler ; mais pas trop, pour ne pas vider le problème de sa substance arithmétique : dans l’anneau de séries formelles C[[X]], tout devient trivial. Le deuxième argument, par contre, est profond. Si l’on essaie de démontrer Fermat sur Q en copiant le premier point, on introduit l’anneau Z[ζ], qui n’est presque jamais factoriel. La théorie algébrique des nombres

L’ALGORITHMIQUE DE LA THÉORIE ALGÉBRIQUE DES NOMBRES

87

s’est créée autour de cette question (et des généralisations de la loi de réciprocité quadratique de Legendre-Gauss), notamment avec l’invention des « nombres idéaux » par Kummer pour restaurer l’unicité de la décomposition en facteurs irréductibles. Bien sûr, cela n’a pas suffi pas à résoudre le problème général de Fermat. Mais la théorie algébrique des nombres classique(1) , essentiellement telle qu’axiomatisée par Dedekind puis Hecke, résout de très nombreuses équations concrètes,... avec le renfort des estimations modernes de transcendance (en particulier les minorations de formes linéaires en logarithmes), et du calcul algorithmique des invariants que nous allons introduire. Les méthodes « modulaires » (utilisant les théorèmes de Ribet et Wiles),... qui permettent de démontrer Fermat, se prêtent également à un traitement algorithmique, pour lequel je renvoie au survol de Siksek [35]. Dans une première partie, j’introduis le langage de la théorie algébrique des nombres, en démontrant tout ce qui peut se faire en quelques lignes. On se contente de résultats classiques, en évitant les notions et les preuves les plus générales. Voir par exemple Lang [25] pour les démonstrations manquantes. Une deuxième partie, algorithmique, rendra tout ceci effectif. Elle est largement inspirée par Lenstra [28] et Cohen [10]. À partir de données explicites, quelles quantités sont effectivement calculables ? Comment et sous quelle forme ? En quel temps ? Je n’ai pas cherché à être exhaustif, ni toujours efficace, ni suffisamment explicite pour permettre une implantation directe (dans ce but, se référer à [17, 10, 6]), mais à présenter un panorama d’idées et d’algorithmes essentiels, sous une forme que j’espère compréhensible.

(1)

Les développements ultérieurs (théorie du corps de classe, théorie d’Iwasawa, structures galoisiennes et cohomologie, K-théorie algébrique...) nous éloigneraient un peu des motivations diophantiennes immédiates et ne seront plus mentionnées.

88

K. BELABAS

PARTIE I THÉORIE ALGÉBRIQUE DES NOMBRES

1. Préliminaires 1.1. Z-modules de type fini. — Un Z-module est un groupe abélien G. Il est de type fini s’il est engendré par un nombre fini d’éléments. Il est libre s’il admet une base, c’est-à-dire une famille généraP trice (ei )i6n libre : si i6n λi ei = 0, λi ∈ Z, alors λ1 = · · · = λn = 0. Contrairement aux espaces vectoriels, les modules n’admettent pas nécessairement de base, par exemple G = Z/2Z. Par contre s’il existe des bases, elles ont bien le même cardinal n, appelé rang de G et noté rg G. Les changements de bases sont les éléments de GLn (Z). Théorème 1.1 (base adaptée). — Si G est un Z-module libre de type fini et H un sous-Z-module, il existe une base (gi ) de G et dn | · · · | d2 | d1 dans N tels que {di gi : di > 0} soit une base de H. Les (di ) ne dépendent pas de la base de G choisie. En particulier : Corollaire 1.2. — Un sous-module H d’un Z-module libre de type fini G est libre de type fini. De plus, rg H 6 rg G. Plus généralement : Corollaire 1.3 (diviseurs élémentaires). — Si G est un Z-module de type fini, il existe g1 , . . . , gn ∈ G tels que n L G= (Z/di Z) · gi , i=1

où dn | · · · | d2 | d1 dans N ne dépendent que de G. Démonstration. — Considérer M , le module libre sur les générateurs de G, et Λ ⊂ M , le noyau de la projection canonique M → G. Dans une base adaptée, interpréter G = M/Λ. On appelle les (di ) les diviseurs élémentaires de G (cf. § 10.4). Le groupe fini Gtor := ⊕i,di >0 (Z/di Z) · gi est la torsion de G, et r := # {i : di = 0} = rg G son rang. Pour p premier, on note rp (G) = dimFp G/pG = # {i : p | di } le p-rang de G.


89

En particulier, tout groupe abélien fini est somme directe de groupes cycliques et un Z-module de type fini est libre si et seulement s’il est sans torsion. Si H ⊂ G sont deux Z-modules, on note [G : H] = #(G/H) 6 +∞ l’indice de H dans G. Corollaire 1.4. — Si φ : Zn → Zn est un morphisme dont l’image est de rang n, [Zn : Im φ] = |det φ| . Démonstration. — On choisit une base (gi ) de Zn telle que (di gi ) soit une base de Im φ (comme φ est de rang n, aucun di n’est nul), donc [Zn : Im φ] = d1 · · · dn . Le morphisme ψ : di gi 7→ φ(gi ) est un changement de base de Im φ, donc de déterminant ±1. Comme φ est la composition de l’application diagonale gi 7→ di gi et de ψ, on obtient |det φ| = d1 · · · dn . 1.2. Réseaux, déterminant, discriminant. — Si (E, q) est un espace euclidien de dimension n, un réseau Λ ⊂ E est un sous-Zmodule libre de rang n. Si (ei )i6n est une base de Λ, le discriminant de Λ est le déterminant de la matrice de Gram Gram(e1 , . . . , en ) = hei , ej i 16i,j6n . Le déterminant d(Λ) = d(Λ, q) de Λ est la racine carrée du discriminant de Λ. Il est égal au volume du parallélotope fondamental o nX xi ei : 0 6 xi < 1 . Proposition 1.5. — Si φ est un endomorphisme de E, de matrice A Gram(φ(e1 ), . . . , φ(en )) = tA · Gram(e1 , . . . , en ) · A. Corollaire 1.6 (1) d(Λ) ne dépend pas de la base (ei ) choisie. (2) Si L ⊂ Λ est un sous-réseau, d(L) = d(Λ)[Λ : L]. (Noter que si L ⊂ Λ est un sous-réseau, l’indice [Λ : L] est fini, puisque L et Λ ont même rang n.) En particulier, si E = Rn , muni de la forme euclidienne standard, et Λ = Im φ, pour φ : Zn → E de rang n, alors d(Λ) = |det φ|.

90

K. BELABAS

Nous arrivons au résultat principal de cette partie, dont le seul tort est d’être non effectif. (L’algorithme LLL (§ 10.5) en donnera une variante effective.) Théorème 1.7 (Minkowski). — Si C ⊂ Rn est convexe, symétrique autour de 0 (−C = C) de volume V (C) 6 +∞, et si Λ est un réseau de déterminant d(Λ) < 2−n V (C), alors C ∩ Λ 6= (0). La preuve est classique, je la reproduis pour manifester son caractère non effectif. Une variante pratique : si C est de plus compact, alors l’égalité large d(Λ) 6 2−n V (C) suffit pour obtenir la conclusion (exercice). Démonstration. — On commence par montrer le théorème de Blichfeldt : si Λ est un réseau, S ⊂ Rn et d(Λ) < V (S), alors il existe s1 , s2 ∈ S, s1 6= s2 , tels que s1 − s2 ∈ Λ. C’est clair : si P est un parallélotope fondamental pour Λ, les Sx := S ∩ (x + P ), x ∈ Λ, forment une partition de S, donc X X V (S) = V (Sx ) = V (Sx − x) > d(Λ) = V (P ). x∈Λ

x∈Λ

Comme les Sx − x sont inclus dans P , ils ne sont pas disjoints. Le théorème est un corollaire immédiat pour S = 21 C, de volume 2−n V (C) > d(Λ). Par définition, 2s1 , 2s2 ∈ C, par symétrie −2s2 ∈ C, et par convexité c := 21 (2s1 − 2s2 ) ∈ C. À titre d’entraînement : Exercice 1.8. — Soit p ≡ 1 (mod 4) un nombre premier, r ∈ Z tel que r2 ≡ −1 (mod p) et Λ ⊂ R2 le réseau engendré par les colonnes de la matrice ( p0 1r ). Montrer que Λ contient un point (a, b) tel que 0 < a2 + b2 < 2p. En déduire que p = a2 + b2 est somme de deux √ carrés. [Solution. C := B(0, 2p), V (C) = 2πp > 22 p = 2n d(Λ).] Exercice 1.9. — Soit p un nombre premier, montrer qu’il existe r, s ∈ Z tels que r2 + s2 ≡ −1 (mod p) [il y a (p + 1)/2 valeurs possibles pour r2 , autant pour −1 − s2 ]. Soit Λ ⊂ R4 le réseau engendré par les


91

colonnes de 

p 0  0 0

0 p 0 0

 r s s −r . 1 0 0 1

Montrer que Λ contient un point (a, b, c, d) tel que 0 < a2 + b2 + c2 + √ 2 d2 < 2p. [d(Λ) = p2 , C = B(0, 2p), V (C) = π2 (2p)2 > 24 d(Λ).] En déduire que p est somme de 4 carrés. [Corollaire : tout entier positif est somme de 4 carrés.]

1.3. Nombres p-adiques. — R est le complété de Q pour la topologie associée à la valeur absolue usuelle. En d’autres termes, on peut réaliser R comme l’anneau des suites de Cauchy de Q, modulo l’idéal des suites de limite nulle. C’est un corps, auquel s’étend la valeur absolue de Q, et il est complet pour la topologie associée. Si p est premier, et vp (x) désigne la valuation p-adique de x, la formule |x|p := p−vp (x) définit de même une valeur absolue sur Q, donc une topologie (cf. § 4.7). Le complété de Q par rapport à cette topologie p-adique se note Qp . La valuation vp et |·|p s’étendent à Qp . On peut voir Qp comme le corps de fractions de Zp = limn>0 Z/pn Z, ←− c’est-à-dire qu’un élément x de Zp est donné par une suite d’approximations (xk )k>1 , xk ∈ Z/pk Z, où xk+1 ≡ xk (mod pk ) pour tout k > 1. En particulier il y a une projection canonique φk : Zp → Z/pk Z, donnée par x 7→ xk , pour tout k > 1. Théorème 1.10 (Lemme de Hensel faible). — Soit F ∈ Zp [X] uniQ taire, F sa réduction dans Fp [X]. On suppose que F = gi=1 F i dans Fp [X], où les F i sont unitaires, deux à deux premiers entre eux. Alors il existe F1 , . . . , Fg ∈ Zp [X] unitaires, tels que la réduction de Q Fi dans Fp [X] soit F i pour tout i 6 g, et tels que F = gi=1 Fi . En d’autres termes une factorisation sans facteurs carrés dans Fp [X] se relève à Zp [X]. Plus généralement, une factorisation suffisamment précise pour qu’il n’y ait plus de facteurs carrés se relève :

92

K. BELABAS

Théorème 1.11 (Lemme de Hensel). — On suppose que F, F1 , . . . , Fg ∈ Zp [X] sont unitaires, et a1 , . . . , ag dans Zp [X] tels que F ≡

g Y

(mod pe Zp [X])

Fi

et

i=1

pd ≡

g X

ai

i=1

Y

Fj

(mod pd+1 Zp [X]),

j6=i

c1 , . . . , F cg ∈ Zp [X] où d > 0, e > 2d. Alors il existe des polynômes F Q g unitaires, Fbi ≡ Fi (mod pe Zp [X]) tels que F = i=1 Fbi . Démonstration. — On construit par récurrence, pour tout k > e, des (k) (k) polynômes F1 , . . . , Fg de Zp [X] tels que F ≡

g Y

(k)

Fi

(mod pk+1 Zp [X]) et

i=1

pd ≡

g X i=1

ai

Y

(k)

Fj

(mod pd+1 Zp [X]).

j6=i

(k) On pose ensuite Fbi := limk→∞ Fi . (La suite est de Cauchy dans Q (k) Zp [X]deg Fi , qui est complet.) Soit donc u := p−k (F − i Fi ), et pour i = 1, . . . , g, soit vi le reste de la division euclidienne de uai (k+1) (k) par Fi . On pose Fi := Fi + pk−d vi .

La congruence impliquant les ai est une identité de type Bezout, qui entraîne que les Fi sont premiers entre eux ; en fait, ils le sont déjà modulo pd+1 . La version faible est le cas d = 0, e = 1. Il est crucial pour nos applications que la preuve soit constructive.

2. Corps de nombres Un corps de nombres K est une extension finie de Q, c’est-à-dire un corps contenant Q, de dimension finie comme Q-espace vectoriel ; cette dimension est √ appelée degré de K. Si α est un nombre algébrique, par exemple α = 2 ou α = exp(2iπ/m) (m > 0 entier), la Q-algèbre Q(α) est un corps de nombres, respectivement de degré 2 et φ(m). Réciproquement, le théorème de l’élément primitif dit que si K est un corps de nombres, il existe α ∈ K tel que K = Q(α). Si K


93

est de degré n et T ∈ Q[X] est le polynôme minimal de α sur Q, alors T est de degré n, irréductible dans Q[X], et l’évaluation Q 7→ Q(α) induit un isomorphisme de Q[X]/(T ) sur K. Rappelons que le polynôme minimal Pmin,x de x ∈ K est le générateur unitaire de l’idéal {Q ∈ Q[X], Q(x) = 0}. On conserve ces notations dans la suite du texte.

Q 2.1. Plongements, signature. — Factorisons T = ni=1 (X − αi ) sur C ; les αi sont les conjugués de α. Soit r1 le nombre de racines réelles de T , 2r2 le nombre de racines non réelles. On ordonne les αi de façon à ce que α1 , . . . , αr1 ∈ R, αi+r1 = αi+r1 +r2 pour 1 6 i 6 r2 . Chaque αi définit un plongement σi : Q 7→ Q(αi ) du corps abstrait K = Q[X]/(T ) dans C. Tout morphisme de corps de K dans C est manifestement de cette forme ; les σi , i 6 r1 sont les plongements réels de K et les σi , r1 < i 6 n ses plongements complexes, (r1 , r2 ) est sa signature. Bien sûr, r1 + 2r2 = n. Chaque σi s’étend à R[X]/(T ) et σ := (σ1 , . . . , σr1 +r2 ) définit un isomorphisme de R-algèbres de R[X]/(T ) dans Rr1 × Cr2 . En d’autres termes la signature (r1 , r2 ) donne la structure de la R-algèbre K ⊗Q R.

2.2. Trace, norme. — Soit x dans K ; la multiplication par x induit un endomorphisme mx : K → K de Q-espace vectoriel. On définit le polynôme caractéristique de x, noté Pchar,x , la trace de x, notée Tr(x), et la norme de x, notée N(x), respectivement comme le polynôme caractéristique, la trace et le déterminant de mx . La trace est un morphisme de Q-espaces vectoriels de K → Q, la norme un morphisme de groupes K ∗ → Q∗ . Plus généralement, ces définitions ont un sens dans n’importe quelle k-algèbre commutative de dimension finie sur un corps k (on les utilisera dans Qp [X]/(T ) au § 15.3). La matrice de mα dans la base (1, α, . . . , αn−1 ) est la matrice compagnon de Pchar,α = T . (En particulier Pchar,α (α) = 0, qui résulte aussi de Cayley-Hamilton.) En se ramenant au cas primitif K = Q(α), on montre plus généralement que

94

K. BELABAS

Théorème 2.1. — On a n Y Pchar,x (X) = (2) (X − σi (x)) = Pmin,x (X)dimQ(x) K , i=1

(3) (4)

Tr(x) = N(x) =

n X i=1 n Y

σi (x), σi (x).

i=1

Ces calculs sont effectués dans C, mais le résultat final appartient au sous-corps Q. Théorème 2.2. — La forme bilinéaire T : (x, y) 7→ Tr(xy) sur K 2 est non dégénérée. Démonstration. — Si x 6= 0, alors Tr(x · 1/x) = Tr(1) = n 6= 0. L’extension de cette forme quadratique à K ⊗Q R ' Rr1 × Cr2 est X X (5) (x1 , . . . , xr1 , a1 + ib1 , . . . , ar2 + ibr2 ) 7−→ x2i + 2 (a2j − b2j ), i6r1

j6r2

de signature (r1 + r2 , r2 ). 2.3. Théorie de Galois. — On va peu en parler, par manque de temps, et l’utiliser comme hypothèse technique dans des théorèmes ultérieurs. L’extension K/Q de degré n est galoisienne si le corps K admet n automorphismes ; autrement dit, si les conjugués αi de α sont tous dans K. (Un automorphisme fixe Q, donc est nécessairement de la forme α 7→ αi ). On notera Gal(K/Q) le groupe des automorphismes de K. Par exemple, un corps quadratique est galoisien, de groupe Z/2Z, ainsi que les corps cyclotomiques Q exp(2iπ/n) , de groupe (Z/nZ)∗ . Remarquons que si K/Q est galoisienne de groupe de Galois G, on peut considérer K comme sous-corps de C et les σi ne sont rien d’autre que les éléments de G. Plus précisément, pour chaque i 6 n, il existe un unique τi ∈ G tel que σi = σ1 ◦ τi . Si T ∈ Q[X], le corps de décomposition KT ⊂ C de T est le plus petit corps contenant toutes les racines complexes de T . C’est une extension galoisienne de Q. Par abus de langage, on appelle groupe de Galois de T le groupe de Galois de KT .


95

3. Anneau des entiers Soit x ∈ K ; x est un entier algébrique (ou simplement un entier s’il n’y a pas risque de confusion) s’il satisfait les conditions équivalentes suivantes : (1) (2) (3) (4) (5)

Pmin,x ∈ Z[X], Pchar,x ∈ Z[X], il existe Q ∈ Z[X], Q unitaire, tel que Q(x) = 0, Z[x] est un Z-module de type fini, il existe M ⊂ K un Z-module de type fini contenant Z[x].

On note OK l’ensemble des entiers de K. On a Z ⊂ OK ; on voit facilement que OQ = Z. Corollaire 3.1. — En particulier, si x ∈ OK , Tr x ∈ Z, N x ∈ Z. Démonstration. — C’est une conséquence de la deuxième caractérisation. Théorème 3.2. — OK est un anneau intègre, de corps de fractions K. Démonstration. — La quatrième caractérisation montre que OK ⊂ K est stable par addition et multiplication : si Z[x], Z[y] sont de type fini, Z[x, y] ⊃ Z[x+y], Z[xy] aussi. Donc OK est un anneau. Étant contenu dans un corps, il est intègre. Si x ∈ K, soit d ∈ Z ⊂ OK le dénominateur commun des coefficients de Pmin,x . Alors dx ∈ OK puisque son polynôme minimal dn Pmin,x (X/d) est dans Z[X]. Donc K = Frac OK . Ceci montre que OK contient une Q-base de K, (e1 , . . . , en ). Soit (f1 , . . . , fn ) la base duale par rapport à la forme bilinéaire non dégénérée du Théorème 2.2. Proposition 3.3. — OK ⊂ hf1 , . . . , fn iZ . P Démonstration. — Si x ∈ OK , x = xi fi , xi ∈ Q. Pour tout i, xei ∈ OK d’après le Théorème 3.2, donc Tr(xei ) = xi ∈ Z (Corollaire 3.1).

Corollaire 3.4. — OK est un Z-module libre de rang n.

96

K. BELABAS

Démonstration. — Le Z-module engendré par les fi est de type fini et sans torsion, donc libre. Donc OK est de type fini, libre de rang 6 n (Proposition 3.3 et Corollaire 1.2). Il contient une Q-base de K, donc est de rang exactement n. Donc il existe une base (w1 , . . . , wn ) tel que tout x ∈ OK s’écrive de P façon unique x = xi wi , xi ∈ Z. Ceci implique en particulier que OK /dOK est de cardinal dn pour tout entier d > 0. Exemple. — Un entier d ∈ Z est dit sans facteurs carrés s’il n’existe pas p premier tel que p2 | d. Soit donc d ∈ Z sans facteurs carrés, T = X 2 −d, α une racine de T et K = Q(α). Si x = 21 (u+vα) ∈ Q(α), u, v ∈ Q, on calcule Pchar,x = X 2 − uX + (u2 + dv 2 )/4. Donc x ∈ OK si et seulement si u ∈ Z, u2 − dv 2 ∈ 4Z ; on en déduit dv 2 ∈ Z, soit v ∈ Z (car d est divisible par le carré du dénominateur de v). Les seuls carrés modulo 4 étant 0 et 1, on en déduit que u, v sont pairs si d ≡ 2, 3 (mod 4) et de même parité si d ≡ 1 (mod 4). Soit ( Z[α] si d ≡ 2, 3 (mod 4), OK = Z[(1 + α)/2] si d ≡ 1 (mod 4).

4. Idéaux 4.1. Produit d’idéaux, idéaux fractionnaires, idéaux inversibles. — Soit R un anneau intègre, de corps de fractions K. Un idéal non nul de R est dit entier. Si a, b sont deux idéaux entiers, on définit leur produit ab comme l’idéal engendré par les produits ab, a ∈ a, b ∈ b. C’est une opération associative dont R est l’élément neutre. On appelle idéal fractionnaire de K un sous R-module a de K tel que da soit entier pour un d ∈ K ∗ . (En particulier un idéal fractionnaire est non nul.) La multiplication des idéaux s’étend aux idéaux fractionnaires : si a, b sont entiers, on pose (a/a)(b/b) = ab/ab. Un idéal fractionnaire a de K est inversible s’il existe un idéal fractionnaire b tel que ab = R ; on note b = a−1 . Un anneau intègre est dit de Dedekind si tout idéal fractionnaire est inversible.


97

4.2. Norme d’idéaux. — On note N a = #(OK /a) 6 +∞ la norme de a ; en particulier, si a = (a) est principal, le Corollaire 1.4 appliqué à φ = ma donne N a = |N(a)|. Proposition 4.1. — Si a ⊂ OK est un idéal non nul, le quotient OK /a est fini. Démonstration. — Si a ∈ a r {0}, la surjection OK /(a) OK /a montre que N a | N(a), qui est un entier non nul. Corollaire 4.2. — Un idéal premier non nul de OK est maximal. Démonstration. — Un anneau intègre fini est un corps. (La multiplication par un élément non nul est un endomorphisme injectif, donc surjectif par finitude.) 4.3. Théorème fondamental de l’arithmétique Théorème 4.3. — Si K est un corps de nombres, OK est un anneau de Dedekind. De plus, on a a−1 = (OK : a) := {x ∈ K : xa ⊂ OK } . La démonstration n’est pas difficile mais assez technique, on va seulement l’esquisser. On voit facilement que a0 := (OK : a) est un idéal fractionnaire et aa0 ⊂ OK , mais l’inclusion réciproque n’a rien d’évident. L’étape cruciale consiste à montrer que le théorème est vrai pour a = p maximal. Dans ce cas on montre d’abord l’existence de a ∈ a0 r OK , qui vient d’un argument de maximalité, utilisant le caractère noethérien de OK et le fait que tout idéal premier non nul est maximal. Comme a0 p est un idéal entier et p est maximal, la double inclusion p ⊂ a0 p ⊂ OK implique a0 p = OK (et on a fini), ou a0 p = p. Mais ce dernier cas est impossible puisque p est un Zmodule de type fini, donc ap ⊂ p impliquerait a ∈ OK . On conclut en montrant que tout idéal entier est produit d’idéaux premiers, avec le même type d’argument noethérien que celui omis ci-dessus. Plus généralement, la démonstration prouve qu’un anneau intègre R est de Dedekind si et seulement s’il est – noethérien (tout R-idéal a un nombre fini de générateurs), – intégralement clos (si x ∈ Frac R est racine d’un polynôme unitaire de R[X] alors x ∈ R), – de dimension de Krull 1 (tout idéal premier non nul est maximal).

98

K. BELABAS

La preuve a un corollaire important, généralisation du théorème fondamental de l’arithmétique sur Z, qui montre que OK ⊂ K est une généralisation appropriée de Z ⊂ Q : Corollaire 4.4. — Si K est un corps de nombres, tout idéal fractionQ naire a se factorise de manière unique sous la forme a = p pep , où p parcourt l’ensemble des idéaux maximaux de a, ep ∈ Z, tous nuls sauf un nombre fini. (On convient que le produit vide est l’élément neutre de la multiplication, OK . En particulier p0 = OK .) Démonstration. — Il suffit de le démontrer pour un idéal entier. Seule l’unicité reste à voir : on choisit un idéal entier a, qui a une décomposition de longueur minimale parmi les idéaux entiers admettant plusieurs décompositions. Soit a = p1 · · · pr = q1 · · · qs , où les pi et les qj sont maximaux et r minimal. Alors q1 · · · qs ⊂ p1 et, p1 étant premier, l’un des qi est contenu dans p1 ; qi étant maximal, ils sont égaux. En multipliant par p−1 1 , on obtient un idéal entier admettant deux décomposition, dont l’une de longueur < r. Contradiction. L’existence d’une décomposition est vraie sous des hypothèses plus faibles. Le point crucial est l’unicité. Q 4.4. Valuation et divisibilité. — Pour a = pep fractionnaire et p maximal, on définit la valuation p-adique de a, vp (a) := ep . Pour x ∈ K ∗ on pose vp (x) := vp (xOK ), et vp (0) = +∞. Noter que vp (x + y) > min(vp (x), vp (x)),

(6)

avec égalité si vp (x) 6= vp (y). Finalement on écrit pour x, y ∈ K, a un idéal fractionnaire : x≡y

(mod a),

si vp (x − y) > vp (a), ∀ p.

Par exemple, 21 ≡ 52 (mod 2Z) dans Q. Grâce au théorème fondamental, on transporte aux idéaux fractionnaires le vocabulaire de la divisibilité dans Z : a | b si vp (a) 6 vp (b), ∀ p ; on pose Y pgcd(a, b) := pmin(vp (a),vp (b)) , p

ppcm(a, b) :=

Y p

pmax(vp (a),vp (b)) ,


99

d’où on tire pgcd(a, b)·ppcm(a, b) = ab. À titre d’exercice, démontrer les deux lemmes suivants : Lemme 4.5. — Si a, b sont des idéaux fractionnaires, a | b ⇔ b ⊂ a. Lemme 4.6. — Si a, b sont des idéaux entiers et a + b le plus petit idéal contenant a et b, alors a + b = pgcd(a, b). On dit que a, b sont premiers entre eux si pgcd(a, b) = OK . Le lemme chinois s’adapte facilement : Lemme 4.7. — Si a, b sont entiers et premiers entre eux, on a un isomorphisme d’anneaux OK /ab ' OK /a × OK /b. Démonstration. — Comme ab ⊂ a∩b l’application OK /ab → OK /a× OK /b est bien définie. Si x ∈ OK est tel que a | (x) et b | (x), alors ab | (x) par coprimalité et unicité de la décomposition en produit d’idéaux maximaux ; ceci assure l’injectivité. Pour la surjectivité, il existe a ∈ a, b ∈ b, tels que a + b = 1 (car a + b = OK ) ; donc si (α, β) ∈ OK /a×OK /b, alors bα+aβ ∈ OK /ab est un antécédent. En particulier, les cardinaux des deux membres sont les mêmes. Plus généralement Proposition 4.8. — Si a, b sont deux idéaux entiers, alors on a N ab = N a · N b. Démonstration. — En itérant le lemme chinois, il reste à montrer que N pk+1 = N p N pk pour p maximal. Soit a ∈ pk+1 r pk ; la multiplication par a induit un morphisme de groupe additifs de OK /p → pk /pk+1 . Si x est dans le noyau, pk+1 | (xa) soit p | (x) ; l’injectivité suit. Pour la surjectivité, soit y un représentant de y ∈ pk /pk+1 ; comme y ∈ pk+1 + (a) = pk , la congruence ax ≡ y (mod pk+1 ) a une solution x ∈ OK . On prolonge la norme aux idéaux fractionnaires : N(a/a) := N a/ |N(a)|. Elle reste bien entendu multiplicative. Proposition 4.9. — Le nombre d’idéaux entiers de norme 6 C est fini. Démonstration. — La norme étant un entier positif, il suffit de démontrer qu’il existe un nombre fini d’idéaux entiers a de norme donnée

100

K. BELABAS

N = #(OK /a). Le théorème de Lagrange donne N ∈ a soit a | N OK . Q Q Or N OK = p pep a exactement p (ep + 1) < +∞ diviseurs. 4.5. Décomposition des premiers. — Un cas particulier important du théorème fondamental nous dit que chaque nombre premier p se décompose sous la forme Y pe(p/p) , (7) pOK = p|p

et on écrit N p = |OK /p| = pf (p/p) . On dira que p est au-dessus de p. L’exposant e(p/p) est le degré de ramification de p/p. L’exposant f (p/p) est le degré résiduel de p/p. Déterminer la décomposition des nombres premiers est la clé de la factorisation effective d’un idéal fractionnaire a : en effet, factorisant séparément numérateur et dénominateur, on peut supposer a entier. Comme on vient de le voir a | (N a)OK , il suffit donc de factoriser l’entier naturel N a et de calculer vp (a) pour chaque p | p | N a. Théorème 4.10 (Kummer). — Soit K = Q(X)/(T ), T ∈ Z[X] unitaire et θ = X (mod T ). On suppose que p - [OK : Z[θ]]. Alors « la factorisation de T mod p reflète celle de pOK ». Plus précisément, supposons Y e T ≡ Pi i (mod pZ[X]), i

où les Pi sont unitaires, irréductibles et 2 à 2 distincts modulo p. Alors Y e pOK = pi i , i

où les pi := pOK + Pi (θ)OK sont maximaux, 2 à 2 distincts et de degré résiduel deg Pi . Le Théorème 15.5 explique comment tester l’hypothèse p [OK : Z[θ]], vraie pour tout p sauf un nombre fini. En particulier elle est vérifiée quand T est sans facteurs carrés (les ei sont tous égaux à 1). Le Théorème 15.7 nous dira quoi faire quand elle n’est pas satisfaite. On dit que p est non ramifié si e(p/p) = 1 pour tout p | pOK . La discussion qui précède a montré que c’est le cas générique : un nombre fini de p sont ramifiés. On s’intéressera aux valeurs possibles

L’ALGORITHMIQUE DE LA THÉORIE ALGÉBRIQUE DES NOMBRES 101

pour f (p/p) au § 7.2. Pour l’instant, notons que la multiplicativité de la norme, appliquée à (7), implique l’identité X e(p/p) · f (p/p) = n. (8) p|p

4.6. Le morphisme de Frobenius Proposition 4.11. — Si K/Q est galoisienne de groupe G, les idéaux maximaux p divisant un même premier p sont permutés transitivement par G. Démonstration. — Supposons que p et q sont deux maximaux divisant un même premier p, appartenant à deux orbites distinctes, o(p) 6= o(q). Soit x ∈ p r o(q) (existe par le lemme chinois). Puisque Q x ∈ p, p | N p | N(x) ; d’autre part, N(x) = σ∈G σ(x). Comme Q q | pOK , q | N(x)OK , soit σ(x) ∈ q. L’idéal q étant premier, il existe σ ∈ G tel que σ(x) ∈ q, soit x ∈ σ −1 q. Contradiction. Si K/Q est galoisienne, on en déduit que e = e(p/p) et f = f (p/p) dépendent uniquement de p, pas de p, et l’équation (8) s’écrit ef # {p | p} = n. On note D(p) = {σ ∈ G : σp = p} , donc D(σp) = σD(p)σ −1 pour tout σ ∈ G. De |G| = n et de la Proposition 4.11, on déduit #D(p) = ef . Le groupe G, donc aussi D(p), stabilise OK ; on montre que la projection canonique OK → OK /p induit un morphisme surjectif de D(p) dans Aut(OK /p), qui est un groupe de cardinal f , engendré par le morphisme de Frobenius x 7→ xp . Le noyau I(p) est donc de cardinal e ; en particulier, p est non ramifié si et seulement si I(p) = {Id}. Dans ce cas, on note Frobp l’unique σ ∈ D(p) ⊂ G se réduisant sur le Frobenius x 7→ xp . Le symbole de Frobenius Frobp ⊂ G désigne l’ensemble des Frobp pour p | p. De même que D(σp) = σD(p)σ −1 , on vérifie que Frobσp = σ Frobp σ −1 , pour σ ∈ G. Donc Frobp est une classe de conjugaison de G. En particulier, si G est abélien, les classes de conjugaison ont un unique élément et p 7→ Frobp ∈ G associe un automorphisme de K à tout premier non ramifié. Ainsi, si K = Q(ζn ), G ' (Z/nZ)∗ est abélien et Frobp est donné par la classe de p dans (Z/nZ)∗ . D’après

102

K. BELABAS

le théorème de la progression arithmétique, tout élément de G est un Frobenius. C’est un phénomène général sur lequel on s’étendra au § 7.2. 4.7. Valeurs absolues et places. — On appelle valeur absolue de K un morphisme |·| : K ∗ → R∗+ , étendu à K par |0| = 0, et satisfaisant une inégalité triangulaire faible : il existe C > 1 tel que |x + y| 6 C(|x| + |y|) pour tout x, y ∈ K. Une valeur absolue définit une métrique sur K, via d(x, y) = |x − y|, donc une topologie. Deux valeurs absolues sont équivalentes si elles définissent la même topologie. Théorème 4.12. — Deux valeurs absolues |·|1 et |·|2 sont équivalentes si et seulement s’il existe t > 0 tel que |·|1 = |·|t2 . Par exemple, si p est maximal, |x|p := N p−vp (x) est une valeur absolue. Plus généralement, cvp (x) serait une valeur absolue (équivalente à celle-ci) pour c < 1. L’inégalité triangulaire est ici renforcée, puisque (6) donne |x + y|p 6 max(|x|p , |y|p ); on dit que |·|p est non archimédienne, par référence à l’axiome d’Archimède sur l’ordre de R. En effet ce dernier énonce que si x, y ∈ R∗ , il existe n ∈ Z, tel que |nx| > |y|. Or |z|p 6 1 pour tout z ∈ OK ⊃ Z, soit |nx|p 6 |x|p pour tout x ∈ K, n ∈ Z. Une autre classe d’exemples provient des plongements de K. Si σ : K ,→ C est l’un des r1 +2r2 plongements de K dans C, |x| = |σ(x)|t est une valeur absolue pour tout t > 0. Celles-ci sont archimédiennes (vérifient l’axiome d’Archimède). Les valeurs absolues associées à deux plongements complexes conjugués sont équivalentes. On choisit la normalisation suivante ( |σ(x)| si σ est réel, |x|σ := |σ(x)|2 si σ est complexe. Noter que |·|σ pour σ complexe ne vérifie pas l’inégalité triangulaire. (C’est l’unique raison pour laquelle on a affaibli celle-ci.) Un dernier exemple parfaitement inintéressant est fourni par la valeur absolue triviale : |x| = 1 pour x ∈ K ∗ . On appelle place de K une classe d’équivalence de valeurs absolues non triviales.


Théorème 4.13 (Ostrowski). — Les |·|σi , pour i 6 r1 + r2 et les |·|p , pour p maximal sont un système de représentants des places de K. En contemplant (4) on obtient alors la formule du produit : pour Q tout x ∈ K ∗ , on a v |x|v = 1, où v parcourt l’ensemble des représentants normalisés des places de K. 5. Géométrie des nombres 5.1. Tailles. — Une « taille » H sur un ensemble E associe à chaque x ∈ E un réel positif H(x) tel que {x ∈ E : H(x) < C} soit fini pour tout C. On veut introduire des considérations de taille sur K. Si la norme convient √ n pour les idéaux entiers (Proposition 4.9), l’exemple des (2 − 3) , n ∈ N, tous distincts de norme 1 montre qu’il n’en est pas de même sur K. Le même exemple montre que le module complexe, en considérant K ⊂ C, ne suffit pas non plus. Définition 5.1. — La hauteur naïve H(α) de α ∈ K est définie par Y H(α) := max {1, |α|v } , v

où v parcourt l’ensemble des places de K. On montre que H(α) ne dépend pas du corps de nombres K contenant Q(α). Elle a aussi une traduction agréable quand K = Q : Proposition 5.2. — Soit a/b ∈ Q, fraction réduite au plus petit dénominateur. Alors H(a/b) = max(|a| , |b|). Démonstration. — Les places de Q sont les p premiers et la place archimédienne associée à la valeur absolue usuelle. Si a = 0, b = ±1 et le résultat est évident. Sinon, le produit sur les p premiers vaut Q −vp (a/b) = |b|, que l’on multiplie par max(1, |a/b|). p,vp (a/b) 1, le nombre de x ∈ K tels que H(x) < C est fini. Démonstration. — On peut écrire xOK = a/b où a, b sont entiers premiers entre eux. Le produit sur les v non archimédiennes et archimédiennes sont tous deux bornés par C. Le premier montre que N b < C (nombre fini de possibilités), le deuxième que y = N bx, qui

104

K. BELABAS

appartient à OK , a tous ses plongements bornés par C 2 ; les coefficients de Pchar,y ∈ Z[X] sont donc bornés. On a donc un nombre fini de possibilités pour Pchar,y , donc pour y. La fonction H est la « bonne » notion théorique ; cependant, d’un point de vue calculatoire, elle est peu commode. On préférerait une notion de type norme infinie, par exemple H∞ (x) := max |x|v où v parcourt seulement l’ensemble des places archimédiennes. On ne contrôle plus les dénominateurs, mais H∞ (x) ne dépend toujours pas de K et peut jouer le rôle de taille sur OK . D’un strict point de vue algorithmique, on préfère une norme L2 pour des raisons qui apparaîtront aux § 15.6 et § 15.7, l’algorithme LLL en particulier. On considère donc K ⊗Q R ' Rr1 × Cr2 comme un espace euclidien muni de la forme naturelle X X T2 : (x1 , . . . , xr1 , z1 , . . . , zr2 ) 7−→ x2i + 2 |zj |2 , i6r1

j6r2

cf. (5) ; noter que si r2 = 0, T2 est la forme trace du Théorème 2.2. Explicitement, pour x ∈ K, T2 (x) =

n X

|σk (x)|2 .

k=1

Proposition 5.4. — Pour C > 0, le nombre de x ∈ OK tels que T2 (x) < C est fini. Démonstration. — OK est discret (Corollaire 3.4) et la boule T2 (x) 6 C est compacte. Théorème 5.5 (Kronecker). — Soit x ∈ OK , x 6= 0. Alors T2 (x) > n avec égalité si et seulement si x est une racine de l’unité. Démonstration. — L’inégalité est celle de la moyenne arithméticogéométrique : |N(x)|2/n 6 n1 T2 (x), qui implique T2 (x) > n puisque |N(x)| > 1. On a égalité si et seulement si les |σk (x)|2 sont tous égaux, nécessairement à 1 puisque leur somme est n. L’ensemble k x , k > 0 ⊂ OK est borné pour T2 , donc fini d’après la Proposition. Donc x est une racine de l’unité.


5.2. Discriminant. — On utilise les notations du § 1.2. Par extension des scalaires, E = (K ⊗Q R, T2 ) est un espace euclidien. Si Λ est un sous-Z-module libre de rang n de K, on peut le considérer comme réseau de E. On a défini au § 1.2 son déterminant d(Λ) et son discriminant ∆Λ = d(Λ)2 . Définition 5.6. — On note ∆K = ∆OK le discriminant de OK . Ceci définit le discriminant comme carré d’un volume, on aurait pu le définir algébriquement grâce aux identités suivantes : si (e1 , . . . , en ) est une Z-base de Λ, S = (σj (ei ))i,j6n , et T = (Tr(ei ej ))i,j6n la matrice de la forme trace, on a X Gram(e1 , . . . , en ) = S · tS, T = σk (ei )σk (ej ) = S · tS. k

i,j6n

En particulier, ∆K = |det T |. Comme T est à coefficients entiers, ∆K ∈ N. Plus généralement : Proposition 5.7. — Soit O un sous-Z-module d’indice fini de OK , et ∆O son discriminant. Alors ∆O ∈ N et ∆O = ∆K [OK : O]2 . Démonstration. — Résulte de ce qui précède et du Corollaire 1.6. 5.3. Applications du théorème de Minkowski. — Notre premier corollaire dit simplement qu’un idéal entier contient un élément non nul de norme proche du minimum : Corollaire 5.8. — Si K est un corps de nombres de degré n et signature (r1 , r2 ), alors tout idéal entier a contient un a 6= 0 tel que r 2 n! p 4 ∆K . |N(a)| 6 cK · N a, où cK := π nn Noter que a ∈ a implique N a | N(a). Démonstration. — On plonge K dans K ⊗Q R ' Rr1 × Cr2 ' Rn par x 7−→ σ1 (x), . . . , σr1 (x), Re σr1 +1 (x), Im σr1 +1 (x), . . . , Re σr1 +r2 (x), Im σr1 +r2 (x) , muni de la forme euclidienne standard. On en considère a et OK comme des réseaux, qui vérifient d(a) = d(OK ) N a. Par rapport à la √ structure euclidienne utilisée pour définir ∆K = d(OK , T2 ), on a

106

K. BELABAS

P 1 +r2 P 1 +2r2 |σi (x)|2 , soit d(OK ) = |σi (x)|2 par ri=1 remplacé T2 (x) = ri=1 √ 2−r2 ∆K . On pose o n X X |xi |+2 |zj |2 6 t , Ct := (x1 , . . . , xr1 , z1 , . . . , zr2 ) ∈ Rr1 ×Cr2 : i6r1

j6r2

V (Ct ) = 2r1 ( π2 )r2 tn /n! . Il existe un V (Ct ) > 2n d(a) : on peut prendre tn

de volume point non nul de a √ dans Ct si = ( π4 )r2 n! ∆K N a, en utilisant r1 + 2r2 = n. D’autre part, par l’inégalité de la moyenne arithmético-géométrique, un point de Ct vérifie n Y Y t 2 |xi | |zj | 6 . n i

j

Corollaire 5.9. — Tout idéal fractionnaire A de K s’écrit A = (α)a, où α ∈ k ∗ et a est un idéal entier tel que N a 6 cK . Démonstration. — Soit B := A−1 = d1 b, où b est entier. Donc b contient b 6= 0 tel que |N(b)| 6 cK N b ; l’idéal (b)b−1 est entier, de norme 6 cK . On pose α = d/b. Appliquant le Corollaire 5.8 à a = OK , on remarque que le membre de gauche est un entier naturel > 1. Une rapide étude de fonction donne : Corollaire 5.10. — Si n > 1, i.e. K 6= Q, alors ∆K > 1. Si n → +∞, alors ∆K → +∞. Les mêmes techniques permettent de prouver : Théorème 5.11 (Hermite). — Soit X > 0. Les corps de nombres K tels que ∆K < X sont en nombre fini. Démonstration (idée). — Grâce au dernier corollaire, on peut supposer K de degré n fixé. Supposons d’abord r1 > 0. Par Minkowski, on construit α ∈ OK tel que tous les σi (α) sont de module < 1, à l’exception d’un d’entre eux, de module borné en fonction de ∆K . D’après la Proposition 5.4, il existe un nombre fini de tels α. Par construction, la racine distinguée de Pchar,α est simple donc K = Q(α) (Théorème 2.1). Si r1 = 0, on procède de même avec deux racines distinguées de module > 1, complexes conjuguées et toutes deux simples.


Si Nn (X) désigne le nombre de corps de nombres K de degré n > 1 satisfaisant ∆K 6 X, on pense que Nn (X) ∼ αn X quand X → ∞, pour un certain αn > 0. Le meilleur résultat connu dans cette direction, obtenu par Ellenberg et Venkatesh [15], dit que pour tout ε > 0, on a lim sup X→+∞

log Nn (X) < nε , log X

log Nn (X) 1 1 > + 2, X→+∞ log X 2 n lim inf

6. Groupe des classes, unités Revenons à nos préoccupations diophantiennes ; on a une bonne théorie de la divisibilité pour les idéaux. Si OK est principal, et que l’on maîtrise ses unités U (K), on peut revenir des idéaux aux éléments de K. 6.1. Groupe des classes. — D’après le théorème fondamental, l’ensemble I(K) des idéaux fractionnaires de K est un groupe abélien. Le groupe des classes d’idéaux de K, noté Cl(K), est le quotient de I(K) par le sous groupe P (K) des idéaux fractionnaires principaux. Théorème 6.1. — Le groupe Cl(K) est fini. Démonstration. — On applique le Corollaire 5.9. Les idéaux entiers de norme bornée étant en nombre fini (Proposition 4.9), il en est de même du nombre de classes d’idéaux. Le cardinal de Cl(K), noté h(K), est le nombre de classes de K. Le groupe des classes mesure une obstruction (à la principalité de OK ) ; idéalement, il est trivial. C’est expérimentalement relativement fréquent, mais la conjecture naturelle est toujours ouverte : Conjecture 6.2 (Gauss-Hasse). — Il existe une infinité de corps de nombres K ⊂ C tels que h(K) = 1. Pour toute signature (r1 , r2 ) différente de (1, 0) (K = Q) et (0, 1) (K quadratique imaginaire), on pense qu’il existe une infinité de K partageant cette signature tels que h(K) = 1. Il est nécessaire d’exclure (0, 1) :

108

K. BELABAS

Théorème 6.3 (Heegner, Stark, Baker (indépendamment)) √ Un corps quadratique imaginaire K = Q( −∆K ) vérifie h(K) = 1 si et seulement si ∆K ∈ {3, 4, 7, 8, 11, 19, 43, 67, 163} C’est un théorème difficile (qui serait une conséquence facile de l’hypothèse de Riemann, voir le Théorème de Brauer-Siegel 7.6) ; par contre, il est relativement simple de montrer que la liste est complète à une exception près. 6.2. Unités, S-unités, et régulateurs. — Les unités U (K) := ∗ de O OK K forment un Z-module de type fini dont la structure est donnée par le théorème de Dirichlet : U (K) = (Z/wZ) · ζ ⊕

r1 +r L2 −1

Z · ηi .

i=1

Q En d’autre termes chaque unité s’écrit ζ a0 ηiai où a0 ∈ Z/wZ et les ai ∈ Z sont uniquement déterminés. Plus généralement, soit S∞ l’ensemble des r1 + r2 places archimédiennes et S un ensemble fini de places contenant S∞ . On définit n o US (K) = x ∈ K : |x|p = 1, ∀ p 6∈ S , le groupe des S-unités de K. En particulier US∞ (K) = U (K). Théorème 6.4 (Dirichlet, généralisé par Chevalley et Hasse) US (K) est somme directe du groupe cyclique µ(K) des racines de l’unité de K et d’un Z-module libre de rang |S| − 1. Démonstration (vague idée). — Comme le corps cyclotomique Q(ζn ) est de degré φ(n) → +∞ quand n → +∞, µ(K) est fini. Il est donc cyclique (comme sous-groupe fini du groupe multiplicatif d’un corps). On considère Φ : US (K) → RS , qui à x associe (log |x|v )v∈S . C’est un morphisme de groupe dont l’image est incluse dans l’hyperplan P v xv = 0 (formule du produit). Le Théorème 5.5 donne Ker Φ = µ(K). On montre ensuite que l’image de Φ, isomorphe à US (K)/µ(K), est un réseau de cet hyperplan (c’est assez long). Soit (ηi )16i 1. (Exercice : vérifier la convergence.) Bien sûr, ζQ (s) = ζ(s) est la fonction zêta de Riemann. Plus généralement, soit χ : I(K) → C∗ un morphisme de groupes, trivial sur les idéaux principaux. Par passage au quotient, χ définit un caractère du groupe abélien fini Cl(K). On définit X L(s, χ, K) = χ(a) N a−s , a

où a parcourt l’ensemble des idéaux entiers de K. En particulier, si χ0 est le caractère trivial, L(s, χ0 , K) = ζK (s). Théorème 7.1 (1) Si Re(s) > 1, L(s, χ, K) =

Y (1 − χ(p) N p−s )−1 p


admet un produit eulérien, où p parcourt l’ensemble des idéaux maximaux de OK . (2) (s − 1)L(s, χ, K) admet un prolongement holomorphe au plan complexe. On garde les notations L(s, χ, K) et ζK pour les fonctions méromorphes associées. (3) ζK (s) a un pôle simple en s = 1 de résidu rK := 2r1 (2π)r2

h(K)R(K) √ , w(K) ∆K

où h(K), R(K), w(K) sont respectivement le nombre de classes, le régulateur, et le nombre de racines de l’unité de K. (4) Si χ 6= χ0 , L(s, χ, K) est une fonction entière. 1/2 (5) Soit A := 2−r2 π −n/2 ∆K et γ(s) := As Γ(s/2)r1 Γ(s)r2 . La fonction ξ(s, χ, K) := s(s − 1)γ(s)ζK (s), est entière et vérifie l’équation fonctionnelle ξ(s, χ, K) = W (χ) · ξ(1 − s, χ, K), où W (χ) est un complexe de module 1. On a W (χ0 ) = 1. Les fonctions L associées aux caractères de Cl(K) sont d’un genre très particulier, et ne généralisent pas les séries L de Dirichlet, associées à un caractère de (Z/N Z)∗ . Une généralisation possible est la suivante : on remplace Cl(K) par le groupe des classes de rayon f, Clf := If (K)/ Clf (K), où f est un idéal entier, If (K) est le sous-groupe de I(K) formé des idéaux premiers à f, et Pf (K) le sous-groupe des idéaux fractionnaires principaux (α), où α ≡ 1 (mod f) et σ(α) > 0 pour toutes les plongements réels de K. Le groupe Clf (K) est fini, et c’est une extension de Cl(K) par (OK /f)∗ × {−1, 1}r1 /U (K), où U (K) → (OK /f)∗ est la projection canonique et U (K) → {−1, 1}r1 est le vecteur des signes des plongements réels. En particulier, si K = Q, f = qZ, Clf (K) = (Z/qZ)∗ . Étant donné un caractère de Clf , on définit L(s, χ, K) = P −s a χ(a) N a , en posant χ(a) = 0 si a et f ne sont pas premiers entre eux. Cette fonction L vérifie des propriétés analogues à celles du Théorème 7.1, avec une équation fonctionnelle plus compliquée.

112

K. BELABAS

Les groupes Clf (K) jouent un rôle important dans la théorie (classique) du corps de classe, qui étudie les extensions abéliennes de K, c’est-à-dire les extensions galoisiennes de groupe de Galois abélien. Toute extension abélienne de K se réalise comme sous-corps d’une extension Hf (K)/K pour un certain idéal entier f, dont le groupe de Galois est Clf (K). Si K = Q, f = qZ, on a Hf (K) = Q(ζq ) et on retrouve le théorème de Kronecker-Weber : toute extension abélienne de Q est contenue dans un corps cyclotomique. 7.2. Densités d’idéaux premiers. — La fonction ζ de Riemann permet de montrer le théorème des nombres premiers (essentiellement équivalent à ζ(1 + it) 6= 0 pour t ∈ R), les séries L le théorème de la progression arithmétique (essentiellement équivalent à L(1, χ) 6= 0). Tous deux se généralisent en utilisant essentiellement les mêmes arguments analytique (ζK (1 + it) 6= 0 et L(1, χ, K) 6= 0) : Théorème 7.2 (des idéaux premiers). — Soit K un corps de nombres et πK (X) le cardinal de {p ⊂ OK : p maximal, N p 6 X} . Quand X → +∞, πK (X) ∼ X/ log X. La démonstration est analogue à celle du théorème des nombres premiers. Le théorème de la progression arithmétique est plus difficile, et a joué un rôle historique important dans le développement de la théorie du corps de classe : Théorème 7.3 (Chebotarëv). — Soit K/Q une extension galoisienne de groupe G, et C une classe de conjugaison de G. On note πK (X, C) le nombre de premiers p 6 X non ramifiés tels que Frobp ∈ C. Quand X → +∞, |C| πK (x, C) ∼ · πK (X). |G| Pour une démonstration, voir [25] ou [36] (ce dernier donne les grandes lignes d’une preuve n’utilisant pas la théorie du corps de classes). Le théorème de Chebotarëv généralise le théorème de Dirichlet : K = Q(ζq ) est une extension galoisienne de Q de groupe G ' (Z/qZ)∗ , qui est abélien. Donc |C| = 1 et le théorème de Chebotarëv dit que


les nombres premiers se répartissent de manière asymptotiquement équiprobable entre les différentes classes de (Z/qZ)∗ . Mentionnons un dernier corollaire utile, reposant sur l’interprétation suivante : soit f ∈ Z[X] unitaire, irréductible de degré n dans Q[X] et K un corps de décomposition de f . L’extension K/Q est galoisienne de groupe de Galois G ⊂ Sn (G permute les n racines de f dans K). Supposons que la réduction f dans Fp [X] est sans facteurs carrés, ce qui implique que p est non ramifié dans K. Alors la classe de conjugaison de Frobp dans G détermine le type de décomposition de f modulo p (en fait, la classe de conjugaison dans Sn le détermine déjà). Plus précisément : – si f = f1 · · · fg dans Fp [X], où les fi sont irréductibles, distincts, l’ensemble T = {deg f1 , . . . , deg fg } est le type de décomposition de f . (Par abus de langage, on écrira f ∈ T .) – si σ ∈ Sn , σ = c1 · · · cg où les ci sont des cycles disjoints de Sn , la classe de conjugaison de σ est déterminée par {lg(c1 ), . . . , lg(cg )}, où lg(c) désigne la longueur du cycle c. Ces deux ensembles d’entiers sont identiques si σ = Frobp , sous l’hypothèse que les fi sont distincts (exercice). Corollaire 7.4 (Frobenius, Hecke). — Soient f , n, K, G comme cidessus ; soit T un type de décomposition de f , aussi vu comme classe de conjugaison de Sn . Alors # p 6 x: f ∈ T |T ∩ G| lim = . x→+∞ # {p 6 x} |G| Le résultat de densité ci-dessus est dû à Hecke. Frobenius utilisait la densité analytique d’un ensemble P, X 1 δ(P) := lim p−s , s→1+ log(s − 1) p∈P

qui est une notion plus faible : si la densité naturelle existe, la densité analytique aussi et elles sont égales. La réciproque est fausse. 7.3. L’hypothèse de Riemann. — L’hypothèse de Riemann (généralisée, GRH) dit que L(s, χ, K) 6= 0 si Re(s) > 1/2 ; elle n’est bien sûr connue pour aucun K ou χ. Elle a des conséquences remarquables sur les termes d’erreurs dans les théorèmes de densité du paragraphe

114

K. BELABAS

précédent (voir [24]), qui sont obtenus à l’aide de formules intégrales du type X (9) χ(a)Λ(a) Z N a6x 1 L0 ds = − (s, χ, K) x−s , (x > 0, x 6∈ N), 2iπ Re s=c L s où c > 1 et Λ(a) = log N p si a = pk est une puissance d’un idéal maximal, et 0 sinon. Il « suffit » ensuite de déplacer un contour : le terme x−s est un O(x− Re s ) et l’intégrale devient négligeable par rapport aux résidus que l’on récupère en déplaçant la droite d’intégration vers la gauche. Il est clair qu’une bonne localisation des singularités de l’intégrande dans le demi-plan Re s > 0 (s = 1 si χ = χ0 et les zéros de L) permet d’estimer plus finement les résidus. En particulier, si GRH est vraie, il existe p = O(log ∆K )2 satisfaisant Frobp ∈ C dans le théorème de Chebotarëv, où la constante implicite est effective (voir [23]). On peut donc trouver un tel p en un temps raisonnable, et en tout cas précisément borné, par une recherche exhaustive p = 2, 3, 5, . . . . Une conséquence du Corollaire 5.9 est que les (classes des) idéaux √ maximaux de OK de norme 6 cK = O( ∆K ) engendrent Cl(K). GRH permet beaucoup mieux : Théorème 7.5 (Bach [4]). — Sous GRH, les idéaux maximaux de K de norme inférieure à 12(log ∆K )2 engendrent Cl(K). Démonstration (vague idée). — Supposons que les idéaux de norme < x engendrent un sous-groupe strict H de Cl(K). Alors il existe un caractère χ 6= χ0 de Cl(K) tel que χ|H = χ0 |H : il suffit de relever un caractère non trivial de Cl(K)/H 6= {1}. Au vu de (9), Z Z L0 ds L0 −s ds (s, χ, K) x = (s, χ0 , K) x−s . s s Re s=c L Re s=c L D’après le Théorème 7.1, en s = 1, L(s, χ0 , K) a un pôle simple alors que L(s, χ, K) est régulière. Sous GRH, aucun des deux intégrandes n’a de pôle de partie réelle 21 < Re(s) < 1, et on en tire une contradiction du type O(x1/2 ) = x + O(x1/2 ). Malheureusement, les constantes implicites dépendent de K !


Pour rendre ceci rigoureux, il faut donc étudier la dépendance en K des termes d’erreurs. En fait, on utilise une « Formule Explicite » [25, Chap. 17], provenant de la dérivée logarithmique du produit de Weierstrass de la fonction d’ordre 1 Y s b0 +b1 s 1− es/ρ , ξ(s, χ, K) = e ρ ρ et qui généralise (9) en remplaçant la fonction caractéristique de [0, x[ par une fonction test f très générale. Elle énonce une égalité entre X χ(a)Λ(a) f (N a). a

et une somme sur les zéros de L(s, χ, K), modulo quelques termes parasites. L’essentiel du travail consiste à optimiser la fonction test.

Donnons une dernière application, liée aux estimations du nombre de classes : Théorème 7.6 (Brauer-Siegel). — Si K parcourt l’ensemble des corps de nombres de degré n fixé, on a, pour tout ε > 0, h(K)R(K) √ ε ∆εK . ∆K √ En particulier, log h(K)R(K) ∼ log ∆K quand ∆K → ∞ et que le degré de K reste fixe. ∆−ε K ε

La borne supérieure est élémentaire et effective ; inconditionnellement, la borne inférieure n’est pas effective, on ne peut donc pas démontrer le Théorème 6.3 ainsi. Mais elle le devient sous GRH ! Plus précisément, la constante dépend de ∆K0 , où K0 /Q est une clôture galoisienne d’une extension de degré n telle qu’il existe s0 ∈ ] 21 , 1[ tel que ζK0 (s0 ) = 0. Sous GRH, K0 n’existe pas. La seule minoration effective de h(K) actuellement connue inconditionnellement (Goldfeld-Gross-Zagier, voir [31]) concerne les corps quadratiques imaginaires, pour lesquels R(K) = 1, et elle est nettement inférieure à log ∆K (!) : √ 4 p log ∆K Y h(K) > 1− . 1700 p−1 p|∆K

116

K. BELABAS

8. Cahier des charges Notre tâche principale est de calculer les objets suivants, associés à un corps de nombres K, défini par le polynôme minimal d’un élément primitif T : (1) plongements, signature, (2) Z-base de OK , factorisation des idéaux, (3) Cl(K), U (K). On peut y rajouter de nombreux problèmes annexes, qui surgissent naturellement (4) tables de corps de nombres ordonnés par discriminants, (5) énumération des x ∈ K, H(x) < C, (6) factorisation des polynômes de K[X], (7) calcul de Aut K, du corps de décomposition KT , de son groupe de Galois, (8) calcul approché de ζK (s), s ∈ C. etc.

PARTIE II ALGORITHMIQUE

9. Introduction 9.1. Complexité. — On ne définira pas précisément ce qu’est un algorithme (qui impliquerait la spécification d’un modèle de calcul, de la représentation des données, d’un programme et de la relation souhaitée entre entrée et sortie de celui-ci), qu’on assimilera à un programme informatique. La taille d’une donnée est le nombre de bits utilisés pour la coder, dans la représentation choisie. Le temps de calcul est le nombre de pas de programme exécutés avant l’arrêt. Nous considérerons des algorithmes probabilistes, qui ont le droit de faire des choix aléatoires, et des algorithmes déterministes, qui ne l’ont pas. Informellement, un algorithme est bon s’il s’exécute en un temps polynomial en la taille combinée des entrées et de la sortie du


programme(2) . Pour un algorithme probabiliste, ceci signifie que, pour une entrée fixée, la moyenne des temps de calculs sur toutes les exécutions possibles de l’algorithme est polynomiale en la taille T ; l’incertitude porte uniquement sur le temps de calcul, pas sur la correction du résultat. Un problème est facile si on connaît un bon algorithme pour le résoudre, et difficile sinon. À défaut de bon algorithme, on apprécie qu’il soit sous-exponentiel, en temps o(exp(εT )) pour tout ε > 0. C’est une définition naïve : on ne se prononce pas sur la difficulté intrinsèque du problème et, de fait, la classe des problèmes « difficiles » a tendance à se résorber. À l’inverse, une modification anodine d’un problème facile peut le rendre difficile(3) ; donc, sans spécification précise du modèle de calcul, on bâtit sur du sable. Mais on peut déjà dire des choses intéressantes à partir de cette approche naïve. (Voir [3], et surtout [32], pour une approche plus formelle.) Il est aussi utile de distinguer plus finement entre bons, ou moins bons, algorithmes. Dans ce survol, on ne s’en préoccupera pas, ou à peine. Quelques problèmes faciles : – primalité sur Z (Agrawal-Kayal-Saxena [2]), – factorisation sur Q[X] (Lenstra-Lenstra-Lovász [27]) ou sur Fq [X] (Berlekamp [8]), – construction d’un corps fini Fpn (Galois, Adleman-Lenstra [1]). Quelque problèmes difficiles : – – – –

factorisation sur Z, calcul d’une Z-base de OK , groupe de Galois d’un polynôme de Q[X], calcul de Cl(K) ou U (K).

Si on rejette les algorithmes probabilistes, alors la factorisation sur Fq [X] et la construction d’un corps fini deviennent difficiles, mais le test d’irréductibilité dans Fq [X] reste facile. Même le calcul d’une (2)

Ainsi la taille associée au problème de la recherche des sous-ensembles de {1, . . . , n} est de l’ordre de 2n , pas log n. La taille de l’entrée est log n, celle `n´ P n−1 de la sortie n n log n. k=0 k k log n = 2 (3) Par exemple exiger un algorithme déterministe, ou demander un bon comportement sur des données creuses (on mesure alors la taille en fonction du nombre de coefficients non nuls d’un polynôme, par exemple, et non plus en fonction de son degré).

118

K. BELABAS

racine carrée ou la construction d’un corps quadratique Fp2 sont difficiles dans le cadre déterministe. Si GRH est vraie, construire Fpn redevient facile ; plus précisément, on dispose d’un bon algorithme déterministe (utilisant essentiellement le théorème de Chebotarëv) qui, pour chaque valeur de (n, p) fixée, soit construit un polynôme irréductible de degré n sur Fp , soit prouve que GRH est fausse. 9.2. Un exemple. — Nous allons « calculer » des groupes abéliens : Cl(K), U (K)... Qu’entend-on par là ? Commençons par un exemple simple : soit p un nombre premier, on veut « calculer » G = (Z/pZ)∗ le groupe multiplicatif du corps fini associé. Quelques descriptions possibles : – théorique : G ' Z/(p − 1)Z est cyclique. – pseudo-effective : G = Z/(p − 1)Z · g, où on fixe un générateur g pour fixer un isomorphisme. La recherche de g se fait en temps fini en calculant l’ordre des éléments successifs de G. Complexité : la taille des données est log2 p. En supposant que la factorisation de p−1 est connue, on a un bon algorithme pour calculer cet ordre. Sous GRH (pour K = Q et les caractères modulo p), il existe un générateur de représentant O(log2 p). On a donc un bon algorithme en testant 2, 3, . . . Seul le caractère polynomial de l’algorithme est conditionnel. Si la factorisation de p − 1 est inconnue, même le calcul de l’ordre d’un élément est difficile. Par exemple, vérifier qu’un g donné répond bien à la question est difficile. – effective : comme la précédente mais, pour que l’isomorphisme soit effectif, il faut savoir résoudre le problème du logarithme discret dans G : étant donné a ∈ G, trouver l’unique x := logg a ∈ Z/(p−1)Z tel que g x = a. Plus généralement pour décrire un groupe abélien de type fini, on le représente sous la forme g L G= (Z/di Z)gi , où d1 | · · · | dg . i=1

Le problème du logarithme discret correspondant est le plus souvent difficile. 9.3. Notations. — Dans la suite, on fixe K/Q un corps de nombres, n := dimQ K. On supposera que K est donné par le polynôme minimal


T d’un élément primitif(4) . En d’autres termes K = Q[X]/(T ) ; on note θ = X (mod T ), soit K = Q(θ). On supposera que T ∈ Z[X]. La lettre p désigne toujours un nombre premier, et p un idéal maximal de OK au dessus de p. Après quelques préliminaires, dont le plus important est sans conteste l’algorithme LLL (§ 10.5), on s’intéressera aux plongements du corps K : complexes (§ 11), p-adiques (§ 12), ainsi que dans d’autres corps de nombres (§ 13), ce qui se traduit par de classiques problèmes de factorisation de polynômes, dans C[X], Qp [X] (en particulier Fp [X]), ou Q[X]. Dans une deuxième partie, on s’intéressera à l’arithmétique de K : ses ordres (§ 14) et son anneau d’entiers OK (§ 15). Finalement, on parlera de groupes de classes et d’unités (§ 16).

10. Préliminaires 10.1. Opérations élémentaires. — Les opérations élémentaires sont faciles dans Z : addition, multiplication, division euclidienne, pgcd (algorithme d’Euclide). Il en est de même dans le corps de fractions Q, ainsi que dans les quotients Z/N Z, manipulés via un système complet de représentants (0, . . . , N − 1, ou bien les représentants de valeur absolue minimale). À ceci près que dans Z/N Z la division euclidienne est remplacée par l’inversion, qui échoue sur un diviseur de 0, et se réalise à l’aide de l’algorithme d’Euclide étendu. Plus généralement, une relation de Bezout entre a, b ∈ N s’obtient grâce à une suite d’opérations sur les lignes du système ui vi a xi u0 v0 x0 a = , avec = Id, = . ui+1 vi+1 b xi+1 u1 v1 x1 b Si xi+1 = 0, l’algorithme s’arrête et la première ligne est une relation de Bezout, sinon on pose la division euclidienne xi = qxi+1 + r et (L1 , L2 ) ← (L2 , L1 − qL2 ). Ceci effectue simplement l’algorithme d’Euclide sur le membre de droite, en conservant la trace des opérations dans une matrice auxiliaire, comme il est d’usage en algèbre (4)

D’autres points de vue sont possibles, qui ont tous leur intérêt, par exemple σ K ,→ C (on fixe un plongement explicite), K corps de décomposition ou donné par une tour d’extensions, K compositum de sous-corps, corps fixe donné par théorie de Galois, extension donnée par théorie du corps de classe...

120

K. BELABAS

linéaire. En inversant l’identité ci-dessus, on obtient a |vi+1 | |vi | xi , = b |ui+1 | |ui | xi+1 d’où on déduit des majorations de toutes les quantités en jeu, et un coût quadratique O(log max(a, b))2 pour l’algorithme. À ce stade, on remarque qu’il suffit de calculer une seule colonne de la matrice vi i ( uui+1 vi+1 ), puisque la connaissance du pgcd et d’un coefficient de Bezout permet de déterminer l’autre. À partir d’une relation de Bezout, le lemme chinois est effectif. Les anneaux de polynômes Fp [X] et leurs quotients se traitent de même, où les représentants choisis sont de degrés minimal. On peut traiter de même Q[X] et ses quotients, mais l’explosion des coefficients fait que l’algorithme d’Euclide naïf n’est plus un algorithme utilisable. (Il reste bon, mais ça n’a rien d’évident, voir [17, Chap. 6].) Une méthode modulaire s’impose : calcul du pgcd dans Fp [X] modulo suffisamment de petits premiers et reconstruction du pgcd global par lemme chinois. À l’exception du pgcd dans Q[X], les algorithmes naïfs pour les problèmes ci-dessus sont tous au pire quadratiques en la taille des données. Les méthodes utilisant la multiplication par transformation de Fourier rapide (§ 11.3) et l’inversion par itération de Newton (10) sont asymptotiquement quasi-linéaires, voir [17]. 10.2. Exponentiation binaire. — La technique est simple mais P utile : si n = ki=0 εi 2i > 0, εi ∈ {0, 1}, on calcule xn =

k Y

i

x2 ,

i=0 εi =1 i

où les x2 sont obtenus par mise au carré successives, soit O(log n) multiplications au lieu de n − 1. Notons une application typique, en dehors des tests de primalité : pgcd(X p − X, T ) dans k[X] se calcule comme pgcd(A − X, T ), où A ∈ k[X] est un représentant de la classe de X p dans k[X]/(T ), calculé en O(log p) multiplications n’impliquant que des polynômes de degré inférieur à deg T . Des variantes gagnent sur la constante implicite, par exemple y0 := xek ,

2 yi := yi−1 xek−i

pour 1 6 i 6 k,


alors yk = xn , qui rappelle le schéma de Horner. Dans le cas typique ci-dessus, les multiplications par xei sont des multiplications par X, peu coûteuses. 10.3. Factorisation, primalité dans Z. — La primalité est facile, la factorisation difficile. Ces techniques sont complexes, mais bien et fréquemment décrites dans la littérature. Voir [34] et [10, 26] respectivement pour une présentation des tests de primalité et des algorithmes de factorisation. 10.4. Formes normales d’Hermite (HNF) et de Smith (SNF) Ce sont des familles de matrices, généralisant les formes normales de Gauss-Jordan des espaces vectoriels aux Z-modules (plus généralement aux A-modules pour A principal). L’algorithme qui permet de s’y ramener (si la relation de Bezout est effective dans A, par exemple si A est euclidien) généralise le pivot de Gauss. L’inversion d’un pivot est en général impossible, mais l’algorithme d’Euclide permet d’y suppléer : si au + bv = pgcd(a, b) = d est une relation de Bezout, la b/d u multiplication à droite par la matrice inversible −a/d v ∈ SL2 (Z) met la matrice ligne (a, b) sous forme normale (0, d). Par une suite d’opérations élémentaires de ce type sur ses colonnes, une matrice m × n à coefficients dans Z peut être mise sous forme échelonnée, dite forme normale d’Hermite (HNF), en annulant successivement tous les coefficients à gauche d’un pivot dans une ligne donnée, avant de poursuivre sur la matrice extraite dont on a supprimé la ligne et la colonne du pivot. Il n’est en général pas possible d’annuler les coefficients à droite d’un pivot q, tout au plus peuvent-ils être choisis dans un système fixé de représentants de Z/qZ. Formellement, la matrice (0|H) ∈ Mm×n (Z) est une HNF si H = (hi,j ) est une matrice m × r de rang r 6 n telle qu’il existe une fonction f : [1, r] → [1, m] strictement croissante telle pour 1 6 j 6 r, on ait (1) qj := hf (j),j > 0 et hi,j = 0 si i > f (j), (2) 0 6 hf (j),k < qj si k > j. (f (j) indique la ligne où se trouve le pivot qj > 0 de la colonne j de H, les coefficients à droite du pivot sont réduits modulo qj .) Les matrices HNF m × n forment un système complet de représentants de Mm×n (Z)/ GLn (Z). En d’autres termes, le Z-module engendré par

122

K. BELABAS

les colonnes d’une matrice a une base (échelonnée) canonique, donnée par les colonnes non nulles de sa HNF. En autorisant de plus les opérations élémentaires sur les lignes, on applique un algorithme de pivot à la ligne Li d’une matrice (opérations sur les colonnes), puis à la colonne Cj (opérations sur les lignes) ; en itérant à i et j fixés, le pivot qi,j diminue strictement jusqu’à être le seul élément non nul de Li et Cj . En poursuivant sur les autres lignes et colonnes, on obtient cette fois une matrice diagonale, à un bloc de 0 près. Toujours par des opérations inversibles sur lignes et colonnes, on peut remplacer un couple (a, b) de pivots consécutifs par (ppcm(a, b), pgcd(a, b)), et ainsi supposer que les pivots successifs (d1 , . . . , dn ) sont positifs ou nuls et vérifient dn | · · · | d1 . Formelle0 ment, les matrices m × n de forme (0|D) ou D sont des Formes Normales de Smith (SNF) si D est une matrice diagonale vérifiant la condition ci-dessus. Les matrices SNF m × n forment un système complet de représentants de GLm (Z)\Mm×n (Z)/ GLn (Z). Nous venons essentiellement de démontrer le Théorème 1.1 de la base adaptée (reste à voir l’unicité des di ). Lemme 10.1. — Soit M ∈ Mn×n (Z) et (d1 , . . . , dn ) la diagonale de sa SNF. Alors G = Zn / Im M ' ⊕ni=1 (Z/di Z). Démonstration. — Soit D = U M V la SNF de M , où U, V ∈ GLn (Z). Soit (e1 , . . . , en ) la base canonique de Zn ; ses projections engendrent G. Les seules relations entre les ei sont de la forme (e1 , . . . , en )M Y = 0, Y ∈ Zn . Soit (g1 , . . . , gn ) = (e1 , . . . , en )U −1 une nouvelle famille génératrice de G ; on a (g1 , . . . , gn )X = 0 si et seulement si X ∈ Im D. Donc n X . X G= Z · gi Im D = (Z/di Z) · gi . i

i=1

Se restreindre à Mn×n (Z) au lieu de Mm×n (Z) est sans importance : on peut remplacer M par les colonnes non nulles de sa HNF pour assurer n 6 m, puis concaténer des colonnes nulles pour assurer n = m. Contrairement à Euclide sur Z (mais conformément à Euclide sur Q[X]), les algorithmes naïfs évoqués ci-dessus ne sont pas bons : les


O(nm2 ) opérations dans Z associées à l’algorithme de pivot font exploser les coefficients. De bons algorithmes existent, reposant toujours sur des techniques modulaires (voir Storjohann [37]). Un des principes de l’algorithmique arithmétique est de transformer les problèmes arithmétiques en algèbre linéaire sur des Z-modules ; l’algorithme d’Euclide pour le pgcd est l’exemple type. L’algèbre linéaire sur un corps fini ou sur Z est facile. Par là j’entends plus précisément la résolution de systèmes linéaires, le calcul d’une base de noyaux, images ou conoyaux, et celui de polynôme minimal ou caractéristique. Sur un corps fini cela suit du pivot de Gauss, sur Z de la forme normale d’Hermite. En particulier, il est facile de transformer un système fini de Z-générateurs d’un Z-module libre en une Z-base. Si A et B sont des sous-Z-modules libres de Zn , vu comme Z-algèbre, on en déduit de bons algorithmes pour le calcul de A ∩ B, A + B, AB, (A : B) = {z ∈ Zn : zB ⊂ A}. Exemple. — Soit à résoudre le système linéaire XM = Y , M ∈ Mm×n (Z), d’inconnue X ∈ M`×m (Z). On pose M U = (0|H) la HNF de M , où U ∈ GLn (Z) et H est de rang r 6 n. L’équation est équivalente au système triangulaire X(0|H) = Y U , qu’il est facile de résoudre par substitution. 10.5. Réduction de bases de réseaux, LLL. — Parmi les bases d’un réseau, certaines sont plus agréables que d’autres : ainsi la base canonique de Z2 est une base de vecteurs courts (pour la forme euclidienne standard), mais si au − bv = 1 est une relation de Bezout, les vecteurs ( ab ) , ( uv ) forment une base de Z2 , dont les vecteurs peuvent être rendus arbitrairement longs. La réduction d’une base est simplement son remplacement par une base dont les vecteurs sont plus courts. On peut définir une notion de base optimale (Minkowski), dont les vecteurs sont aussi courts que possibles, mais on ne connaît pas de bon algorithme pour en déterminer une à partir d’une base arbitraire. Essentiellement, on en vient à tester successivement tous les vecteurs du réseau dans une boule et leur nombre est exponentiel en la dimension. Nous allons définir une notion de réduction adaptée au traitement algorithmique. Soit (Rn , q) un espace euclidien et Λ un réseau donné par une base (bi )i6n . Soit (b∗i ) la base orthogonale de Rn donnée par le procédé de

124

K. BELABAS

Gram-Schmidt, telle que b∗1

= b1 ,

b∗i

= bi −

X

µi,j b∗j ,

j

Lemme 10.2. —

Qn

∗ i=1 q(bi )

µi,j

bi · b∗j = ∗ ∗, bj · bj

pour 1 6 j < i 6 n.

= d(Λ)2 ne dépend que de Λ.

Démonstration. — La matrice de Gram de (b∗i ) est diagonale, donc Q son déterminant est q(b∗i ). D’autre part la matrice de changement de R-base de (bi ) à (b∗i ) est triangulaire de déterminant 1. On conclut avec la Proposition 1.5. Définition 10.3. — Soit c ∈ ]1/4, 1[. Une famille libre de vecteurs (b1 , . . . , bn ) est dite LLL-réduite pour la constante de Lovász c si (1) |µi,j | 6 12 , pour 1 6 j c, pour 1 < i 6 n. La première condition |µi,j | 6 1/2 pour j < i est facile à mettre en œuvre et suit d’une « réduction de bi modulo b1 , . . . , bi−1 ». Supposons qu’elle soit vérifiée pour ` < j ` – remplace µi,` par µi,` − dµi,` c dont la valeur absolue est 6 1/2. La deuxième condition compare les longueurs des projections de bi (numérateur) et bi−1 (dénominateur) sur l’orthogonal de (b1 , . . . , bi−2 ). Intuitivement, on veut placer en premier le plus « petit » des deux vecteurs (par rapport aux vecteurs restant à réduire), puisqu’il réduira « mieux » les vecteurs suivants. Pour simplifier, on prend c = 3/4 pour la suite. La condition (2) est équivalente à q(b∗i ) > 43 − µ2i,i−1 q(b∗i−1 ). Avec la première, elle implique q(b∗i−1 ) 6 2q(b∗i ), et en fait X q(b∗j ) q(bi ) 1 X i−j 2i + 1 2 =1+ µi,j ∗ 6 1 + 2 = ∗ q(bi ) q(bi ) 4 2 j

j

Ce quotient étant > 1, q(bi ) et q(b∗i ) sont proches. On en déduit facilement :


Proposition 10.4. — Soit Λ un réseau de l’espace euclidien (Rn , q) dont (bi ) une base LLL-réduite. Alors, pour toute toute suite de vecteurs indépendants x1 , . . . , xn de Λ, on a q(bj ) 6 2n−1 max {q(x1 ), . . . , q(xj )} ,

pour j 6 n.

En particulier le premier vecteur b1 est essentiellement aussi court que possible, à un facteur 2n−1 près. Trouver un plus court vecteur est difficile. Bien sûr, l’intérêt de la notion est l’existence d’un bon algorithme de calcul d’une base LLL-réduite, dû à A. Lenstra, H. Lenstra et Lovász [27]. L’algorithme est très simple. Comme celui d’Euclide qu’il généralise c’est une succession de réductions et d’échanges : supposons que (b1 , . . . , bk−1 ) soit LLL-réduite (c’est initialement le cas pour k = 2). Réduction. — On remplace bk par une combinaison linéaire bk − P 1 i 34 q(b∗k−1 ), alors (b1 , . . . , bk ) est LLLréduite et on incrémente k. Si k > n, l’algorithme s’arrête. – sinon, on échange bk−1 et bk et on décrémente k. Intuitivement, la réduction diminue la taille de bk , et les échanges mélangent les vecteurs en tentant de favoriser les réductions suivantes. Il est clair que (b1 , . . . , bn ) reste une base du réseau tout au long de l’algorithme, et qu’elle est LLL-réduite quand il s’arrête. Il n’est pas clair qu’il s’arrête, ni a fortiori que ce soit un bon algorithme. Théorème 10.5 (Lenstra-Lenstra-Lovász). — C’est un bon algorithme. Démonstration (idée). — Soit Λi le réseau (de Ri ) engendré par (b1 , . . . , bi ). On note Y Y Di = q(b∗j ) = d(Λi )2 > 0, D := Di . j6i

i vi · (mi /2)i > vi · (mn /2)i , qui ne dépend que de i et de Λ, mais plus des (bi ). On en déduit que D est minoré par une constante strictement positive ne dépendant que du réseau, ce qui permet de borner le nombre d’échanges avant l’arrêt de l’algorithme. Reste à compter le nombre d’opérations et à estimer la taille de leurs opérandes en termes des données. Plus précisément : Théorème 10.6 (Nguyen-Stehlé [30]). — Soit Λ ⊂ Zd un réseau, donné par une famille génératrice de n vecteurs de longueur inférieure à B. Une base LLL-réduite de Λ se calcule en temps O(d4 n(d + log B) log B). 11. Factorisation dans C[X] Notre but est de calculer les plongements du corps de nombres K = Q[X]/(T ) ce qui revient à approcher les racines complexes de T . Les méthodes itératives de type Newton sont bien connues, mais il est difficile de garantir un temps d’exécution, ni l’exactitude du résultat en présence d’erreurs d’arrondi. J’en tire prétexte pour présenter l’utilisation d’algorithmes numériques (Newton, lemme chinois approché, intégration complexe par discrétisation, FFT, méthode de Graeffe) dans notre contexte algébrique. Les racines complexes sont une fonction continue du polynôme, mais le problème est déjà mal conditionné par rapport au polynôme lui-même : P = (x − 1/10)20 ,

et Pb = P − 10−20

coïncident jusqu’à 20 chiffres après la virgule, mais Pb admet la racine 0 qui est à distance 0.1 de l’unique racine de P . Dans le contexte de la résolution d’équations diophantiennes, il faut borner rigoureusement


la distance des racines approchées aux racines de P , et pouvoir la rendre arbitrairement petite. 11.1. L’algorithme de Schönhage. — On présente ici les grandes lignes de l’algorithme de Schönhage, développé par Gourdon [18]. Étant donné un polynôme P ∈ C[X] unitaire de degré n, et un paramètre d’erreur ε, l’algorithme retourne n complexes z1 , . . . , zn tels que |P − (X − z1 ) · · · (X − zn )| < ε |P | , où |·| est la norme L1 ; on en déduira un encadrement des racines au § 11.6. Ce type de résultat est particulièrement adapté au cas de données approchées : plutôt que d’estimer l’erreur commise sur le résultat, on estime la distance des données réelles à des données virtuelles qui produiraient ce résultat exact. C’est un bon algorithme, quoique assez technique : pour des raisons d’efficacité, les calculs sont approchés, et il faut démontrer de nombreux résultats de perturbation, ainsi qu’estimer au plus près de nombreux paramètres. Si P est de degré 1, il n’y a rien à faire. Sinon, l’algorithme détermine d’abord un cercle de séparation Γ, dont l’intérieur contient k < n racines de P , disons u1 , . . . , uk (idéalement k ≈ n/2 et Γ est éloigné des racines de P ), puis il approche les sommes de Newton associées : I 1 P 0 (z) m m m sm = u1 + · · · + uk = z dz, 1 6 m 6 k, 2iπ Γ P (z) par intégration numérique. Grâce aux formules de Newton, on reQ construit une valeur approchée F0 de F = i6k (X − ui ) à partir des valeurs approchées des si , et on applique récursivement l’algorithme à F0 et G0 = P/F0 qui approche G = P/F . Voici un exemple typique d’utilisation non triviale : soit T300 ∈ Z[X] le 300-ème polynôme de Chebyshev, de norme infinie ≈ 3 · 10113 , on veut les racines de T300 + i (toutes de module < 1, proches de l’axe réel). Le temps de calcul sur une machine à 1.6GHz est de ≈ 28 secondes pour 28 décimales garanties, ≈ 75 secondes pour 1000 décimales.

128

K. BELABAS

11.2. Itération de Newton-Schönhage. — En pratique, on applique une stratégie mixte : l’approximation grossière P ≈ F0 G0 est raffinée par une itération de Newton, fondée sur une nouvelle intégration complexe. Plus précisément, on cherche des termes correcteurs f et g tels que F1 = F0 + f et G1 = G0 + g soient de meilleures approximations que F0 et G0 , c’est-à-dire telles que P − F0 G0 = f G0 + gF0 (ce qui implique que P − F1 G1 = −f g est du second ordre). On peut obtenir f et g par l’algorithme d’Euclide, mais ce dernier est instable et difficile à contrôler numériquement. On introduit plutôt H, le représentant de degré minimal de l’inverse de G0 dans C[X]/(F0 ), qui existe puisque les racines de G0 sont à l’extérieur de Γ et celles de F0 à l’intérieur. Il suffit ensuite de poser f = HP mod F0 et de calculer G0 + g comme quotient de la division euclidienne de P par F0 + f . Au lieu de l’algorithme d’Euclide pour le calcul d’un inverse dans C[X]/(F0 ), on utilise la formule I 1 F0 (X) − F0 (z) 1 dz. H(X) = 2iπ Γ F0 G0 (z) X −z En effet, c’est bien un polynôme de degré < k = deg F0 et un calcul de résidu montre que H(z) = 1/G0 (z) si z est l’une des k racines de F0 à l’intérieur de Γ. Par intégration numérique, on obtient une approximation grossière H0 de H que l’on raffine par l’itération de Newton Hm+1 = Hm (2 − Hm G0 ) (mod F0 ), qui converge quadratiquement vers H. Cette dernière est un analogue de l’itération classique utilisée pour calculer l’inverse dans R, qui suit de la méthode de Newton appliquée à la fonction f (x) = x1 − y : (10)

xm+1 = xm −

f (xm ) = xm (2 − xm y). f 0 (xm )

11.3. Intégration numérique et FFT. — Par translation et homothétie, on ramène les intégrales sur Γ au cercle unité. On discrétise le cercle par les racines de l’unité d’ordre 2N et il suffit d’évaluer nos fractions rationnelles en ces points (et de borner l’erreur commise en fonction de la distance estimée de Γ aux racines de P ). On utilise la transformée de Fourier rapide (FFT, pour Fast Fourier Transform), qui permet d’évaluer un polynôme Q de degré n < 2N en toutes les racines 2N -èmes de l’unité en O(N 2N ) multiplications


au lieu de 22N par l’algorithme de Horner appliqué 2N fois. Soit Qpair (X 2 ) la partie paire de Q et XQimpair (X 2 ) sa partie impaire. La FFT vient de l’identité Q(ω j ) = Qpair (ω 2 )j + ω j Qimpair (ω 2 )j , qui ramène essentiellement le calcul d’une transformée de longueur L à deux transformée de longueur L/2. Ce type d’idées permet aussi de multiplier rapidement polynômes(5) et entiers (voir [17]), et peut être utilisé par les autres phases de l’algorithme, en particulier l’itération de Graeffe. 11.4. Le cercle de séparation. — Notons u1 , . . . , un les racines de P = an X n + · · · + a0 ordonnées par modules croissants et ρ1 (P ) 6 · · · 6 ρn (P ) leurs modules. On suppose n > 2. Pour déterminer un cercle Γ convenable, il suffit de savoir estimer les ρk (P ). En effet, par translation de vecteur an−1 /an , on place le barycentre des racines à l’origine. Par homothétie de rapport 1/ρn (P ) on ramène la racine de plus grand module au voisinage du cercle unité. Un petit dessin montre que l’un des 4 polynômes translatés P (X + λ), pour λ = ±2, ±2i vérifie ρn > 2, ρ1 6 2 − eiπ/4 , soit ρn /ρ1 > 1.35. On s’est donc ramené au cas où ρn /ρ1 n’est pas trop proche de 1. Le cercle Γ est centré en 0, reste à choisir son rayon R. La quantité intervenant dans les termes d’erreurs est δ tel qu’il n’y ait aucune racine de P dans la couronne Re−δ < |z| < Reδ , et il faut la maximiser. Si j maximise le rapport de deux modules consécutifs ρj+1 /ρj , √ on pose donc R = ρj ρj+1 . En pratique, on ne calcule pas tous les ρj , j 6 n, mais on utilise une dichotomie qui en calcule O(log n) pour produire un cercle de même qualité. 11.5. Estimation de ρk (P ), la méthode de Graeffe. — On note Graeffe(P) le polynôme Q tel que Q(X 2 ) = P (X)P (−X) : c’est un polynôme de même degré que P , dont les racines sont les carrés des racines de P . On construit une suite de polynômes (Pm ) par la récurP (m) rence P0 = P , Pm+1 = Graeffe(Pm ) et on écrit Pm = k6n ak X k . (5)

À partir de ses valeurs aux racines 2N -èmes de l’unité, on reconstruit un polynôme de degré < 2N par interpolation de Lagrange, qui est une transformée de Fourier inverse dans ce cadre.

130

K. BELABAS

On a (m)

ak

(m) an

m

X

=

(ui1 · · · uin−k )2 .

i1 0

où |si | 6 ρ−(n−k+i) # (jk+1 , . . . , jn ) ∈ Nn−k : jk+1 + · · · + jn = i . Ce dernier cardinal vaut n−k−1+i , mais la majoration triviale i (i + 1)n−k suffit. Supposons ρ > 2n, soit (i + 1)ρ−1 < 1 et |si | < ρ−i pour tout i < k 6 n. On a bk = ak et X X |bi | = sj ai−j 6 |ak | ρ−j < 2 |bk | ,

j

j6i

soit ρ = ρk (Q) 6 4 (Cauchy) et 4 > 2n. Contradiction. Lemme 11.3. — Soit P = a0 + · · · + an X n ∈ C[X], n > 1. On peut choisir r > 0 pour que Q = P (rX) = b0 + · · · + bn X n soit tel qu’il existe ` et h vérifiant ` < k 6 h,

|b` | = |bh | > |bj | ,

pour j 6 n.

En particulier 1 6 ρ` (Q) 6 ρk (Q) 6 ρh (Q) 6 2n. 2n Démonstration. — Soit C l’enveloppe convexe supérieure des points Mj = (j, log |aj |). On considère les j tels que Mj ∈ C et on choisit ` := le plus grand tel j < k, et h := le plus petit tel j > k. On choisit enfin r = |a` /ah |1/(h−`) . Les hypothèses du Lemme 11.2 sont donc vérifiées pour les indices ` et h et P = Q. Étant donné P ∈ C[X] non nul, un entier 1 6 k 6 n, et un paramètre d’erreur δ > 0, on veut déterminer un rayon R > 0 tel que Re−δ 6 ρk (P ) 6 Reδ . On définit les suites de polynômes Pm , Qm , par P0 = P,

Qm = Pm (rm X),

Pm+1 = Graeffe(Qm ),

132

K. BELABAS

où Qm , rm proviennent du Lemme 11.3 appliqué à P = Pm . Les racines de Qm sont les m

(ui /Rm )2 ,

1/2

Rm = r0 r 1

m

1/2 · · · rm .

L’inégalité 1 6 ρ`m (Qm ) 6 ρk (Qm ) 6 ρhm (Qm ) 6 2n, 2n donne m

m

Rm · (2n)−1/2 6 ρk (P ) 6 Rm · (2n)1/2 . Il suffit donc de choisir m tel que 2m > log(2n)/δ et de retourner R = Rm . 11.6. Encadrement des racines. — À partir de l’estimation |P − (X − z1 ) · · · (X − zn )| < εn , on peut estimer les racines (u1 , . . . , un ) de P par un argument d’homotopie : Théorème 11.4 (Ostrowski). — Soit ρ = max(1, |z1 | , . . . , |zn |). En réordonnant au besoin les ui , on a pour tout i 6 n, l’inégalité (1 − 4ρε) |ui − zi | < 4ρε. Démonstration. — Soit z une racine de Pb = (X − z1 ) · · · (X − zn ). Considérons la famille continue de polynômes Ht = tP + (1 − t)Pb, t ∈ [0, 1]. Par continuité des racines de Ht , il existe un chemin continu t 7→ dt tel que d0 = 0 et z + dt est racine de Ht pour tout t ; en particulier, z + d1 = u est racine de H1 = P . Ainsi b P (z + dt ) = t (Pb − P )(z + dt ) < εn (ρ + |dt |)n . Par continuité, |dt | prend au moins toutes les valeurs dans [0, |u − z|]. Par ailleurs, Y Y b |dt | − |z − zi | , |(z + dt ) − zi | > P (z + dt ) = i

i

soit, pour tout d ∈ [0, |u − z|], Y (d − |z − zi |) 6 εn (ρ + d)n 6 εn (ρ + |u − z|)n . i


D’après la propriété de minimax des polynômes de Chebyshev (Lemme 11.5), il existe d dans [0, |u − z|] tel que le membre de gauche soit > (|u − z| /4)n et le résultat suit. Lemme 11.5. — Soit Tn (X) (= cos(n arccos(X)) pour X ∈ [−1, 1]) le n-ème polynôme de Chebyshev et P l’ensemble des polynômes unitaires de R[X] de degré 6 n. Alors tn := 21−n Tn ∈ P et, pour tout P ∈ P, on a b−a n b−a n max |P (x)| > max |tn (x)| = 2 . 2 4 x∈[a,b] x∈[−1,1] Démonstration. — tn est le polynôme unitaire de degré n de plus petite norme uniforme sur [−1, 1], qui vaut 21−n (voir par exemple b−a [14, § 3.1]). Grâce à l’application linéaire x 7→ a+b 2 + x 2 de [−1, 1] dans [a, b], on écrit b − a n a + b max |Q(x)| , où Q(X) := P X+ . max |P (x)| = 2 a−b x∈[−1,1] x∈[a,b]

11.7. Factorisation dans R[X]. — Une factorisation approchée dans R[X] s’obtient à partir d’une factorisation dans C[X] suffisamment précise pour identifier les paires de racines conjuguées. Le cas particulier de la recherche de racines réelles d’un polynôme de R[X] est important, mais nettement plus simple puisque les méthodes de dichotomie sont directement disponibles (voir RouillierZimmermann [33]). L’algorithme de Sturm ([10, § 4.1]) fournit le nombre de racines réelles dans un intervalle ]a, b]. 12. Factorisation dans Qp [X] Nous examinons maintenant un algorithme numérique p-adique typique, fondé sur le lemme de Hensel. L’avantage sur les méthodes complexes est que les résultats de perturbations sont en général évidents, et qu’il n’y a pas d’erreur d’arrondi. Par contre, les divisions par p induisent une perte de précision, et le champ d’application est limité aux contextes algébriques. Le lemme de Hensel permet de relever une factorisation suffisamment précise pour être sans facteurs carrés. Comment obtenir cette

134

K. BELABAS

dernière ? On va déjà voir comment procéder modulo p, c’est-à-dire dans Fp [X], et considérer d’abord le cas particulier de la recherche de racines dans Fp . Ces méthodes s’adaptent sans mal au cas d’un corps fini Fq général, avec un petit effort supplémentaire en caractéristique 2. 12.1. Principe. — Pour factoriser un élément N d’un anneau euclidien R, on recherche (ou on fabrique) un diviseur de 0 dans R/(N ), c’est-à-dire un a non nul tel que ma soit non injective. Alors, si a relève a, d := pgcd(a, N ) est un facteur non trivial de N , fourni par l’algorithme d’Euclide. On invoque ensuite récursivement l’algorithme sur chacun des deux facteurs d et N/d. Par exemple, la plupart des méthodes modernes de factorisation dans Z construisent une identité x2 ≡ y 2 (mod N ), d’où on tire un diviseur de 0 potentiel x − y. (Les mauvais jours, x = ±y et on a travaillé pour rien.) 12.2. Racines dans Fp [X]. — Soit donc T ∈ Fp [X], qu’on peut supposer scindé à racines simples en le remplaçant par pgcd(T, X p − X) (§ 10.2). On pose n = deg T . On veut trouver un diviseur de 0 dans la Fp -algèbre Fp [X]/(T ) ' (Fp )n , dont tous les éléments vérifient Y 0 = xp − x = (x − i). i∈Fp

Calculer le produit partiel jusqu’à trouver 0 n’est pas un bon algorithme si n p : au pire p multiplications, pour une taille n log p. Si p = 2, cette méthode est satisfaisante. Sinon, on choisit x au hasard dans Fp [X]/(T ) ' (Fp )n et on écrit 0 = x(xt − 1)(xt + 1),

t := (p − 1)/2.

Si les trois termes sont non nuls, on a obtenu un diviseur de 0. Les mauvais cas correspondent à x = 0 (1 cas), xt − 1 = 0 (tn cas), ou xt + 1 = 0 (tn cas). On est donc malchanceux avec probabilité 1 + 2tn 1 1 6 n−1 6 , pn 2 2

si n > 2.

L’espérance du nombre d’essais avant de trouver un facteur de T est inférieure à 2 : c’est un bon algorithme.


12.3. Factorisation dans Fp [X]. — Soit T ∈ Fp [X], qu’on peut supposer sans facteurs carrés : si T 0 = 0, alors T = Q(X p ) = Q(X)p et on remplace T par Q, sinon D = pgcd(T, T 0 ) est un diviseur strict de T ; on remplace successivement T par T /D (sans facteurs carrés) puis D (de degré < deg T ). Soit φ l’endomorphisme de la Fp -algèbre Fp [X]/(T ) '

r Y

Fp [X]/(Ti ),

si T =

i=1

ap − a

r Y

Ti ,

i=1

)r .

donné par a 7→ et V := Ker φ ' (Fp Alors dimFp V = r est le nombre de diviseurs irréductibles de T . Si r = 1, T est irréductible ; sinon, soit α ∈ V r Fp et Pmin,α son polynôme minimal, qui est scindé à racines simples, de degré > 2 puisque α 6∈ Fp . Si z ∈ Fp est une des racines (§ 12.2), α − z est un diviseur de 0 de Fp [X]/(T ). 12.4. L’algorithme Round 4 Définition 12.1 – Un polynôme unitaire Q ∈ Zp [X] est de type Eisenstein si Q = bk + p(qb + r), où b, q, r ∈ Zp [X], b est irréductible modulo p, deg r < deg b et r est non nul modulo p. – Soit T ∈ Zp [X] unitaire ; on dit que α ∈ Qp [X] certifie (l’irréductibilité de) T si le polynôme caractéristique de α dans Qp [X]/(T ) est de type Eisenstein. Par exemple, un polynôme d’Eisenstein est de type Eisenstein avec b = X. Un polynôme de type Eisenstein est irréductible ; en effet, une décomposition serait de la forme T = (bk1 + pa1 )(bk2 + pa2 ), ce qui interdit r 6≡ 0 (mod p) si k1 k2 6= 0. Proposition 12.2 (Zassenhaus, cf. Ford-Pauli-Roblot [16]) (1) T est irréductible dans Qp [X] si et seulement s’il existe α ∈ Qp [X] certifiant T . (2) Supposons qu’il existe α dans la Qp -algèbre Qp [X]/(T ) dont le polynôme caractéristique Pchar,α appartient à Zp [X] et admet deux facteurs irréductibles distincts modulo p. Alors T est réductible dans Qp [X].

136

K. BELABAS

Démonstration (de (2)). — Soit α ∈ Qp [X] relevant α. Par le lemme de Hensel, on peut écrire Pchar,α = P1 P2 dans Zp [X]. Alors T = pgcd(T, P1 (α)) · pgcd(T, P2 (α)) est une décomposition non triviale.

La suffisance dans (1) est évidente : si T est réductible, l’algèbre Qp [X]/(T ) est une somme directe et les polynômes caractéristiques de tous ses éléments sont réductibles. La réciproque est plus technique (il faut étudier les extensions finies de Qp , en particulier les extensions non ramifiées), mais constructive. L’algorithme Round 4 (Zassenhaus) s’efforce de construire α certifiant T , en calculant successivement les chiffres de son développement p-adique. S’il échoue, il produit une factorisation dans Qp [X] comme indiqué dans la démonstration de (2), puis essaie récursivement de certifier les facteurs. L’algorithme précis est technique (voir [16]) : les calculs sont effectués à précision finie, c’est-à-dire dans Z/pk Z et non dans Zp . Donc il faut borner tous les dénominateurs susceptibles d’apparaître pour choisir une valeur de k suffisante pour maîtriser les erreurs d’arrondi.

13. Factorisation dans Q[X] 13.1. L’algorithme naïf. — Après ce qui précède, il suffit de connaître une borne sur la taille des facteurs pour obtenir un algorithme de factorisation dans Q[X]. Il y a plusieurs possibilités, par exemple [5, 29]. La plus simple est la suivante : Théorème 13.1 (Landau). — Si F ∈ C[X] est de degré m et A | F , alors kAk∞ 6 2m kF k2 . Q Démonstration. — On factorise F = am i6m (X − αi ) et on définit la mesure de Mahler : Y M (F ) = |am | |αi | . i : |αi |>1

La majoration kAk∞ 6 2m M (F ) suit de l’expression des coefficients de A comme fonction symétrique de ses racines (qui sont racines de F ). Un calcul immédiat montre que, pour tout α ∈ C et C ∈ C[X], les polynômes (X − α)C et (αX − 1)C ont même norme L2 . Donc F à


la même norme que |am |

Y

(X − αi )

i : |αi |>1

Y

(αi X − 1),

i : |αi |61

dont on minore la norme par la valeur absolue M (F ) de son coefficient constant. Soit M (F ) 6 kF k2 . Soit donc F ∈ Q[X] que l’on désire factoriser. On peut supposer successivement que F est dans Z[X], unitaire (par changement de variable ; le lemme de Gauss dit alors que ses facteurs unitaires sont dans Z[X]), et sans facteurs carrés. Le théorème fournit C > 0 tel que tous les diviseurs de F ont leurs coefficients dans [−C, C]. On cherche un premier p tel que F modulo p reste sans facteurs carrés dans Fp [X]. Il y a un nombre fini de premiers à éviter : les diviseurs du résultant de F et F 0 , qui est non nul(6) . On peut alors factoriser F dans Zp [X] grâce au lemme de Hensel (faible), c’est-à-dire écrire, r Y F ≡ Fi (mod pk Zp [X]). i=1

où les Fi ∈ Zp [X] sont irréductibles modulo p et connus modulo pk , et où on choisit k tel que pk > 2C. Q Les diviseurs de F dans Q[X] sont de la forme FS := i∈S Fi où cS ≡ FS (mod pk ), S ⊂ {1, . . . , r}. On calcule une approximation F cS ∈ Z[X], dont les coefficients sont dans ] − pk /2, pk /2]. D’après le F cS et il suffit théorème de Landau, FS ∈ Z[X] si et seulement si FS = F c de tester si FS divise F dans Z[X] pour le déterminer. Jusqu’à présent, tout ceci est un bon algorithme. Mais il reste 2r possibilités pour S, et il est facile de construire des exemples où√r > 1 2+ 2 deg F , quel que soit p. Par exemple, le polynôme minimal de √ √ 3 + · · · + pk , où pk est le k-ème nombre premier, est irréductible de degré 2k , définit une extension galoisienne de groupe de Galois (Z/2Z)k , et le théorème de Chebotarëv (Théorème 7.3) implique qu’il se décompose dans Fp [X] en produit de facteurs tous linéaires ou (6)

Mieux, il est bornée polynomialement en terme des données, il existe donc un petit nombre premier qui ne le divise pas : le théorème des nombres premiers P (Théorème 7.2 pour K = Q) implique que p6x log p ∼ x donc un entier divisible par tous les premiers < x est minoré par exp(x − o(x)).

138

K. BELABAS

tous quadratiques, avec probabilité 2−k et 1 − 2−k respectivement. Par contre, si le groupe de Galois d’un corps de décomposition K de F contient une classe de conjugaison favorable (un produit d’un petit nombre de cycles), et si ∆K est raisonnablement petit, le § 7.3 indique qu’on trouvera rapidement un premier p qui l’exhibe, ou bien un contre-exemple à GRH. 13.2. LLL et l’algorithme de van Hoeij. — Il existe un bon algorithme de factorisation dans Q[X], inconditionnel, qui est l’application originelle de l’algorithme LLL [27]. On considère un facteur c1 ∈ Z[X] de F1 , modulo pK , p-adique F1 de F , une approximation F et on cherche un facteur strict de F dans Z[X] que F1 divise. Pour ceci, on considère le réseau de Rdeg F −1 [X] ' Rdeg F engendré par n o n o c1 1, X, . . . , X deg F −deg F1 −1 ∪ pK 1, X, . . . , X deg F −1 , F qui contient tous les polynômes de Z[X] de degré < deg F qui sont multiples de F1 . Soit (bi ) une base LLL-réduite de ce réseau. Si pK est assez grand, on démontre que, soit pgcd(b1 , F ) est un facteur non trivial de F , soit ce dernier est irréductible dans Q[X]. L’algorithme de van Hoeij [22, 7] est un autre bon algorithme, qui utilise aussi LLL, mais sur un réseau plus agréable. On considère le morphisme injectif Φ : Qp (X)∗ /Q∗p −→ Qp (X) g0 g 7−→ F · g Si g appartient au sous-groupe Gp engendré par les Fi , alors Φ(g) ∈ Zp [X]. Si g appartient au sous-groupe G ⊂ Gp engendré par les facteurs dans Q[X], alors Φ(g) ∈ Z[X]. On détermine G à partir d’une base LLL-réduite du réseau engendré par les Φ(Fi ) (mod pK ) et les pK X i . Plus précisément, on dispose d’une borne sur kΦ(g)k∞ si g est un facteur de F dans Q[X] ; les vecteurs de la base trop longs pour provenir de tels facteurs rationnels sont éliminés ; si K est suffisamment grand, les éléments restants de la base sont les générateurs de Φ(G). On en déduit G, puis les facteurs. L’intérêt par rapport à l’algorithme précédent est qu’il existe une base LLL-réduite donnée par une matrice de changement de base U dont les coordonnées sont dans {0, 1} (ce sont essentiellement les εi


Q εi tels que Fi ∈ Z[X]). On peut espérer détecter ces vecteurs, ou l’irréductibilité, à une précision pK bien inférieure à la précision théorique. Ce que le premier algorithme a peu de chance de faire puisque, dans ce cas, les coefficients de U sont ceux d’un facteur, donc potentiellement gigantesques. 13.3. Factorisation dans K[X]. — Les idées du paragraphe précédent se généralisent à la factorisation dans K[X], où K = Q(θ) est un corps de nombres, ainsi d’ailleurs qu’a la factorisation dans k[X, Y ] où k est un corps tel que l’on dispose d’un algorithme de factorisation dans k[X], par exemple un corps fini. Une méthode plus simple pour factoriser F ∈ K[X], quoique moins efficace en général, se ramène au cas sans facteurs carrés en remplaçant F par F/ pgcd(F, F 0 ), puis considère Fλ = F (X + λθ) pour λ ∈ Z, et Q N(Fλ ) := σ σ(Fλ ) ∈ Q[X], où σ parcourt les plongements complexes de K. Pour tout λ sauf un nombre fini (et facilement borné), N(Fλ ) est san s facteurs carrés. On choisit un tel λ et on factorise N(Fλ ) = Q fi dans Q[X], où les fi sont irréductibles et distincts. Alors les facteurs irréductibles de F dans K[X] sont les pgcd(fi (X − λθ), F ) dans K[X]. Voir [10, § 3.6] pour une démonstration simple. C’est un bon algorithme si on utilise un bon algorithme de factorisation dans Q[X]. Contrairement aux apparences, ces calculs sont exacts : θ est une variable formelle, classe de Y modulo T (Y ) dans K = Q[Y ]/(T ) ; les pgcds se calculent donc par l’algorithme d’Euclide et N(Fλ ) = ResY (F (X + λY ), T (Y ) est un simple résultant. Grâce à ce qui précède, on peut maintenant – calculer Aut K (trouver les facteurs de degré un de T dans K[X]), – tester si K ⊂ L, plus précisément s’il existe un plongement de Q[X]/(T ) dans le corps de nombres L (T a-t-il une racine dans L[X] ?), – tester si K ' L (tester si deg T = dimQ L et appliquer le point précédent).

14. Ordres Il est difficile de calculer OK si on ne connaît pas la factorisation de ∆K . Or, la factorisation dans Z est difficile. Heureusement, pour

140

K. BELABAS

de nombreuses applications, on n’a pas besoin de OK , mais seulement d’un sous-anneau qui en est une approximation raisonnable. On peut citer la décomposition des nombres premiers, la factorisation dans K[X] donc les problèmes d’isomorphisme ou du sous-corps (a-t-on L ⊂ K ?), la détermination de l’ensemble des sous-corps, du groupe de Galois de K/Q... 14.1. Définition. — Un ordre (7) de K est un sous-anneau, donc contenant 1, qui est un Z-module de rang n = dimQ K (de façon équivalente, Frac O = K). Les ordres de K sont partiellement ordonnés par inclusion. Proposition 14.1. — L’anneau OK des entiers algébriques de K est son ordre maximal. Démonstration. — OK est un ordre. Soit O un ordre de K et α ∈ O. Alors Z[α] ⊂ O est de type fini, donc α est entier. En un certain sens, la notion d’ordre est duale de celle de localisé : un ordre est un sous-anneau de OK de type fini comme Z-module, mais non intégralement clos (si O ( OK ). Un localisé S −1 OK = {a/s : a ∈ OK , s ∈ S} est un sur-anneau intégralement clos, non de type fini (si S 6⊂ U (K)). Dans le langage de la géométrie algébrique, cette notion correspond à celle de courbe singulière : sur la courbe (spec O, O), un nombre fini de localisés Op ne sont pas des anneaux de valuation discrète. Les ordres non maximaux sont de braves anneaux intègres (noethériens, de dimension 1) de corps de fractions K, mais ils gardent des comportement pathologiques par rapport à l’anneau de Dedekind OK . Par exemple, la norme N a := O/a d’un idéal non nul est bien définie mais n’est plus multiplicative, il existe des idéaux non inversibles, a ⊂ b n’implique pas b | a (il existe un O-idéal c tel que a = bc). 14.2. Construction. — L’intérêt de la notion est qu’il est facile de construire des ordres. Par exemple, si T ∈ Z[X] est unitaire, alors

OT := 1, θ, . . . , θn−1 Z = Z[θ] (7)

Introduit par Dedekind (Ordnung) comme anneau de stabilisateurs (A : A) d’un Z-module de type fini A. Généralise la notion introduite par Gauss pour les formes quadratiques binaires de discriminant fixé (ordo,-inis = rangée, file).


est un ordre. Plus généralement. Théorème 14.2 (Dedekind). — Soit T (X) = a0 X n + · · · + an ∈ Z[X] ; on définit une suite (Ti ) de polynômes de degré i < n : T0 := a0

et

Ti+1 := XTi + ai+1 , pour 0 6 i < n.

Alors OT := h1, T1 (θ), . . . , Tn−1 (θ)iZ est un ordre. La suite (Ti ) est un schéma d’évaluation de Horner pour T , en particulier Tn = T . Si a0 = ±1, on retrouve l’exemple précédent. Démonstration. — Posons ti := Ti (θ) pour 0 6 i 6 n. Pour 1 6 i 6 j < n, on a ti tj = (θti−1 + ai )tj = ai tj + ti−1 (tj+1 − aj+1 ) ≡ ti−1 tj+1

mod O.

En itérant, on se ramène au cas de ti tn ou t0 tj ; le premier est nul, le deuxième égal à a0 tj ∈ O. Donc ce Z-module de rang au plus n est un anneau. Il contient a0 θ, donc on a bien Frac O = K. Plus généralement, les ordres apparaissent comme « anneaux de stabilisateurs ». Si A et B sont deux sous-Z-modules de K, on note (A : B) := {α ∈ K, αB ⊂ A} , appelé transporteur de B dans A, ou « A divisé par B ». C’est un Z-module. Si O = OK est de Dedekind, et a, b sont des idéaux fractionnaires, on a (a : b) = ab−1 . Proposition 14.3. — Si A ⊂ K est un Z-module de rang n, O = (A : A) est un ordre. Démonstration. — C’est évidemment un anneau. Tout α ∈ O est entier (A est un Z-module de type fini tel que αA ⊂ A !), donc O ⊂ OK est de type fini. Comme OK A est de type fini et A contient une Q-base de K, il existe d ∈ N>0 tel que dOK A ⊂ A, donc O ⊃ dOK est de rang n.

Exemple. — On pose A := 1, θ, . . . , θn−1 Z (6= Z[θ] si T n’est pas unitaire !). Alors (A : A) = OT /δ , où δ est le pgcd des coefficients de T .

142

K. BELABAS

14.3. Manipulation des ordres, dénominateurs. — Un ordre O est donné par une base (wi ) et la table de multiplication corresponP dante wi wj = ai,j,k wk , où ai,j,k ∈ Z. On donne un élément de O par ses coordonnées dans la base (wi ), un sous-Z-module de O par une Z-base, c’est-à-dire par une matrice à coefficients entiers. Si on veut une représentation unique, la HNF donne une base canonique ((wi ) étant fixée). Pour représenter x ∈ K, on choisit un entier d ∈ N>0 , unique si on l’impose minimal, tel que dx ⊂ O, et on est ramené au cas précédent. Un sous Z-module de type fini M de K, par exemple un idéal fractionnaire, se manipule de même. Jusqu’à présent, avec l’écriture K = Q[X]/(T ), T unitaire, nous avons ainsi utilisé l’ordre O = OT , qui admet la représentation alternative économique Z[X]/(T ). Choisir un autre ordre que OT est souvent plus flexible. Par exemple, pour calculer OK (§ 15.1). Pour minimiser les dénominateurs, on choisit O = OK , qui n’est en général pas de la forme OT (§ 15.4). Si on exprime α ∈ OK dans une Z-base de O, son dénominateur divise l’exposant du groupe additif OK /O. 15. L’ordre maximal OK Définition 15.1. — Soit m un entier. Un ordre O ⊂ OK est dit mmaximal si m et l’indice [OK : O] sont premiers entre eux. Le calcul de OK est un problème local : à partir d’un ordre O, il suffit de calculer un ordre p-maximal Op ⊃ O pour chaque p premier, P et OK = p Op (puisque ce dernier est un ordre p-maximal pour tout p). On peut prendre Op = O si p2 - ∆O (Proposition 5.7), donc il n’y a qu’un nombre fini de premiers à traiter. D’un point de vue algorithmique, la vraie obstruction est globale : Théorème 15.2 (Chistov). — Les deux problèmes suivants sont de même difficulté : – étant donné un corps de nombres K, trouver OK , – étant donné un entier D, trouver le plus grand entier d | D qui soit sans facteurs carrés. Le deuxième problème est actuellement aussi difficile que la factorisation dans Z, donc calculer OK est difficile. Pour la même raison, tester si un ordre donné est maximal est difficile : il faut décider si


un entier est sans√facteurs carrés. Pour s’en convaincre, considérer le √ cas particulier Z[ D] ⊂ Q( D). Examinons maintenant le problème local. 15.1. L’algorithme Round 2. — Soit O un ordre et p un nombre premier. On désire calculer l’ordre p-maximal R, O ⊂ R ⊂ OK , tel que [R : O] soit une puissance de p. Explicitement R := {x ∈ OK , pn x ∈ O pour n 1} . On note Ip = rad(pO) l’idéal radical de pO : par définition Ip /pO est le nilradical (l’idéal des nilpotents) de l’anneau fini O/pO et Ip en est le relèvement dans O. C’est aussi l’intersection des idéaux premiers de O contenant p, \ Y Ip := p= p. p : p∈p

p : p∈p

Ces idéaux premiers sont en nombre fini et ils sont maximaux (dans O). Proposition 15.3. — Il est facile de calculer Ip . Démonstration. — Si t est un entier tel que pt > n = dimQ K, alors O/pO est un Fp -ev de dimension n et Ip /pO est le noyau(8) de l’apt plication Fp -linéaire x 7→ xp . L’algorithme Round 2 est un bijou, issu du théorème suivant : Théorème 15.4 (Zassenhaus). — Soit O0 := (Ip : Ip ). L’ordre O est p-maximal si et seulement si O = O0 . Dans le cas contraire, on a p | [O0 : O] | pn . (8)

Si p > n, c’est aussi le noyau de O/pO −→ Hom(O/pO, Fp ) x 7−→ (y 7→ Tr(xy))

Démonstration. — Soit u un endomorphisme d’un Fp -ev de dimension finie n 1, alors u est nilpotent (formules de Newton + CayleyHamilton par exemple). Donc un élément du noyau appartient à Ip (en choisissant y = 1, x, x2 , . . . ). Réciproquement, un nilpotent est de trace nulle. Cette deuxième description est préférable quand p est grand : on supprime le coût de la mise à la puissance p.

144

K. BELABAS

Idée. — On veut vérifier que les maximaux contenant p sont inversibles ; il suffit de vérifier que leur produit l’est. Démonstration. — O0 est un ordre contenant O (car Ip est un Oidéal, Proposition 14.3) ; comme p ∈ Ip , on obtient pO0 ⊂ Ip ⊂ O donc [O0 : O] | pn . D’où O = O0 si O est p-maximal. Réciproquement, si O = O0 , soit R l’ordre p-maximal contenant O du début de la section. Comme Ip et R sont de type fini, on a Ipm ⊂ pO et pm R ⊂ O pour m 1. Donc RIpm ⊂ O pour m assez grand. Par l’absurde, supposons qu’il existe m > 0 tel que RIpm 6⊂ O et choisissons m maximal, puis α ∈ RIpm r O. Alors αIp ⊂ O et donc αIp ⊂ Ip (comme Ip est de type fini, il existe k tel que Ipk ⊂ pO), soit α ∈ (Ip : Ip ) = O0 = O. Absurde. L’algorithme de normalisation est immédiat : on part de O = OT ; on calcule Ip /pO et on remplace O par O0 := (Ip : Ip ) tant que O = 6 O0 . C’est un bon algorithme, qu’on applique à tous les p premiers tels que p2 | ∆O . À condition de les connaître ! Il est remarquable que l’on puisse remplacer p par un entier m sans facteurs carrés arbitraire (Buchmann-Lenstra [9]). Soit l’algorithme rencontre une impossibilité qui exhibe un facteur de m (un élément non nul mais non inversible de Z/mZ), soit il produit un ordre mmaximal. 15.2. Le cas particulier de OT . — Pour chaque premier p, la première étape de l’algorithme Round 2 se traduit plus efficacement par (revoir le Théorème 4.10) : Théorème 15.5 (Dedekind). — Soit K = Q(X)/(T ), T ∈ Z[X] unitaire et θ = X (mod T ), tel que Y e T ≡ Pi i (mod pZ[X]), i

où les Pi sont unitaires, irréductibles et 2 à 2 distincts modulo p. Soit Y Y e −1 f := Pi , g := Pi i , h := (T − f g)/p ∈ Z[X]. Soit δ := pgcd(f , g, h) dans Fp [X], et U un relèvement de T /δ, alors U (θ) OT . p En particulier, OT est p-maximal si et seulement si δ = 1. O 0 = OT +


Démonstration. — On trouve Ip = pOT + g(θ)OT , et on explicite le calcul de (Ip : Ip ). Corollaire 15.6. — Si T = bk + p(qb + r) est de type Eisenstein, alors OT est p-maximal. Démonstration. — f = b, g = bk−1 , h = qb + r. On a pgcd(f , g, h) = (b, r) = 1. 15.3. L’algorithme Round 4. — Round 2 nécessite quand même la manipulation de matrices n × n × n (§ 14.3) et de nombreuses itérations quand vp ([OK : O]) est grand ([O0 : O] | pn , donc la valuation de l’indice diminue au plus de n à chaque itération). En pratique, on utilise un autre algorithme de normalisation locale, lié à la factorisation dans Qp [X] par l’algorithme Round 4. Par rapport à Round 2, il est d’autant plus intéressant que n ou vp ([OK : O]) est grand, mais de description moins attrayante. Je ne sais pas si l’on peut obtenir les même garanties pour Round 4 que pour l’algorithme Round 2 modifié par Buchmann et Lenstra, où p est remplacé par m sans facteurs carrés. C’est probable. On utilise la généralisation suivante du Théorème 4.10, auquel il se réduit si T est sans facteurs carrés modulo p : Théorème 15.7. — Soit T ∈ Z[X] unitaire irréductible dans Q[X]. Soit T = F1 · · · Fg la factorisation de F en produit de polynômes unitaires irréductibles dans Zp [X] (ils sont distincts), et αi ∈ Qp [X] certifiant Fi pour i = 1, . . . , g. Soit pd un dénominateur commun aux αi ; pour x ∈ Qp [X], on définit une approximation x b ∈ Q[X] telle d+1 que x − x b ∈ p Zp [X] et sa projection x dans Q[X]/(T ). Alors, pour tout i, – Fi ≡ tei i (mod pZp [X]), où ti est irréductible modulo p, – pi = pOK + ti (αi )OK est maximal, – les pi sont distincts, on a e(pi /p) = ei , f (pi /p) = deg ti et e

pOK = pe11 · · · pgg . Pg Soit ε1 , . . . , εg les idempotents orthogonaux associés : si i=1 ai · (T /Fi ) = 1 est une relation de Bezout dans Qp [X], on pose εi =

146

K. BELABAS

ai · (T /Fi ) ; alors Op :=

g X

εi Z[αi ]

i=1

est p-maximal. 15.4. Diviseurs inessentiels. — En changeant T , on espère obtenir un ordre OT qui soit p-maximal. Hélas, dès que n > 3, il peut exister des diviseurs inessentiels (9) p du discriminant tels que p | [OK : OT ] pour tout T tel que p - a0 (ou, de façon équivalente, pour T unitaire) : Théorème 15.8 (Hensel). — Soit p un nombre premier fixé. On note – r(f ) le nombre de p | p de degré résiduel f . – i(f ) le nombre de P ∈ Fp [X] irréductibles unitaires de degré f . Alors p est diviseur inessentiel si et seulement s’il existe f tel que r(f ) > i(f ). Démonstration. — La condition est suffisante d’après le critère de Kummer (Théorème 4.10). La réciproque est un calcul local assez précis (fait dans Hasse [20]). Corollaire 15.9. — Si p est diviseur inessentiel, alors p < n = dimQ K. Démonstration. — D’après (8), f · r(f ) 6 n. D’autre part, soit X I := f · i(f ) = µ(f /d)pd . d|f

On a I > 0 et I est divisible par p, donc I > p. (Si on ne veut pas utiliser l’existence de Fpf , on peut se contenter de I > 0, I ≡ pd (mod pd+1 ), d minimal tel que f /d soit sans facteurs carrés, qui donne I > pd .) Exemple. — si n = 3, seul 2 peut être diviseur inessentiel. En fait, il l’est si et seulement si 2OK = p1 p2 p3 , où e(pi /2) = f (pi /2) = 1 pour i = 1, 2, 3. On trouve facilement des exemples de ce phénomène (9)

Dedekind écrit ausserwesentlich (= d’essence extérieure), Bourbaki (mal inspiré) « facteurs extraordinaires » dans ses notes historiques. La littérature se partage entre diviseurs essentiels ou inessentiels... pour la même notion.


en utilisant le Théorème 15.7 : par exemple K = Q[X]/(T ) où T = x3 − x − 8 = x(x − 1)(x + 1) + 8. 15.5. Valuations. — L’algorithme Round 4 (§ 15.3 et Théorème 15.7) fournit simultanément la factorisation de T dans Qp [X], un ordre p-maximal O de Q[X]/(T ), et la décomposition de pO en produit d’idéaux maximaux donnés sous la forme p = pO + πO. Proposition 15.10. — Si x ∈ K ∗ , il est facile de calculer v = vp (x). Démonstration. — On peut supposer x ∈ O, x 6= 0. Il suffit alors d’appliquer la définition : v = max {w : x ∈ pw }. Une variante plus agréable utilise l’écriture p = pO + πO : la multiplication par π dans la Fp -algèbre O/pO n’est pas injective (son image est p/pO qui est de codimension f (p/p) > 1). Soit τ0 ∈ O r pO un relèvement d’un élément non-trivial de son noyau et τ := τ0 /p. Alors v = max {w, τ w x ∈ O} ; en effet, vp (τ ) = −1 et vq (τ ) > 0 pour tout q 6= p. La valuation d’un idéal se calcule comme le min des valuations de ses générateurs. 15.6. L’algorithme Polred. — Un corps de nombres K = Q[X]/(T ) est représenté par une infinité de polynômes T ∈ Z[X] différents. Certains d’entre eux sont plus agréables que d’autres. L’algorithme Polred (Polynomial Reduction) de Cohen et Diaz y Diaz essaie de trouver un joli polynôme T définissant le même corps. Il calcule une base LLL-réduite (bi ) du réseau (OK , T2 ) et teste si l’un des bi est primitif en vérifiant si leur polynôme caractéristique est sans facteurs carrés. Soit α = A(X) mod T dans K. Son polynôme caractéristique se calcule comme un résultant Pchar,α (Y ) = ResX (T (X), Y − A(X)), ou comme produit des Y − σi (α), où les σi sont les plongements complexes de K. Polred peut échouer : il arrive qu’aucun des bi ne soit primitif, auquel cas on considère de petites combinaisons linéaires des bi . En cas de succès, il fournit un polynôme T engendrant le même corps K, dont les racines sont petites ; ainsi donc que ses coefficients. Remarquons qu’en cas d’échec, Polred fournit des sous-corps de K.

148

K. BELABAS

15.7. Réduction LLL. — Soit A un idéal fractionnaire non nul. Le premier vecteur d’une base LLL-réduite du réseau (A, T2 ) est un α ∈ A de norme relativement petite. On récrit A = (α)(A/α) = (a)(α)a, où a est entier et primitif, α ∈ OK et a ∈ Q∗ . Ces trois composantes dépendent de la variante de l’algorithme LLL utilisé mais Proposition 15.11. — N a est bornée par une constante ne dépendant que de K. Démonstration. — Corollaire 5.8 (Minkowski) et Proposition 10.4 (LLL). En particulier, un produit quelconque d’idéaux se simplifie sous la forme (α)a, où α est un produit d’éléments de K ∗ , que l’on peut développer si nécessaire, et a est un petit idéal entier. Il est préférable Q de conserver α sous forme de produit formel : on écrit α = xei i ∈ Z[K ∗ ]. Par exemple, méditer sur les 30103 chiffres décimaux de la représentation développée des 7 caractères « 2100000 ». Dans l’essentiel des applications, on n’utilisera pas α mais sa projection sur un domaine où les calculs sont plus simples : K ⊗ R, K ⊗ Qp , (OK /f)∗ , K ∗ /(K ∗ )` ... On en verra un exemple au § 16.5. 16. Groupe de classes et unités Dans cette section, on suppose connu l’ordre maximal OK . On peut définir Cl(O) et O∗ pour un ordre quelconque, mais en rajoutant des difficultés techniques sans éclaircir le problème initial. Pour montrer que Cl(K) est calculable en principe, il ne suffit pas d’invoquer la borne de Minkowski (Corollaire 5.8). Il manque une procédure effective pour décider si deux idéaux sont équivalents. « Factoriser suffisamment d’idéaux principaux » n’est pas recevable... 16.1. Calculabilité. — Pour toute place p de K, on note |.|p la valeur absolue normalisée associée. Soit S∞ l’ensemble des places archimédiennes de K et S ⊃ S∞ un ensemble fini de places. 1/2

Théorème 16.1 (Lenstra [28]). — Soit d := (2/π)r2 ∆K , S0 := {p, Np 6 d} et S := S∞ ∪ S 0 . Alors le groupe US (K) est engendré par α ∈ US (K), H(α) 6 d2 , et Cl(K) est engendré par les classes des éléments de S0 .


La calculabilité de U (K) et Cl(K) se déduit de la suite exacte : f g 0 −→ U (K) −→ US (K) −−→ ZS0 −−→ Cl(K) −→ 0, Q où f : α 7→ (vp (α))p∈S0 et g : (ep ) 7→ p pep . L’exactitude provient du théorème et il suffit de calculer noyau et conoyau de f , en commençant par construire une Z-base de US (K) grâce au Théorème 16.1. La démonstration est élémentaire, fondée sur le théorème de Minkowski ; l’assertion sur les générateurs de Cl(K) est immédiate car plus faible que celle du Corollaire 5.9. À première vue, ce théorème est un peu surprenant si r1 +r2 > 1 (c’est-à-dire U (K) 6= µ(K)) : on s’attend √ à ce que le régulateur R(K) de K soit souvent de la taille de ∆K d’après Brauer-Siegel (Théorème 7.6) et les heuristiques de CohenLenstra-Martinet (§ 6.3) qui prédisent que h(K) est « fréquemment » petit. Donc certains plongements des unités fondamentales devraient √ être de l’ordre de exp( ∆K /n), quelle que soit la Z-base choisie pour U (K)/µ(K). Par exemple, il est bien connu que l’unité fondamentale d’un corps quadratique peut devenir gigantesque, voir le célèbre problème des Bœufs d’Archimède. L’astuce consiste à considérer un système non minimal de générateurs. Ce n’est pas un bon algorithme, car US (K) est beaucoup trop gros : son rang est exponentiel en log ∆K . En pratique, on utilise le principe du calcul d’indice. 16.2. Calcul d’indice. — Pour calculer un groupe abélien fini M par générateurs et relations, la méthode de calcul d’indice nécessite quatre ingrédients : – Un Z-module libre A0 dont M est un quotient 0 −→ Λ0 ? −→ A0 −→ M −→ 0 (le noyau Λ0 est inconnu). – Un sous-groupe de type fini A ⊂ A0 , muni d’une Z-base B, dont M reste un quotient : 0 −→ Λ0 ∩ A =: Λ? −→ A = ZB −→ M −→ 0 (le noyau Λ est inconnu). Un élément de Λ0 appartenant à Λ est dit friable, B est une base de factorisation.

150

K. BELABAS

– Un moyen de produire des éléments « bien répartis » dans Λ0 , puis de les plonger dans ZB s’ils appartiennent à Λ (factorisation des éléments friables). – Une évaluation grossière H de h := #M = [A : Λ], telle que H < 2h. L’algorithme probabiliste suivant détermine alors M : produire des b ⊂ Λ, jusqu’à ce que éléments de Λ, engendrant un sous groupe Λ b b 6 H < 2h, h := [A : Λ] ce qui entraîne b h = h puisque b h est un multiple entier de h, et donc b Λ = Λ. On en déduit la structure de M = ZB /Λ en calculant la SNF de Λ (Lemme 10.1) : M = ⊕(Z/di Z)gi ,

d1 | d 2 | . . . ,

gi ∈ A.

La solution du logarithme discret dans A, c’est-à-dire l’écriture d’un élément de M comme produit des gi et d’un élément de Λ est une généralisation simple que l’on considérera ultérieurement. 16.3. Adaptation au cas M = Cl(K), sous GRH. — Pour calculer Cl(K) et U (K) en un temps raisonnable, on admet GRH pour pouvoir utiliser la borne de Bach (Théorème 7.5). On pose donc B := p, N p 6 12(log ∆K )2 , qui engendre Cl(K) et remplace l’ensemble S0 de Lenstra. Même sous ces hypothèses fortes, la complexité des algorithmes est au mieux sous-exponentielle en log ∆K , et reste heuristique. Elle n’est démontrée, sous GRH, que pour K quadratique imaginaire (HafnerMcCurley [19]). La complexité n’est pas seule en jeu : si GRH est fausse, le résultat obtenu peut l’être aussi. Tous les algorithmes permettant de le vérifier inconditionnellement sont exponentiels. b On étend l’idée du calcul d’indice en calculant simultanément Λ b de U = U (K). On désire calcucomme ci-dessus et un sous-groupe U ler M := Cl(K), – A0 est le groupe des idéaux fractionnaires de K, – On produit des élément de Λ0 de petite norme dans OK en utilisant la réduction § 15.7 sur un produit aléatoire d’éléments de B : si le petit représentant de sa classe d’idéaux est friable, on obtient une


relation. Le test de friabilité et la factorisation d’un élément friable s’effectue par divisions successives par les éléments de B. – On calcule une approximation numérique du produit hR, par un produit eulérien tronqué convergeant vers le résidu en s = 1 de ζK : Y hR (1 − p−1 ) ζK Q (1) = 2r1 (2π)r2 √ −→ −1 ) ζ (1 − N p w ∆K p|p p6Y Toujours sous GRH, l’approximation obtenue pour Y = O(log ∆K )2 est suffisamment précise. – Dans la formule du résidu, ∆K est connu puisque OK l’est, (r1 , r2 ) se calcule avec l’algorithme de Sturm (§ 11.7), et w en énumérant les points tels que T2 (x) = n (Théorème 5.5) ou en testant l’inclusion de corps cyclotomiques Q(ζm ) dans K pour des valeurs convenables de m (§ 13.3). b découvertes au moment du calLes dépendances entre éléments de Λ, b se traduisent par des identités entre idéaux principaux cul de [A : Λ], (α) = (α0 ). On en déduit des unités u := α/α0 ∈ U ; ces éléments u b de U . Soit R b le régulateur de U b , qui engendrent un sous-groupe U est un multiple entier du régulateur R ; tout comme ci-dessus, lorsque b alors U = U b et Λ = Λ, b d’où on tire Cl(K). hR < 2b hR, Pour obtenir des générateurs (gi ) explicites, il faut conserver les matrices de changement de base associées à toute cette algèbre linéaire. On obtient les gi sous forme factorisée dans ZB , ce qui est une présentation compacte agréable. On peut la développer en utilisant la technique du § 15.7 pour obtenir de petits représentants de leurs classes d’idéaux. D’après la discussion qui suit le Théorème 16.1, la taille de l’écriture naïve de générateurs de U (K) comme éléments de Q[X]/(T ) est a priori exponentielle. Dans l’algorithme ci-dessus, les unités sont obtenues elles-aussi comme produit de S-unités, qui n’appartiennent pas à U (K) individuellement. Cette présentation compacte des unités est de taille raisonnable. 16.4. Logarithme discret. — Nous pouvons donc calculer Cl(K) = ⊕(Z/di Z)gi , où l’on sait exprimer les gi comme produits d’éléments de B, ou comme petit idéal, à un idéal principal explicite près. Réciproquement

152

K. BELABAS

on peut exprimer un élément de B en terme des gi . Soit maintenant un idéal a ; on veut calculer son logarithme discret dans Cl(K), c’estQ Q à-dire (ei ) ∈ i (Z/di Z) et τ ∈ K ∗ , tels que a = (τ ) giei . – Pour calculer les (ei ), multiplier a par des produits aléatoires d’idéaux de B et LLL-réduire le résultat, jusqu’à ce que la composante non principale soit friable. À un idéal principal près, on sait alors exprimer a comme produit d’éléments de B, donc des gi . Q – Calculer a gi−ei sous la forme (β)B, β ∈ Z[K ∗ ] (§ 15.7). Puis réaliser le petit idéal principal B comme (γ), en utilisant la même méthode que ci-dessus, mais cette fois-ci en accumulant les idéaux principaux rencontrés. On pose τ := βγ ∈ Z[K ∗ ]. 16.5. Application : entiers de norme donnée. — Soit a ∈ Z, a 6= 0, et soit à résoudre l’équation N(x) = a, x ∈ OK . C’est une P équation diophantienne en les xi ∈ Z, si on exprime x = ni=1 xi wi , dans une Z-base (wi ) de OK . Par exemple x2 − 2y 2 = −1 est de cette forme. Il suffit de chercher les solutions modulo les unités de norme 1. On détermine d’abord s’il existe une unité de norme −1, en considérant successivement les générateurs de U (K). Remarquons que la présenQ tation compacte u = xei i ∈ Z[K ∗ ] permet de tester le signe de N(u) à faible coût : il est donné par la parité du nombre de plongement réels σ de K tels que σ(u) < 0 (la norme est le produit des plongements, le produit de deux plongements complexes conjugués est > 0). Ce signe se détecte à partir de valeurs approchées des σ(xi ) associés aux ei impairs. En factorisant |a| en produit de nombres premiers, puis en décomposant ceux-ci dans K/Q, on détermine l’ensemble (fini) des idéaux entiers de norme |a|. Pour un tel idéal a, on teste s’il est principal ; si a = (α), on teste si a N(α) > 0, comme indiqué ci-dessus. Sinon, N(α) = −a et s’il existe une unité u de norme −1, on corrige α ← uα.


Références [1] L.M. Adleman & H.W. Lenstra, Jr. – « Finding irreducible polynomials over finite fields », 18th ACM Symposium on Theory of Computing (1986), p. 350–355. [2] M. Agrawal, N. Kayal & N. Saxena – « Primes is in P », Ann. of Math. (2) 160 (2004), no. 2, p. 781–793. [3] A.V. Aho, J.E. Hopcroft & J.D. Ullman – The design and analysis of computer algorithms, Addison-Wesley, 1975, Second printing. [4] E. Bach – « Explicit bounds for primality testing and related problems », Math. Comp. 55 (1990), no. 191, p. 355–380. [5] B. Beauzamy – « Products of polynomials and a priori estimates for coefficients in polynomial decompositions : a sharp result », J. Symbolic Comput. 13 (1992), no. 5, p. 463–472. [6] K. Belabas – « Topics in computational algebraic number theory », J. Théor. Nombres Bordeaux 16 (2004), p. 19–63. [7] K. Belabas, M. van Hoeij, J. Klüners & A. Steel – « Factoring polynomials over global fields », preprint. [8] E.R. Berlekamp – « Factoring polynomials over large finite fields », Math. Comp. 24 (1970), p. 713–735. [9] J. Buchmann & H.W. Lenstra, Jr. – « Approximating rings of integers in number fields », J. Théor. Nombres Bordeaux 6 (1994), no. 2, p. 221–260. [10] H. Cohen – A course in computational algebraic number theory, 3e éd., Springer-Verlag, 1996. [11] H. Cohen & H.W. Lenstra, Jr. – « Heuristics on class groups of number fields », in Number theory, Noordwijkerhout 1983, Lecture Notes in Math., vol. 1068, Springer, Berlin, 1984, p. 33–62. [12] H. Cohen & J. Martinet – « Études heuristiques des groupes de classes des corps de nombres », J. reine angew. Math. 404 (1990), p. 39–76. [13] H. Davenport & H. Heilbronn – « On the density of discriminants of cubic fields (II) », Proc. Roy. Soc. Lond. A 322 (1971), p. 405–420. [14] J.-P. Demailly – Analyse numérique et équations différentielles, Presses Universitaires de Grenoble, 1996. [15] J. Ellenberg & A. Venkatesh – « The number of extensions of a number field with fixed degree and bounded discriminant », Annals of Math, to appear. [16] D. Ford, S. Pauli & X.-F. Roblot – « A fast algorithm for polynomial factorization over Qp », J. Théor. Nombres Bordeaux 14 (2002), no. 1, p. 151–169. [17] J. von zur Gathen & J. Gerhard – Modern computer algebra, Cambridge University Press, New York, 1999.

154

K. BELABAS

[18] X. Gourdon – « Algorithmique du théorème fondamental de l’algèbre », Rapport de recherche 1852, INRIA, 1993. [19] J.L. Hafner & K.S. McCurley – « A rigorous subexponential algorithm for computation of class groups », J. Amer. Math. Soc. 2 (1989), no. 4, p. 837–850. [20] H. Hasse – Zahlentheorie, Akademie-Verlag GmbH, 1949. [21] P. Henrici – Applied and computational complex analysis, WileyInterscience [John Wiley & Sons], New York, 1974, Volume 1 : Power series—integration—conformal mapping—location of zeros, Pure and Applied Mathematics. [22] M. van Hoeij – « Factoring polynomials and the knapsack problem », J. Number Theory 95 (2002), no. 2, p. 167–189. [23] J.C. Lagarias, H.L. Montgomery & A.M. Odlyzko – « A bound for the least prime ideal in the Chebotarev density theorem », Invent. Math. 54 (1979), no. 3, p. 271–296. [24] J.C. Lagarias & A.M. Odlyzko – « Effective versions of the Chebotarev density theorem », in Algebraic number fields : L-functions and Galois properties (Proc. Sympos., Univ. Durham, Durham, 1975), Academic Press, London, 1977, p. 409–464. [25] S. Lang – Algebraic number theory, 2e éd., Graduate Texts in Math., vol. 110, Springer-Verlag, New York, 1994. [26] A.K. Lenstra & H.W. Lenstra, Jr. (éds.) – The development of the number field sieve, Lecture Notes in Math., vol. 1554, Springer-Verlag, Berlin, 1993. [27] A.K. Lenstra, H.W. Lenstra, Jr. & L. Lovász – « Factoring polynomials with rational coefficients », Math. Ann. 261 (1982), no. 4, p. 515–534. [28] H.W. Lenstra, Jr. – « Algorithms in algebraic number theory », Bull. Amer. Math. Soc. (N.S.) 26 (1992), no. 2, p. 211–244. [29] M. Mignotte – « An inequality about factors of polynomials », Math. Comp. 28 (1974), p. 1153–1157. [30] P. Nguyen & D. Stehlé – « Floating point LLL revisited », proceedings of Eurocrypt’05, to appear. [31] J. Oesterlé – « Le problème de gauss sur le nombre de classes », Enseign. Math. 34 (1988), p. 43–67. [32] C.H. Papadimitriou – Computational complexity, Addison-Wesley, 1994. [33] F. Rouillier & P. Zimmermann – « Efficient isolation of polynomial real roots », Journal of Computational and Applied Mathematics 162 (2003), no. 1, p. 33–50. [34] R. Schoof – « Four primality algorithms », to appear, http://www. mat.uniroma2.it/~schoof/millerrabinpom.pdf.


[35] S. Siksek – « The modular approach to diophantine equations », preprint, http://igd.univ-lyon1.fr/~webeuler/ihp/LectureNotes_ Siksek.dvi. [36] P. Stevenhagen & H.W. Lenstra, Jr. – « Chebotarëv and his density theorem. », Math. Intell. 18 (1996), no. 2, p. 26–37. [37] A. Storjohann – « Algorithms for matrix canonical forms », Thèse, ETH Zurich, 2000.

K. Belabas, Universite Bordeaux 1, 351, cours de la Liberation, F-33405 Talence (France) • E-mail : [email protected] Url : http://www.math.u-bordeaux.fr/~belabas

QUELQUES IDÉES SUR L’ALGORITHMIQUE DES ÉQUATIONS DIOPHANTIENNES par Guillaume Hanrot

1. Introduction Ce mini-cours a pour objectif de s’intéresser, de façon très sommaire, aux aspects transcendants de l’algorithmique des équations diophantiennes. Avant toute chose, un caveat s’impose : l’esprit du présent texte est celui d’un exposé semi-formel des idées de l’algorithmique des équations diophantiennes. On a cherché à mettre en avant les idées, et à expliquer les manipulations qui doivent être effectuées, plus qu’à énoncer une longue suite de théorèmes à constantes explicites. Le lecteur trouvera toutes les constantes nécessaires dans les différents articles auquel on renvoie dans le texte. On appelle usuellement équation diophantienne une équation de la P (x1 , . . . , xn ) = 0,

P ∈ Z[X1 , . . . , Xn ],

où les inconnues x1 , . . . , xn sont cherchées dans Z. Il s’agit d’une situation très différente de la situation où les inconnues sont cherchées dans un corps algébriquement clos, la contrainte arithmétique limitant généralement de façon drastique le nombre de solutions. Dans ce texte, nous nous intéresserons également à des équations de type différent (équations diophantiennes exponentielles), où les inconnues peuvent intervenir comme exposants.

158

G. HANROT

1.1. Problème de Hilbert et limites intrinsèques. — Il est difficile de commencer un texte traitant de l’algorithmique des équations diophantiennes sans mentionner le dixième problème de Hilbert. Au congrès de 1900, dans la liste de ses 23 problèmes, Hilbert pose la question de la conception d’une méthode générale qui, étant donné un polynôme P à n variables et à coefficients entiers, décide s’il existe des entiers x1 , . . . , xn tels que P (x1 , . . . , xn ) = 0. Une question hélas aussi ambitieuse que vaine : des travaux de logiciens culminant dans le résultat de Matjasevitch [12] ont montré que l’existence d’une solution entière est, en toute généralité, indécidable : la méthode générale que demande Hilbert n’existe pas. Il faut toutefois nuancer les conséquences de ce résultat : si le problème, en toute généralité, est indécidable, rien n’empêche que pour des familles d’équations des algorithmes existent. Et nous verrons que c’est effectivement le cas. En tout état de cause, un tour d’horizon rapide de l’existant limite rapidement les ambitions : on ne connaît pas de méthode, actuellement, qui permette en toute rigueur de décider si une courbe y 2 = q(x), avec q de degré 4, admet ou non un point rationnel sur Q... 1.2. Quelques grandes familles de méthodes. — On peut s’essayer à une taxonomie grossière des méthodes existantes. La méthode la plus élémentaire (ne pas l’oublier, elle prouve l’absence de solutions dans bien des cas !) consiste en l’utilisation d’arguments de congruence. Ce type d’arguments permet, en exhibant un nombre premier p (ou un idéal premier p d’un corps de nombres bien choisi) modulo lequel l’équation n’a aucune solution, de prouver que l’équation n’a aucune solution dans Z. Plus généralement, quand une équation a peu de solutions modulo des premiers (typiquement, pour une équation de la forme y p = f (x), on s’attend à ce que les solutions soient peu nombreuses modulo ` ≡ 1 mod p, car les puissances p-èmes modulo ` sont alors en proportion 1/p), on peut utiliser le théorème chinois pour construire efficacement toutes les solutions potentielles inférieures à une borne donnée ; on atteint toutefois assez vite les limites de ce type de méthode. Certaines équations sont justiciables de techniques purement arithmétiques (pgcd, fractions continues, algèbre linéaire), développées

ALGORITHMIQUE DES ÉQUATIONS DIOPHANTIENNES

159

dans le cours de Karim Belabas ; nous examinerons sommairement dans une première partie le cas de l’équation de Pell. Des méthodes plus sophistiquées, que nous explorerons dans ce texte, utilisent des arguments de transcendance. Nous nous concentrerons sur un aspect, dont l’algorithmique est bien établie, qui s’appuie sur la théorie des bornes inférieures pour les formes linéaires de logarithmes de nombres algébriques. Plus généralement, l’idée de ce type de méthodes est que les nombres algébriques jouissent de propriétés arithmétiques fortes (par exemple, le théorème de Roth affirme qu’ils sont mal approchés par des rationnels). Certains de ces résultats sont de nature effective, et fournissent dès lors des informations sur le nombre, ou – mieux – la taille des solutions potentielles de l’équation. Souvent, ces informations sont difficiles à exploiter (information de nombre peu exploitable, ou information de taille rendant impossible l’énumération), mais nous verrons comment, dans certains cas, une combinaison d’ingrédients algorithmiques et diophantiens permet de résoudre les problèmes. Ce type de méthode sera d’abord illustré par des équations dont le traitement algébrique est élémentaire, de façon à se concentrer sur le processus algorithmique ; par la suite, ce texte culminera avec l’exposé de la méthode de Tzanakis et de Weger [18] pour la résolution de l’équation de Thue, dont le traitement algorithmique est quasiment le même, mais qui présuppose un travail préalable de réduction de l’équation à la forme souhaitée. Enfin, les méthodes les plus avancées reposent sur l’utilisation de techniques issues de la géométrie arithmétique. La méthode la plus explorée dans cette direction est sans doute la méthode de Chabauty. À une courbe algébrique, la géométrie arithmétique permet d’associer une variété algébrique munie naturellement d’une structure de groupe – la jacobienne – ; le groupe des points sur Q est alors de type fini. Quand, de surcroît, le rang de la partie libre dudit groupe est plus petit que sa dimension, un argument dû à Chabauty prouve de façon effective la finitude du nombre de solutions. La restriction sur le rang du groupe n’est pas bénigne, mais diverses techniques permettent souvent de la contourner. Ces techniques sont sans doute les plus puissantes, et d’un point de vue algébrique et géométrique, les

160

G. HANROT

plus intrinsèques et élégantes. Elles nous emmèneraient toutefois trop loin, et nous ne les discuterons pas. Le lecteur intéressé par une vision plus complète de la théorie et de l’algorithmique des équations diophantiennes est invité à consulter l’ouvrage de Smart [15], ou l’ouvrage d’Henri Cohen, en cours d’édition à l’heure où ces notes sont écrites.

2. Un aspect élémentaire Cette partie se contente, essentiellement, de replacer dans une problématique générale (et donc, de renvoyer au texte de K. Belabas) un cas simple d’équations diophantiennes, le cas de l’équation de PellFermat. 2.1. L’équation de Pell-Fermat. — On désigne sous ce nom l’étude de l’équation x2 − Dy 2 = 1, ou plus généralement de l’équation x2 −Dy 2 = a, où D est un nombre entier positif. 2.1.1. Cas où le second membre est 1. — On peut d’ores et déjà situer assez précisément les solutions de cette équation : Proposition 1. — Soit D un nombre entier, avec D = f d2 , f sans fac√ teur carré. Si (x, y) est une solution de x2 − Dy 2 = 1, alors x − dy f √ √ est une unité du corps Q( f ). Inversement, à toute unité l + m f de norme 1 de ce corps avec d|m on peut associer une solution de l’équation de Pell-Fermat. Démonstration. — L’équation de Pell-Fermat dit simplement que la √ norme de x−dy f vaut 1 ; or c’est un entier, c’est donc une unité. Notons que les unités de la forme indiquée constituent un sous√ groupe de l’ensemble de toutes les unités ; étant donné ε = ε1 + ε2 f une unité fondamentale (supposons pour simplifier que f ≡ 1 mod 4, de sorte que ε1 et ε2 sont dans Z), il suffit de trouver le plus petit entier j tel que εj soit du type souhaité. On peut voir les εj comme des éléments de l’anneau Z[X]/(X 2 −f ) ; on déduit alors :


161

Proposition 2. — Soit p un nombre premier ; les entiers k tels que √ εk = ε1,k + ε2,k f avec p|ε2,k sont les multiples de l’ordre de ε mod p dans (Fp [X]/(X 2 − f ))∗ /F∗p . En particulier, si f est un carré modulo p, cet ordre divise p − 1, et si f est un non-carré modulo p, cet ordre divise p + 1. On conclut cette section en relevant que quand le membre de droite est 1, l’équation de Pell admet de façon systématique une infinité de solutions. 2.1.2. Membre droit quelconque. — Dans le cas général (membre de droite 6= 1), la stratégie consiste, dans un premier temps, à déterminer un ensemble complet de solutions de l’équation aux normes NQ(√D)/Q (u) = a, modulo l’action du groupe des unités. Si cet ensemble, disons E, est fini, on sait alors que pour tout u solution, il existe une unité η et e ∈ E tel que u = ηe ; inversement, modulo l’étude du signe de la norme et les conditions de divisibilité comme dans la partie précédente, on obtient ainsi toutes les solutions. On est donc ramené à l’étude de l’équation aux normes. 2.1.3. Équation aux normes Lemme 1. — Soit K un corps de nombres ; il n’existe qu’un nombre fini d’entiers algébriques de norme donnée, modulo l’action du groupe des unités. Démonstration. — Il suffit a fortiori de prouver qu’il n’existe qu’un nombre fini d’idéaux de norme donnée ; en décomposant a, on peut de plus se limiter au cas où a est une puissance de nombre premier, a = pt . Dans ce cas, tout idéal de norme a est parmi les pli , l 6 t, pi un idéal au-dessus de p, donc dans un ensemble fini. La preuve de ce lemme est essentiellement effective ; on peut même la rendre plus efficace en cherchant les idéaux de norme pt sous la Q P forme li=1 pji i , ce qui conduit à une équation linéaire ji fi = t, à laquelle on adjoint des équations linéaires pour traduire le fait que Q l’idéal est bien principal : si Cl (K) de la forme k`=1 Z/n` Z, et que φ` désigne la projection d’un idéal sur une composante de Cl (K), on P veut de surcroît que ji φ` (pi ) ≡ 0 mod n` pour tout `. On est donc ramené... à résoudre un système d’équations diophantiennes linéaires,

162

G. HANROT

qui se résout par des techniques d’algèbre linéaire entière (mise sous forme normale de Smith, par exemple). 2.2. Le problème des bœufs d’Archimède. — Ce célèbre problème est généralement attribué à Archimède. Il a été découvert dans un manuscrit grec conservé dans une bibliothèque du nord de l’Allemagne en 1773. Le texte propose de compter les troupeaux du dieu du soleil, et en substance, il s’énonce de la façon suivante : il s’y trouve des taureaux et vaches de 4 couleurs différentes, blancs, noirs, tachetés et marrons. Pour les taureaux, le nombre de blancs est plus grand que le nombre des marrons de 1/2 + 1/3 du nombre des noirs ; le nombre des noirs plus grand que les marrons de 1/4 + 1/5 du nombre des tachetés ; le nombre des tachetés plus grand que le nombre des marrons de 1/6 + 1/7 du nombre des blancs. Pour les vaches, le nombre des blanches est 1/3 + 1/4 du nombre total de têtes de bétail noires ; le nombre des noires, 1/4 + 1/5 du nombre total de têtes de bétail tachetées ; le nombre de tachetées, 1/5 + 1/6 du nombre total de têtes de bétail marrons ; le nombre des marrons, 1/6 + 1/7 du nombre total de têtes de bétail blanches. Ce problème se retranscrit simplement en le système de 7 équations à 8 inconnues suivant :  b = m + 5/6n      n = m + 9/20t      t = m + 13/42b (1) B = 7/12(n + N )    N = 9/20(t + T )     T = 11/30(m + M )    M = 13/42(b + B) qui conduit à la solution, z étant un paramètre entier quelconque,  b = 10366482z,     n = 7460514z,      m = 4149387z,    t = 7358060z, (2)  B = 7206360z,     N = 4893246z,     M = 5439213z,    T = 3515820z.


163

Le problème inclut toutefois une seconde partie : les taureaux blancs et noirs réunis peuvent être rangés en carré, et les taureaux marrons et tachetés en triangle. Ces deux contraintes conduisent alors à l’équation, avec x, y, z des inconnues entières : x2 = 17826996z,

y(y + 1)/2 = 11507447z.

En éliminant z, on obtient 2471x2 = 1914y(y + 1). Cela impose en particulier que 1914|x ; posant x = 1914X, on a y(y + 1) − 4729494X 2 = 0, soit encore, en posant t = 2y + 1, t2 − 4729494(2X)2 = 1. Pour que z soit bien entier, il nous faut finalement imposer que 4657|X ; noter que toute solution de t2 − 4729494u2 = 1 a toujours u pair (regarder l’équation modulo 8). √ Notons ε l’unité fondamentale √ de Q( 4729494). On cherche une puissance de ε de la forme ε1 + ε2 4729494 avec 2|ε2 et 4657|ε2 . La discussion générale menée dans le paragraphe précédent montre alors que la plus petite solution est de la forme ε2 , ε2329 ou ε4658 . C’est cette dernière solution qui est la bonne, et comme on trouve, par exemple avec GP, que log |ε| ≈ 102, la solution minimale au problème d’Archimède a donc un logarithme de l’ordre de 102·2·2329 = 475116, et a en fait 206545 chiffres décimaux... Pour plus de détails, on pourra consulter [19].

3. Méthodes transcendantes Dans cette partie, nous allons étudier les méthodes dites « transcendantes » pour les équations diophantiennes. 3.1. Approximation diophantienne des nombres algébriques Il faut dire que l’étude de l’approximation diophantienne des nombres algébriques et transcendants et l’étude des équations diophantiennes ont souvent avancé de concert. L’objet général des aspects « transcendants » de la théorie des nombres est l’étude, dans le cas le plus simple, de l’approximation des nombres réels par des

164

G. HANROT

rationnels. La réponse la plus générale est fournie par le théorème de Dirichlet : Théorème 1. — Soit x un nombre réel, et Q un nombre entier strictement positif. Il existe un entier q 6 Q tel que d(qx, Z) 6 1/Q. En particulier, il existe (p, q) tels que |x − p/q| 6 1/q 2 . On peut se demander, de façon plus générale, si 2 est l’exposant optimal dans cette proposition. Une question naturelle se pose : pour quel type de x l’exposant 2 est-il optimal ? Rappelons la définition suivante : Définition 1. — Un nombre complexe x est algébrique s’il existe un polynôme P non nul, à coefficients entiers tel que P (x) = 0. Quand x est algébrique, il est alors relativement simple d’estimer à quel point x est approché par des rationnels p/q. En effet, si P (x) = 0 avec P irréductible sur Q, on peut former |P (p/q) − P (x)| = P (p/q) qui, en vertu de l’inégalité des accroissements finis sera, pour p/q assez proche de x, de l’ordre de |x − p/q|. Cependant, P (p/q) est un rationnel non nul, de dénominateur 1/q deg(P ) . Il vient que |x − p/q| > C(x)/q deg(P ) . En particulier, cet argument de Liouville, pour les nombres algébriques quadratiques (deg P = 2) montre que le théorème de Dirichlet est optimal. Dans le cas général, il faut attendre le xxe siècle pour obtenir les résultats suivants, dans l’ordre chronologique : Théorème 2 (Thue-Siegel-Dyson-Roth). — Soit x algébrique de degré d. Alors, pour tout ε > 0, il existe C(x, ε) tel que pour tout p/q, on ait |x − p/q| > C(x, ε)/q f (d)+ε , où – – – –

f (d) = d/2 √ + 1 (Thue, [17]) ; f (d) = 2√ d (Siegel, [14]) ; f (d) = 2d (Dyson, [8] – et, simultanément, Gelfond [9]) ; f (d) = 2 (Roth, [13]).

Le dernier résultat, dû à Roth, clôt quasiment le problème, puisque seules deux questions subsistent : préciser le ε du théorème, et (!) surtout, préciser la constante C(x, ε), qui n’est effective dans aucun des


165

résultats mentionnés. À ce titre, ces résultats, qui donnent un panorama très précis de l’approximation des algébriques par des rationnels, permettent aisément d’obtenir des résultats de finitude de nombre de solutions, mais nous sont inutiles d’un point de vue algorithmique... pour lequel une connaissance, même très grossière, de C(x, ε), quitte à perdre sur l’exposant, est requise. Avant de continuer, on peut donner une justification heuristique du résultat de Roth : presque tous les nombres réels ont des meilleures approximations à l’ordre 2 exactement. En effet, si Xf est l’ensemble des réels de [0, 1] admettant une suite d’approximations pn /qn avec |x − pn /qn | 6 1/f (qn ), avec f (x) → ∞ quand q → ∞, alors ∞ [ [ \ p 1 p 1 Xf = − , + . q f (q) q f (q) q0 =1 q>q0 06p6q

L’intersection étant décroissante et les ensembles de mesure finie, il vient [ [ p 1 p 1 µ(Xf ) = lim µ − , + q0 →∞ q f (q) q f (q) q>q0 06p6q

X 2(q + 1) . 6 lim q0 →∞ f (q) q>q0

P En particulier, si la série q>1 q/f (q) converge, µ(Xf ) = 0. C’est le cas par exemple pour f (x) = xα pour α > 2. 3.2. Formes linéaires de logarithmes et résultats de Baker Pour l’algorithmique des équations diophantiennes, le « salut » vient d’un point de vue assez différent, exploré par Gelfond et Schneider pour l’étude du 13-ème problème de Hilbert, puis généralisé par A. Baker dans les années 1960 dans une série d’articles [1, 2]. Le procédé consiste, via une étude algébrique de l’équation, à construire une forme linéaire de logarithmes r X (3) Λ(b1 , . . . , bn ) = bi Log ui i=1

où les quantités liées aux inconnues initiales sont les bi , les autres quantités étant explicites et ne dépendant que de l’équation. Ici et

166

G. HANROT

dans la suite, Log est la détermination principale du logarithme complexe. La quantité Λ(b1 , . . . , bn ) doit de plus avoir la propriété que pour toute solution de l’équation initiale, on doit pouvoir construire un n-uplet (b1 , . . . , bn ) tel que Λ(b1 , . . . , bn ) soit très petit, typiquement : (4)

Λ(b1 , . . . , bn ) exp(−C · maxi |bi |).

La forme Λ (on parle de forme linéaire en logarithmes) est en général construite en prenant le logarithme d’une quantité très voisine de 1, et qui dépend donc de façon exponentielle des bi . On va donc rencontrer naturellement ce type de méthodes lors de l’étude d’équations diophantiennes qui « cachent » une structure de groupe multiplicatif de type fini. Intuitivement, une propriété telle que (4) a un caractère exceptionnel. L’équivalent n-dimensionnel du théorème de Dirichlet – conséquence aisée du principe des tiroirs – prédit que parmi P les N n valeurs de | ni=1 bi αi | pour (bi ) ∈ [1, N ]n qui se trouvent Pn dans [0, N i=1 |αi |], on peut en trouver deux distantes d’au plus P N 1−n ni=1 |αi |, et donc une combinaison linéaire de cet ordre de grandeur avec |bi | 6 N . Cette estimation est en fait essentiellement optimale : pour presque tout (α1 , . . . , αn ), on ne peut pas espérer obtenir un meilleur exposant. Cet argument n’est bien entendu pas suffisant... car l’arithmétique de la situation est à prendre en compte. Mais dans le cas présent, nos nombres αi sont bien particuliers ; ce sont des logarithmes de nombres algébriques. Dans ce cas, le résultat de Baker (qui lui a valu la médaille Fields en 1966), largement précisé, raffiné, et étendu depuis, nous fournit l’estimation dont nous avons besoin : Théorème 3. — Soit u1 , . . . , un des nombres algébriques. Il existe une constante C(u1 , . . . , un ) telle que, pour tout n-uplet (b1 , . . . , bn ), si l’on P pose Λ(b1 , . . . , bn ) = bi Log ui , on a – soit Λ(b1 , . . . , bn ) = 0 (et les ui sont multiplicativement dépendants) ; – soit Λ(b1 , . . . , bn ) > exp(−C(u1 , . . . , un ) log max |bi |), où C(u1 , . . . , un ) est une constante positive ne dépendant que des ui .


167

On peut comparer ce résultat, dans le cas où les ui sont des nombres entiers, à la méthode de Liouville. Dans ce cas, Λ est le logarithme Q bi d’un nombre ui ; si ce nombre est différent de 1, sa distance à 1 est alors au moins égale à l’inverse de son dénominateur, qui est au Q Q plus |ui ||bi | 6 ( |ui |)max |bi | . En particulier, l’estimation qui est P obtenue pour Λ est alors exp(( log |ui |) max |bi |), dans laquelle la dépendance en B := max |bi | est bien moins bonne que précédemment. En revanche, la dépendance en les log |ui | est, elle, meilleure que ce que l’on obtient : il va falloir, en général, remplacer la somme par un produit. L’étude détaillée de cet exemple montre que si ui = pi /qi devient un rationnel, il faut remplacer log |ui | par log max(|pi |, |qi |). La généralisation de cette quantité pour un nombre algébrique est la hauteur logarithmique absolue : Définition 2. — Soit α un nombre algébrique de degré d, P = P d ∈ Z[X] son polynôme minimal, α , . . . , α a0 xn + n−1 1 n d=0 an−d x ses racines. La hauteur logarithmique absolue de α est 1/n · Q log (|a0 | ni=1 max(1, |αi |)). Nous pouvons maintenant énoncer le théorème de Baker et Wüstholz [4] : Théorème 4. — Dans le théorème 3, on peut prendre C(u1 , . . . , un ) = 18(n + 1)! nn+1 (32D)n+2 h(u1 ) · · · h(un ), où D = [Q(u1 , . . . , un ) : Q] et h(·) désigne la hauteur logarithmique absolue. Nous utiliserons cette version de la borne de Baker en raison de sa simplicité. De multiples (certaines meilleures, comme les récents travaux de Matveev) versions existent, en fonction des hypothèses plus ou moins fortes que l’on peut faire sur les ui et sur n. Certaines offrent davantage de liberté à l’« utilisateur » en s’exprimant en fonction de paramètres qui peuvent être optimisés selon la situation. Dans le cas présent, on verra que seul l’ordre de grandeur de C importe réellement. Une seule situation justifie alors réellement l’utilisation d’une expression nettement plus précise ; il s’agit du cas

168

G. HANROT

où l’on n’a que deux logarithmes, où l’on a le résultat suivant dû à Laurent, Mignotte et Nesterenko [10] : Théorème 5. — Soit α1 , α2 deux nombres algébriques, et Λ = b1 log α1 − b2 log α2 . On pose D = [Q(α1 , α2 ) : Q]/[R(α1 , α2 : R)], et on suppose donnés des réels hi tels que hi > max(h(αi ), log αi /D, 1/D). Alors, en posant b = b1 /h2 + b2 /h1 , on a log |Λ| > −30.9D4 max(log b, 21/D, 1/2)2 h1 h2 . La dépendance en log max |bi | est un peu moins bonne que précédemment, mais ceci est, pour notre usage, largement compensé par une constante nettement plus petite... 3.3. Équations exponentielles et conjecture ABC. — Plutôt que de donner un exposé abstrait et fastidieux du versant algorithmique du problème, étudions un cas où l’aspect « modélisation algébrique » est quasi-absent, et où l’on se limite à appliquer la borne de Baker, pour ensuite embrayer directement sur l’étude algorithmique. Fixons {p1 , . . . , pr }, {q1 , . . . , qs } des nombres premiers et un entier a. On s’intéresse aux solutions b1 , . . . , br , c1 , . . . , cs > 0 de l’équation r s Y Y pbi i − qici = a. i=1

i=1

Ces solutions donnent, en règle général, de bons exemples de valeurs extrêmes pour la conjecture suivante, dite abc, et due à Masser et Oesterlé. Conjecture 1. — Pour tout ε > 0, il existe C(ε) ∈ R tel que pour tout triplet d’entiers naturels (a, b, c) tels que (a, b) = 1 et a + b = c, on a c 6 C(ε)N (abc)1+ε , où N (abc) =

Q

p|abc p

est le noyau sans facteur carré de abc.

En d’autres termes, quand a + b = c, les trois entiers a, b, c ne sauraient avoir simultanément trop de facteurs multiples. Certains des exemples que l’on peut trouver par une stratégie voisine de celle décrite ici sont, typiquement, 1 + 2 · 37 = 54 · 7, 112 + 32 · 56 · 73 = 221 · 23 (tous deux dus à de Weger). Le « pire » (i.e., qui maximise


169

c/ log N (abc)) exemple connu (trouvé par Reyssat) est donné par 2 + 310 · 109 = 235 . 3.3.1. Un cas vraiment simple. — On va commencer par le cas très particulier de l’équation 3x − 2y = 1. Bien sûr, cette équation peut très facilement être résolue par des méthodes élémentaires (ce fut fait par L. Ben Gerson au milieu du xiie siècle : on peut typiquement remarquer que x est nécessairement pair, puis déduire la solution du fait que 3x/2 ± 1 sont tous deux des puissances de 2), mais elle nous permet d’illustrer notre propos de façon très simple. De l’équation, on tire x 3 − 1 6 1 . 2y 2y utilisant l’inégalité | log(1 + x)| 6 |x|, on voit que | log(3x /2y )| 6 En x 3 y − 1 , d’où notre inégalité du type (4) : 2 (5)

|x log 3 − y log 2| 6

1 1 = max(|x|,|y|) . y 2 2

Noter que pour parvenir à exprimer la borne supérieure en terme de max(|x|, |y|), il nous a fallu comparer les différents bi (ici x et y) ; c’est le cas en général. En outre, on déduit immédiatement de cette borne le lemme suivant, qui permet d’énumérer très rapidement toutes les solutions endeçà d’une borne fixée M : Lemme 2. — Si (x, y) est une solution de 3x − 2y = 1, avec y > 2, alors x/y est une réduite du développement en fraction continue de log 2/ log 3. Démonstration. — En effet, on a alors |x − y log 2/ log 3| 6 1/(2y).

1 2y log 3

6

La borne de Laurent, Mignotte et Nesterenko fournit |x log 3 − y log 2| > exp(−34 · log max(y/ log 3, x)) dès lors que le membre de gauche est non nul (l’inverse signifierait que 3x = 2y ...). Comme y/ log 3 ≈ x/ log 2 > x, on voit que 34 · (log(|y|/ log 3))2 > |y| log 2, d’où y 6 3095.

170

G. HANROT

Mais la théorie des fractions continues nous indique que la plus petite valeur de |x log 3−y log 2| pour |y| 6 3095 est fournie par la dernière réduite p/q du développement en fraction continue de log 2/ log 3 vérifiant q 6 3095. En particulier, cette dernière réduite étant 1054/665, on voit que |x log 3 − y log 2| > |665 log 3 − 1054 log 2| > 4 · 10−5 ; par suite, on trouve 2−y > 4 · 10−5 , soit y 6 14... Contrairement à ce que l’on pourrait croire, l’histoire ne s’arrête pas là, même si, dans le cas présent, l’estimation obtenue suffit. Cette nouvelle borne étant plus petite que l’ancienne, on peut raffiner le minorant de |x log 3 − y log 2| obtenu par les fractions continues, ce qui permet à nouveau de raffiner la borne sur x et y, qui permet à nouveau d’améliorer la borne sur |x log 3 − y log 2|. Ce processus s’appelle l’étape de réduction de la borne. Il faut bien que tout cela ait une fin, mais en règle générale, on obtient de cette façon une borne très raisonnable pour maxi |bi |. Dans le cas présent, une étape supplémentaire conduit à y 6 4, suite à quoi la réduction bloque à |y| 6 3. On conclut enfin par énumération exhaustive que Théorème 6. — Les seuls couples (x, y) tels que 3x − 2y = 1 sont (1, 1), (2, 3). 3.4. Le cas général. — De la même façon que précédemment, dans le cas général, on obtient l’inégalité r s X X 1 (6) bi log pi − ci log qi − log a 6 Qs ci . i=1 qi i=1

i=1

Avant de pouvoir appliquer la borne de Baker, il nous faut exprimer notre borne supérieure en termes non des seuls ci , mais aussi des bi ; en fait, les maxima des deux familles sont du même ordre de grandeur. En effet, s Y

a+

(7)

qici =

i=1

r Y

pbi i ,

i=1

et, donc maxi ci

a + (min qi ) i

Y maxi bi r 6 pi , i=1


171

ce qui permet de montrer (en échangeant les rôles de bi et ci ) qu’il existe C1 et C2 ne dépendant que des pi , qi , a telles que C1 max bi 6 max ci 6 C2 max bi . i

i

i

Il s’ensuit, en particulier, que l’on peut trouver une constante C ne dépendant que des pi , qi , a, telle que r s X X bi log pi − ci log qi − log a 6 exp(−C max(|bi |, |ci |)). i=1

i=1

Là encore, la borne de Baker fournit un réel C 0 tel que la quantité du membre de gauche soit minorée par exp(C 0 log max(|bi |, |ci |)). In fine, on obtient donc une estimation de max(|bi |, |ci |), qui n’est souvent, hélas, pas utilisable telle quelle. C’est à ce stade que les arguments algorithmiques sont requis pour aller plus loin. Ils généralisent le rôle joué par les fractions continues pour l’équation 3x − 2y = 1. 3.4.1. Réduction de la borne. — Nous sommes donc ramenés à une situation analogue au cas précédent, mais avec r + s + 1 = n + 1 logarithmes au lieu de 2 (ou à une situation inhomogène en r + s = n logarithmes). Il nous faut donc remplacer les fractions continues par une « approximation diophantienne simultanée » en dimension n + 1. Historiquement, deux approches ont été utilisées à cette fin : – Si l’on connaît une bonne approximation simultanée à n des n+1 termes, i.e., d(Qxi , Z) petit pour tout i 6 n, alors on va pouvoir minorer Q fois la somme ; cette technique est connue sous le nom de lemme de Baker-Davenport ; – Alternativement, la réduction des réseaux fournit une « presque plus petite » combinaison linéaire, et permet donc a fortiori de minorer les combinaisons linéaires des log pi à coefficients bornés par B. C’est exactement ce dont on a besoin. Cette remarque est due à de Weger. Lemme 3 (Lemme de Baker-Davenport). — Soit (bi )16i6n des entiers, (xi )16i6n+1 des réels, B = maxi |bi |. On suppose donné Q positif tel que entier d(Qxi , Z) 6 ε pour tout 1 6 i 6 n. Alors Pn+1 i=1 bi xi + xn+1 > Q−1 (d(Qxn+1 , Z) − nBε).

172

G. HANROT

Démonstration. — On a n+1 n X X Q b x + x > d Qb x + Qx , Z i i n+1 i i n+1 i=1

i=1

> d(Qxn+1 , Z) −

n X

d(Qbi xi , Z)

i=1

> d(Qxn+1 , Z) − max |bi | 16i6n

n X

d(Qxi , Z),

i=1

> d(Qxn+1 , Z) − nBε. Il suffit, dès lors, de choisir Q assez grand. Le principe des tiroirs suggère que l’on peut penser que ε ≈ Q−1/n , et a priori, si les xi sont linéairement indépendants, on s’attend à ce que Qxn+1 soit « aléatoire » modulo 1. A priori, on va donc chercher Q légèrement plus grand que (nB)n . Il nous reste encore, toutefois, à trouver l’entier Q, ce qui peut se faire par réduction d’un réseau bien choisi. Notons, en particulier, que la nouvelle borne pour maxi |bi | sera O(log Q/(d(Qxn+1 , Z) − nBε)), dont l’ordre de grandeur attendu est O(n log B). Cela donne une idée de l’efficacité du processus de réduction : la nouvelle borne attendue est logarithmique en la précédente. P La minoration de bi xi + xn+1 sachant maxi |bi | 6 B est toutefois une tâche qui peut, plus directement, être traitée par la réduction des réseaux. Rappelons que l’algorithme LLL permet, étant donné des vecteurs de Rn linéairement indépendants sur R, de trouver des combinaisons linéaires entières de ces vecteurs de petite norme euclidienne, et même peu supérieures à la plus petite norme euclidienne possible. En particulier, LLL permet de minorer la longueur de la plus petite combinaison linéaire (à coefficients bornés !) d’une famille de n vecteurs. Toutes les normes étant équivalentes, on va pouvoir en déduire une borne inférieure sur la longueur du vecteur le plus court pour la norme k · k1 , qui est ce qui nous intéresse dans le cas présent. Commençons dans ce cas par étudier le cas homogène. Lemme 4. — Soit (bi )16i6n des entiers, (xi )16i6n des réels, B = maxi |bi |.

173


On suppose que le vecteur renvoyé par par les colonnes de la matrice  1 0  0 1   .. .. M (x1 , . . . , xn , C) =  . .   0 0

LLL sur le réseau engendré ... ... .. .

0 0 .. .

0 0 .. .

... 1 0 bCx1 e bCx2 e . . . bCxn−1 e bCxn e

      

a pour longueur l0 , avec l0 > 2(n−1)/2 B

p (n2 /4 + n − 1).

Alors pour tout n-uplet d’entiers (b1 , . . . , bn ), on a n q X 1 nB 2 1−n 2 bi xi > 2 l0 − (n − 1)B − . C 2 i=1

Démonstration. — Les propriétés générales d’une base LLL-réduite nous montrent que pour tout vecteur b = (b1 , . . . , bn ), on a kAbk2 > 2−(n−1)/2 l0 . Il nous reste donc à majorer kAbk2 . On a 



b1 b2 .. .

        Ab =  ,    Xbn−1    bi bCxi e 16i6n

d’où kAbk22

=

X

b2i

16i6n−1 2 bi par B 2 , il

+

X

2 bi bCxi e

.

16i6n

On majore alors vient : q X bi bCxi e > 21−n l02 − (n − 1)B 2 . 16i6r

Mais X X X nB bi bCxi e − C bi xi 6 |bi |/2 6 , 2 16i6n

16i6n

16i6n

174

d’où

G. HANROT

q X 1 nB 2 1−n 2 . bi xi > 2 l0 − (n − 1)B − C 2 16i6n

On peut aussi, par un argument un peu plus fin, contrôler la situaP tion dans le cas inhomogène, où l’on chercher à minorer ni=1 bi xi + xn+1 . Lemme 5 ([20]). — Soit x = (xi ) un vecteur de Zn , et A = (v 1 , . . . , v n ) une base LLL-réduite d’un réseau Λ. Posons s = (si ) = A−1 (xi ). Alors d(x, Λ) > 2(1−n)/2 d(si∗ , Z)kv 1 k2 , où i∗ est le plus grand entier i tel que si 6∈ Z. Démonstration. — On considère la base (v ∗1 , . . . , v ∗n ), orthogonalisée de Gram-Schmidt de la base (v 1 , . . . , v n ). Les v i sont donnés dans la base (v ∗i ) par i−1 X v i = v ∗i + µij v ∗j , j=1 ∗ ∗ 2 où µij = (v i , v j )/kv j k2 . On définira dans la suite µii = Soit k∈ Zn , et formons kAk − xk2 = kA(k − s)k2 : n X

A(k − s) =

=

1.

(ki − si )v i , i=1 n X i X

(ki − si )µij v ∗j ,

i=1 j=1

=

n X n X j=1

µij (ki − si ) v ∗j .

i=j

Par suite, kA(k −

s)k22

=

n X n X j=1

2 µij (ki − si ) kv ∗j k22 .

i=j

Posons i1 := max{i : ki 6= si }. Il est clair que i1 > i∗ . Si i1 > i∗ , on a |ki1 − si1 | > 1 > d(si∗ , Z), et sinon |ki1 − si1 | > d(si∗ , Z). Dans tous les cas, on a donc kA(k − s)k22 > d(si∗ , Z)2 kv ∗i1 k22 .


175

Le résultat découle alors directement d’une propriété classique des bases LLL-réduites. P Pour minorer | ni=1 bi xi + xn+1 |, on applique cette proposition à la base donnée par les colonnes de la matrice M (x1 , . . . , xn , C) et au vecteur (0, . . . , 0, bCxn+1 e). Ces deux propositions nous fournissent une solution complète pour minorer une forme linéaire de logarithmes, une borne sur les coefficients étant connue. Il nous reste simplement à discuter le choix de la constante C. Heuristiquement, un réseau défini par une base v 1 , . . . , v n « sans vecteur court » (i.e., dans le cas présent, correspondant à une équation diophantienne sans grande solution) a tous ses vecteurs minimaux successifs de norme du même ordre de grandeur et presque orthogonaux ; on s’attend donc à ce que les normes de ces minima soient de l’ordre de det(v 1 , . . . , v n )1/n . On peut donc s’attendre à ce que le vecteur le plus court soit de l’ordre de C 1/n , qui doit donc être de l’ordre de grandeur de 2(1−n)/2 nB. Ceci montre qu’il faut choisir C de l’ordre de (nB)n , estimation en pratique un peu optimiste et qu’il faudra augmenter un peu pour obtenir le résultat attendu. Là encore, la nouvelle borne inférieure attendue est de l’ordre de − log C, soit encore n log B. 3.4.2. Cas d’échec de la réduction. — Il y a en pratique deux types de cas où la réduction est peu efficace. Pour comprendre le premier type de cas, il faut remarquer que l’esprit de la réduction, et même de toute la méthode, est de prouver qu’il n’y a pas de grande solution. Tout l’objectif est en effet d’améliorer des bornes sur la taille des solutions. En particulier, l’existence d’une grande solution limitera la qualité de la réduction de la borne, puisque la borne ne saurait descendre en deçà de cette solution. Dans ce cas (très rare, puisqu’en pratique, comme les bi ne dépendent déjà que logarithmiquement des inconnues initiales, leur valeur est toujours très petite), on peut utiliser des bornes sur le deuxième vecteur le plus court pour estimer toutes les solutions distinctes de la première. Le second type de situation est le cas où les xi sont Z-linéairement dépendants. Cette situation d’apparence surprenante se produit parfois. Dans ce cas, toutefois, il suffit de résoudre la dépendance, et

176

G. HANROT

d’éliminer une des variables pour réappliquer la méthode générale. Il n’est même pas nécessaire que la dépendance soit prouvée : supposons P que l’on dispose d’une relation |xn+1 + ni=1 λi xi | 6 τ . Si l’on montre alors que n+1 n X X > θ, b x = (b − λ b )x i i i i n+1 i i=1

i=1

on en déduit aussitôt que n+1 X bi xi > θ − Bτ, i=1

ce qui répond au problème de départ si τ est assez petit. On peut ainsi éliminer les variables « numériquement Z-dépendantes » les unes après les autres. 3.4.3. Retour au problème de départ. — La borne initiale, dans le cas présent, est réduite de façon très efficace à une taille raisonnable. On procède ensuite à une énumération exhaustive, qui peut être plus ou moins astucieuse ; essentiellement, si la borne finale est assez petite, on se contente d’énumérer les bi et ci en deçà de ladite borne. 3.5. Systèmes de deux équations de Pell. — Toujours dans l’esprit d’introduire les différents ingrédients indépendamment, nous allons étudier maintenant le cas où le traitement algorithmique est simple (fractions continues comme dans 3x −2y = 1, ou au pire lemme de Baker-Davenport en dimension 2), mais où il y a une part de traitement algébrique. Le type d’équation traité ici remonte à l’article [3], qui date de 1969, et constitue la première application « pratique » de la borne de Baker à la résolution complète d’une équation diophantienne. On étudie le système ( x2 − ay 2 = 1 x2 − bz 2 = 1 La partie algébrique du traitement est à peine plus sophistiquée que précédemment. On sait que les solutions d’une équation de Pell sont données par les puissances de l’unité fondamentale du corps quadra√ √ tique Q( a), soit, plus précisément, si εa est l’unité de Q( a) et εb


177

√ celle de Q( b) (dans les deux cas, on choisit le conjugué plus grand que 1 en valeur absolue) : −m m ∃ n, m > 0 t.q. 2x = εna + ε−n a = εb + εb ,

On a, en particulier, |εna ε−m − 1| 6 |εb |−m max(|εa |−n , |εb |−m ). b Toujours de la même façon, l’identité εna ≈ εm b montre que m n, et donc on peut encore réécrire notre inégalité comme : (8)

|n log |εa | − m log |εb || exp(O(max(m, n))).

À nouveau, la théorie de Baker garantit que |n log |εa | − m log |εb || > exp(−C log max(m, n)) (éventuellement (log max(m, n))2 dans le cas de formes en deux logarithmes), et la comparaison des deux bornes fournit à nouveau une borne supérieure sur max(m, n), et un processus de réduction du même type, puisque (8) montre encore que pour m, n assez grands, n/m est une réduite du développement en fractions continues de log |εa /εb |. Le problème historique de Baker-Davenport était légèrement différent : il s’agissait du système 3x2 − y 2 = 2, 8x2 − z 2 = 7. Dans ce cas, on trouve une identité du type |µ1 εn1 − µ2 εm 2 | = O(exp(−C max(m, n))), ce qui conduit au problème inhomogène |n log ε1 − m log ε2 + log(µ1 /µ2 )| = O(exp(−C max(m, n))), qui, d’une part ne permet pas l’utilisation de formes linéaires en deux logarithmes, d’autre part nécessite cette fois l’application du lemme de Baker-Davenport (d’où le nom) en dimension 2. 3.6. Un exemple récréatif : le problème du canonnier. — Un canonnier veut ranger de façon organisée ses boulets de canon. Il commence par les arranger à même le sol, sous la forme d’un carré, mais s’avise qu’ils occupent une place trop importante. Après réflexion, il les range alors sous la forme d’une pyramide à base carrée. Dans les deux cas, les figures (carré/pyramide) sont complètes. Combien le canonnier avait-il de boulets ?

178

G. HANROT

Si l’on note n le côté du carré, et m le côté de la pyramide, on arrive aisément à l’équation n2 = m(m + 1)(2m + 1)/6, soit encore 6n2 = m(m + 1)(2m + 1). Notons que m, m + 1 et 2m + 1 sont premiers entre eux deux-àdeux. En particulier, ils n’ont aucun facteur premier en commun, et leurs décompositions en facteurs premiers offrent donc les possibilités suivantes (puisque 2m + 1 est impair) : (1) (2) (3) (4) (5) (6)

m = u2 , m + 1 = 2v 2 , 2m + 1 = 3w2 ; m = u2 , m + 1 = 6v 2 , 2m + 1 = w2 ; m = 2u2 , m + 1 = 3v 2 , 2m + 1 = w2 ; m = 2u2 , m + 1 = v 2 , 2m + 1 = 3w2 ; m = 3u2 , m + 1 = 2v 2 , 2m + 1 = w2 ; m = 6u2 , m + 1 = v 2 , 2m + 1 = w2 .

Une étude modulo 8 montre que seule la première et la dernière solution sont possibles. On est donc amené à résoudre les deux systèmes diophantiens 2v 2 − u2 = 1, 3w2 − 2u2 = 1 d’une part, et v 2 − 6u2 = 1, w2 − 12u2 = 1 d’autre part. L’étude conduit à l’unique solution (1, 1, 1), qui correspond à m = 1 (1 boulet de canon) dans le premier cas, aux deux solutions (0, 1, 1) (qui correspond à m = 0, pas de boulet de canon) et (2, 5, 7) (m = 24, 4900 boulets de canon) dans le second.

4. L’équation de Thue Il s’agit du point culminant de ce cours, même si quelques prolongements et questions plus générales seront indiquées dans une dernière partie. Cette équation généralise l’équation de Pell dans sa forme, et combine les différents ingrédients (traitement algébrique, construction de forme linéaire, réduction de borne) dans le cas général. On appelle équation de Thue une équation de la forme (9)

P (x, y) = a,

avec P homogène, irréductible, de degré > 3. Il est bon de noter que le cas du degré 2 est le cas de l’équation de Pell, que le cas du degré 1 est une recherche de coefficients de Bezout ; enfin, que si le polynôme P = P1 P2 est réductible, on trouve un nombre fini de


179

systèmes P1 (x, y) = a1 , P2 (x, y) = a2 , qui se résolvent de façon banale par élimination, par exemple par un calcul de résultant. Ces remarques étant faites, consacrons-nous à l’équation de Thue. Dans un souci de simplification, on supposera P unitaire en X, ce que l’on peut toujours faire en pratique, quitte à effectuer un changement de variable (bien choisi de façon à conserver le caractère entier des racines ; on ajoutera souvent ce faisant des solutions parasites qui sont éliminées par vérification a posteriori). D’un point de vue algébrique, si l’on prend une racine α du polynôme P , et que l’on écrit α1 , . . . , αn les différents conjugués de α, on peut réécrire l’équation sous la forme n Y (10) (X − Y αi ) = a i=1

soit encore NQ(α)/Q (X − αY ) = a. Dans la suite, on notera σi le plongement de Q(α) dans C qui envoie α sur αi . On note en outre s le nombre de αi réels, 2t le nombre de αi ∈ C − R, et on suppose les αi ordonnés en commençant par les réels. 4.1. Équation aux unités. — Comme dans l’équation de Pell, on construit alors E, un ensemble de solutions non-associées modulo l’action du groupe des unités de cette équation aux normes. Notons µ un élément de E. La suite de l’algorithme devra être répétée une fois pour chaque élément µ ∈ E. On va chercher une solution sous la forme X − αY = µε, où ε est une unité du corps Q(α). Le groupe des unités étant de type fini Q et de rang r, on peut chercher ε sous la forme ε = ηibi , où ηi est un système d’unités fondamentales de Q(α). Nous avons donc nos inconnues exponentielles. 4.2. L’inégalité fondamentale. — Il nous reste, pour pouvoir appliquer la machinerie générale, à construire une quantité voisine de 1, de façon à obtenir une forme en logarithmes voisine de 0. Pour ce faire, il nous faut contrôler les ordres de grandeur, ce qui va se faire via une observation importante sur l’équation initiale. En substance, l’équation sous la forme (10) montre qu’on a un produit de n termes de la forme X − αY de taille bornée. Comme au plus un de ces termes peut

180

G. HANROT

être petit (car, alors, X ≈ αk Y et pour j 6= k, X − αj Y ≈ Y (αk − αj ) est de l’ordre de grandeur de Y ), il doit être très petit. Théorème 7. — On pose f (X) = P (X, 1). Soit  1/n  2n−1 |a|  min16i6t |f 0 (αs+i )| · min16i6t |Im αs+i | Y0 =  1 c1 =

2n−1 |a| min16i6s |f 0 (αi )|

si t > 1, si t = 0,

.

Soit (x, y) une solution entière de (9). Si |y| > Y0 alors, pour un i0 ∈ {1, . . . , s} on a c1 (11) |x − αi0 y| 6 n−1 . |y| Démonstration. — On définit i0 par |x − αi0 y| = min |x − αi y|. On a i

alors (12)

Y

|x − αi y| = |a|

i

par ailleurs |x − αi y| > |y||αi0 − αi | − |x − αi0 y|, soit encore, par définition de i0 , |y| |αi0 − αi |. |x − αi y| > 2 On obtient le résultat en reportant cette minoration dans (10). Supposons alors que pour un certain x, on a i0 > s. Il vient, c1 > |x − αi0 y| > |y|| Im αi0 |, |y|n−1 c’est-à-dire que |y| 6 Y0 . Ce théorème est une mine d’informations. Tout d’abord, il indique que si P n’a que des racines imaginaires, l’équation se résout très rapidement par énumération exhaustive. Ensuite, il montre que dans le cas contraire, hormis pour quelques petites valeurs de y, pour toute solution (x, y), x/y est une réduite du développement en fractions continues d’une des racines réelles de l’équation. Cette remarque est souvent cruciale pour l’énumération finale des petites solutions. Enfin, c’est ce résultat qui a permis à Thue de prouver, en 1909, la finitude du nombre de solutions à l’équation qui porte maintenant son


181

nom, comme corollaire du résultat d’approximation des algébriques par des rationnels mentionné plus haut. Mais ce qui nous intéresse surtout, c’est qu’il nous fournit le résultat d’approximation qui va nous permettre de construire la quantité souhaitée. À ce point, il faut ajouter une nouvelle combinatoire à celle des différentes solutions des équations aux normes, i.e., il faut faire ce qui suit pour toutes les racines réelles de l’équation de départ, de façon à énumérer tous les choix possibles pour i0 . Dans la suite, on supposera sans perte de généralité que α = α1 est la racine telle que X − αY est petit. 4.3. Une quantité voisine de 1. — Il nous devient aisé de construire une quantité de type exponentielle qui soit voisine de 1 : dans la mesure où X − αj Y est très proche de (α − αj )Y , il vient que (X − αj Y )/(α − αj ) est très proche de Y , et donc que X − αj α − αk · X − αk α − αj est très proche de 1. Plus précisément, on a alors : Proposition 3. — On pose c2 =

−1 1/n . min |αi − αj | , c3 = 1.39c1 c−1 , X = max X , 2c c 1 0 1 2 2

16i<j6n

Alors si j, k 6= i0 , on a Log X − αj Y · α − αk 6 2c3 . X − αk Y α − αj |Y |n Enfin, 0 Log (X − αi0 Y )f (αi0 ) 6 (n − 1)c3 . |a|Y n−1 |Y |n Démonstration. — Il suffit d’estimer | log {(X − αj Y )/(αY − αj Y )} | ; On écrit tout simplement que X/Y − αi X/Y − αi0 −1= , αi0 − αi αi0 − αi et on utilise le lemme fondamental et la définition de c2 . On obtient alors X − αi Y 6 c1 − 1 Y (αi − αi ) c2 |Y |n 0

182

G. HANROT

Il suffit alors de remarquer que si |z − 1| 6 1/2, on a alors | Log z| 6 1.39 · |z − 1|, où Log est la détermination principale du logarithme complexe ; noter que le choix de X1 garantit que le majorant est plus petit que 1/2. Les résultats s’ensuivent en combinant l’inégalité obtenue pour j et pour k (premier point) ou en ajoutant toutes les inégalités (dernier point). Prenons un système η1 , . . . , ηr d’unités fondamentales du corps Q(α). On peut alors, par l’étude algébrique, écrire X − αY = µη1b1 . . . ηrbr . Il vient X σj (ηi ) σj (µ)(α − αk ) 2c3 bi Log + Log . 6 σk (ηi ) σk (µ)(α − αj ) |Y |n Il nous reste, pour mettre en œuvre complètement le programme général, à montrer que la borne supérieure se réécrit comme exp(O(maxi |bi |)), soit encore que maxi |bi | et log Y sont du même ordre de grandeur. Pour ce faire, on remarque que r X c3 | log Y + log |α − αi | − log |σi (µ)| + bj log |σi (ηj )|| 6 6 1/2 |Y |n j=1

pour |Y | assez grand, soit un système de r−1 équations indépendantes en les r inconnues bi . On peut en fait compléter ce système par une équation analogue pour i = i0 , obtenue grâce au dernier point de la proposition 3. En résolvant ce système, on voit que maxi |bi | dépend linéairement de log Y , et donc que l’on a bien X σj (ηi ) σj (µ)(α − αk ) bi Log + Log 6 exp(−C max |bi |), i σk (ηi ) σk (µ)(α − αj ) pour une constante C explicitement déterminée par l’équation. On rentre alors dans le cadre général développé précédemment ; la borne de Baker nous fournit une borne (immense) pour maxi |bi |, et la méthode de réduction permet de réduire ladite borne, conduisant à une borne très raisonnable. Dans une dernière phase, on peut soit choisir (r petit) d’énumérer les r-uplets (b1 , . . . , br ), soit traduire la borne en borne sur X, Y et utiliser la caractérisation de x/y en terme de réduite du développement en fraction continue de αi0 , pour y pas trop petit.


183

4.4. Un exemple. — Cette méthode générale (en fait, une version dont l’algorithmique a été assez largement optimisée pour fonctionner dans le cas de grands degrés) est implantée dans GP (commandes thueinit, thue, la première effectuant le travail préparatoire indépendant du second membre a, la seconde résolvant étant donné une valeur particulière de a et le résultat de thueinit). Pour l’équation x4 − 2y 4 = 1, on trouve que dans tous les cas (un élément dans E, deux racines réelles, donc deux cas à traiter), on a maxi |bi | 6 5.1 · 1026 . Après réduction (légèrement différente de ce qui est présenté ici), on trouve successivement maxi |bi | 6 34, 6, 5. On finit par en déduire que les seules solutions sont (1, 0) et (−1, 0). 5. Conclusion Diverses généralisations pourraient à ce point être obtenues à peu de frais algorithmique, mais à un coût algébrique assez lourd. 5.1. Méthode des logarithmes elliptiques. — Je pense à la méthode des logarithmes elliptiques pour résoudre, en particulier, les équations du type Y 2 = X 3 + aX + b (avec 4a3 + 27b2 6= 0) ; dans ce cas, le groupe sous-jacent est le groupe des points rationnels de la courbe elliptique correspondante, il est bien de type fini (donc tout P point s’écrit P0 + ni Pi , avec P0 dans un ensemble fini et les Pi fixés), et on a une fonction « logarithme » (le logarithme elliptique) ayant de plus les bonnes propriétés. La même démarche générale, moyennant l’utilisation d’une généralisation de la borne de Baker à ce contexte, permet de résoudre complètement le problème. Il convient de noter qu’en l’état, la procédure de détermination des générateurs du groupe sous-jacent (les Pi ) n’est pas à proprement parler un algorithme, même si dans la plupart des cas raisonnables, elle termine en renvoyant un résultat prouvé. Pour cette méthode, je renvoie par exemple à [16]. 5.2. Équations superelliptiques. — On pourrait aussi discuter de l’approche de Bilu pour les équations superelliptiques y p = f (x) [5], raffinée par Bilu et l’orateur [6]. Cependant, là encore, cela impose un traitement algébrique à la fois soigneux et conséquent, qui dépasse le cadre – assez informel – de ce cours.

184

G. HANROT

5.3. Développements récents du sujet. — On peut considérer, de façon récente, l’algorithmique de ces différents types d’équations diophantiennes comme bien comprises. Le point limitant est en effet devenu le calcul des générateurs du groupe sous-jacent, à côté duquel la résolution proprement dite est souvent très peu coûteuse. La tendance moderne est donc à s’intéresser à deux questions générales : – les équations diophantiennes pour lesquelles les inconnues vivent dans l’anneau des entiers d’un corps de nombres ; – les familles d’équations diophantiennes à un ou plusieurs paramètres. Dans les deux cas, les méthodes et idées de départ sont les mêmes qui sont exposées ici, mais le traitement complet requiert des ingrédients plus subtils. 5.4. Diviseurs primitifs des suites de Lucas. — Pour conclure, on citera une belle application [7] provenant de la résolution complète de la famille d’équations de Thue correspondant aux sous-corps réels maximaux des corps cyclotomiques : Soit α, β deux entiers algébriques tels que α + β et αβ soient dans Z − {0}, et α/β n’est pas une racine de l’unité. On pose Un (α, β) = (αn − β n )/(α − β). On dit qu’un premier p est un diviseur primitif de Un (α, β) si p Q divise Un (α, β), mais p ne divise pas (α−β)2 16i6n−1 Ui (α, β). Alors on a : Théorème 8. — Pour tout n > 30, Un (α, β) a un diviseur primitif. √ Ce résultat est optimal, comme le montre le cas (α, β) = (1 ± i 7)/2. Références [1] A. Baker – « Linear forms in the logarithms of algebraic numbers I », Mathematika 13 (1966), p. 204–216 ; II, ibid. 14 (1967), p. 102–107 ; III, ibid. 14 (1967), p. 220–228 ; IV, ibid. 15 (1968), p. 204–216. , « Contributions to the theory of Diophantine equations. I. [2] On the representation of integers by binary forms », Philos. Trans. Roy. Soc. London Ser. A 263 (1968), p. 173–191 ; II. The Diophantine equation y 2 = x3 + k, ibid. 263 (1968), p. 193–208. [3] A. Baker & H. Davenport – « The equations 3x2 − 2 = y 2 and 8x2 − 7 = z 2 », Quart. J. Math. Oxford (2) 20 (1969), p. 129–137.


185

[4] A. Baker & G. Wüstholz – « Logarithmic forms and group varieties », J. Reine Angew. Math. 442 (1993), p. 19–62. [5] Yu. Bilu – « Solving Superelliptic Diophantine Equations by Baker’s method », prépublication, 1994. [6] Yu. Bilu & G. Hanrot – « Solving Superelliptic Diophantine Equations by Baker’s method », Compositio Math. 112 (1998), p. 273–312. [7] Yu. Bilu, G. Hanrot & P. Voutier – « Existence of Primitive Divisors of Lucas and Lehmer Sequences (with an appendix by M. Mignotte) », J. Reine Angew. Math. 539 (2001), p. 75–122. [8] F. Dyson – « The approximation to algebraic numbers by rationals », Acta Math. 79 (1947), p. 225–240. [9] A.O. Gelfond – Transcendental and Algebraic Numbers, Dover Publications, New York, 1960, traduction anglaise. [10] M. Laurent, M. Mignotte & Y. Nesterenko – « Formes linéaires en deux logarithmes et déterminants d’interpolation », J. Number Th. 65 (1995), p. 285–321. [11] A.K. Lenstra, H.W. Lenstra, Jr. & L. Lovász – « Factoring polynomials with rational coefficients », Math. Ann. 261 (1982), p. 515–534. [12] Yu. Matijasevič – « Enumerable sets are diophantine », Dokl. Akad. Nauk. SSSR 191 (1970), en russe ; version anglaise complétée : Soviet Math. Doklady, 12 (1971), p. 249-54. [13] K.F. Roth – « Rational approximations to algebraic numbers », Mathematika 2 (1955), p. 1–20. [14] C.L. Siegel – « Approximation algebraischer Zahlen », Math. Zeit. 10 (1921), p. 173–213. [15] N.P. Smart – The Algorithmic Resolution of Diophantine Equations : A Computational Cookbook, London Mathematical Society Student Texts, vol. 41, Cambridge University Press. [16] R. Stroeker & N. Tzanakis – « Solving elliptic Diophantine equations by estimating linear forms in elliptic logarithms », Acta Arith. 67 (1994), p. 177–196. [17] A. Thue – « Über Annäherungswerte algebraischer Zahlen », J. Reine Angew. Math. 135 (1909), p. 284–305. [18] N. Tzanakis & B.M.M. de Weger – « On the Practical Solution of the Thue Equation », J. Number Th. 31 (1989), p. 99–132. [19] I. Vardi – « Archimedes’ Cattle Problem », Amer. Math. Monthly 105 (1998), p. 305–319. [20] B.M.M. de Weger – « Solving exponential diophantine equations using lattice basis reduction algorithms », J. Number Th. 26 (1987), p. 325–367.

G. Hanrot, Projet spaces, INRIA Lorraine, 615, rue du Jardin Botanique, F-54602 Villers-les-Nancy Cedex • E-mail : [email protected]

Theorie algorithmique des nombres, equations diophantiennes (Journes X-UPS 2005)

Un cours de theorie analytique des nombres

Theorie algebrique des nombres, 2e edition

Theorie de Galois et theorie algebrique des nombres

Theorie des nombres irrationnels, des limites et de la continuite

Etude algebrique et algorithmique des singularites des equations differentielles implicites

Theorie algebrique des nombres. Deuxieme et troisieme cycles

Approximations Diophantiennes et Nombres Transcendants: Colloque de Luminy, 1982

La science des nombres

La science des nombres

Nombres

Dictionnaire Penguin des nombres curieux

Nombres

Nombres

Theorie des ensembles

Theorie axiomatique des ensembles

Theorie des distributions

Theorie des kommunikativen Handelns

Theorie des Partisanen

Theorie des corps

La theorie des jeux

Theorie des Matroides

Theorie des Hyperfonctions

Theorie des distributions

Les methodes directes en theorie des equations elliptiques

Algorithmique et programmation

Le Triparty en la science des nombres

Geometrie et theorie des groupes

Geometrie et theorie des groupes

Theorie statistique des champs (Broché)

Theorie quantique des champs experimentale

Theorie algorithmique des nombres, equations diophantiennes (Journes X-UPS 2005)

Un cours de theorie analytique des nombres

Theorie algebrique des nombres, 2e edition

Theorie de Galois et theorie algebrique des nombres

Theorie des nombres irrationnels, des limites et de la continuite

Etude algebrique et algorithmique des singularites des equations differentielles implicites

Theorie algebrique des nombres. Deuxieme et troisieme cycles

Approximations Diophantiennes et Nombres Transcendants: Colloque de Luminy, 1982

La science des nombres

La science des nombres

Nombres

Dictionnaire Penguin des nombres curieux

Nombres

Nombres

Theorie des ensembles

Theorie axiomatique des ensembles

Theorie des distributions

Theorie des kommunikativen Handelns

Theorie des Partisanen

Theorie des corps

La theorie des jeux

Theorie des Matroides

Theorie des Hyperfonctions

Theorie des distributions

Les methodes directes en theorie des equations elliptiques

Algorithmique et programmation

Le Triparty en la science des nombres

Geometrie et theorie des groupes

Geometrie et theorie des groupes

Theorie statistique des champs (Broché)

Theorie quantique des champs experimentale

Recommend Documents