Interactions entre les gènes des enzymes antioxydantes et ... · Interactions entre les gènes des enzymes antioxydantes et leurs relations avec le cancer du sein Mémoire présenté

YOSR HAMOI

Interactions entre les gènes des enzymes antioxydantes et leurs relations avec le cancer du sein

Mémoire présenté À la Faculté des études supérieures de l'Université Laval

Dans le cadre du programme de MaÎtrise en Biologie cellulaire et moléculaire Pour l'obtention du grade de MaÎtrise ès sciences (M.Sc.)

© 2008 Y osr Halndi

Département de Biologie Médicale Directeur de recherche: Dr. Ven Murthy

FACULTÉ DE MEDECINE UNIVERSITÉ LAVAL

QUÉBEC

Remerciements:

« L 'homme sans servitude, ['homme sans croyance, ['homme sans mythes, c'est un mythe .... ~ais 6eaucoup de mythes sont devenus des réa.Eités }·ustement du fait des sciences »

« Je remercie beaucoup Dr. Ven Murthy pour sa disponibilité et sa compréhension, la direction du programme de Biologie Cellulaire et Moléculaire notamment Dr. Michel Vincent et Mme Andrée Filiatraut. Un gigantesque remerciement pour Dr. Jérôme Laroche et Dr. François Larochelle du centre de bioinformatique de l'université Laval pour leur collaboration, leur disponibilité et leur patience. Je tiens aussi à remercier mon marie Wassel Chabouha et mon frère Maher Hamdi qui m'ont beaucoup soutenu et qui ont été toujours une vraie idole pour moi. Merci à tous ceux et celles que j'ai connus dans toute ma vie parce que c'est sûr que j'ai appris beaucoup de choses de tous ces gens... »

Yosr Hamdi

Il

TABLE DES MATIÈRES

Numéro de la page

RÉSUMÉ ABSTRACT

CHAPITRET Cancer du sein: le rôle du stress oxydatif, les antioxydants et les enzymes antioxydantes ... ....... . ............................... .

1-1. les rôles des radicaux libres d ' oxygène, les pro-oxydants et les

iï ÏIÏ

oxydants et les antioxydants dans le phénomène de cancérogénèse. . ....... 2 1-2. Les antioxydants.............................................................. ... .. 4 1-3. Les enzymes antioxydantes.......................................... . ....... .... 7

1-3-1. Les superoxydes dismutases cytoplasmiques (SOD-l)........ . .. .. 7 1-3-2. Les superoxydes dismutases mitochondriaux (SOD-2)............. 7 1-3-3. La glutathionne peroxydase cellulaire (GPx1).................... .... 8 1-3-4. Catalase (CAT) ~ ................... ...................... .................. 9

1-4. Les hormones stéroïdiennes, leurs récepteurs et la thérapie endocrine du cancer du sein ............. . ........................................ 10

1-5. L 'œstrogène, le tamoxifen et leurs effets sur les gènes d ' enzymes antioxidantes ..... .. ................................................ ~ . . .. . .. . ....... 12

CHAPITRE 2 Les signaux de transduction, les interactions géniques, les dialogues entre les gènes et le polymorphisme .................. 14

2-1. Généralités: Les signaux de transduction.................... ... .. ...... ...... 15 2-2. Les voies de signalisation, les interactions géniques ainsi que les

polymorphismes trouvés dans nos quatre gènes ................................ 19 2-2-1 Voies de signalisation ..................................................... 19 2-2-2 Interaction génique............................................... ......... 19 . 2-2-3 Polymorphisme: Polymorphismes Nucléotidiques Simples

(SNP). ............... ..................... ......... ............... ........ 20

CHAPITRE 3 Le plan de travail en vue de découvrir les mécanismes de régulation des gènes d ' enzymes antioxydantes dans le

cancer du sein............................................... ................ ............... 26

_ 3-1 Méthodologie...................................... ................. . ...... . ...... 29 3-1-1. Les outils bio-informatiques.................................. ...... .... 29 3-1-2 Recherche des Variants de SOD2 et GPxl qui sont surexprimés

dans notre étude. . .. . .. . .. . . . . . . . . . . .. . . . . . . . . . . .. . . . . . . . . . . . . . . . . .. . .... 31 3-1-3 Comparaison et recherche des régions de similarité entre tous les

composants de nos quatre gènes....... . ............................... 33

i i

3-1-3-1 Extraction des séquences nucléotidiques et peptidiques des'quatre gènes: SODI, SODI,GPxI etCAT ............. 33

3-1-3-2 Alignement et comparaison des séquences nucléotidiques et peptidiques des quatre gènes: SODl , SOD2, GPxl et CAT..................................................... 43

3-1-4 Recherche des facteurs de transcription impliqués dans l' expression de nos gènes............................................ 49

3-2 Résultats et Discussion.. ..... . ...... ...... ........... .... .. ............. .. ....... . 50 3-2-1 Variants 1 de SOD2 et de GPx 1 ...................................... 50 3-2':'2 Régions similaires et pourcentage de ressemblance entre les

composantes de nos quatre gènes.................................... 51 3-2-2-1 Résultats pour SODI/SOD2................................ 52 3-2-2-2 Résultats pour GPxI/CAT .................................. ,64

3-2-3 Facteurs de transcription et régulation de l' expression génique... 74

CHAPITRE 4 Conclusion........ ........... ......... . ......... ... ....... ..... ..... 79

RÉFERENCES..... ........ ...... .... ..... ... ... .... ........... ...... ... ...... .... ..... 119

LISTE DES FIGURES:

Numéro de la page

Figure-l. L ' inactivation des radicaux libres par l' action des quatre enzymes étudiées dans notre projet..... .. .... ..... . ..... . .......... . .. 5

Figure-2. Quelques voies de signalisation impliquées dans quelques processus primordiaux dans la survie cellulaire: la régulation, la différentions, le cycle cellulaire et l' apoptose. ....... ........ ............... ....... ..... 16

Figure-3. Quelques voies de signalisations impliquées dans certains types de cancer.. ................................................ ......... . ........ .... 17

Figure-4. Multiples voies de signalisation impliquées dans le cancer......... 18

Figure-S. Les voies de signalisation appliquées sur les gènes antioxydants qui ont une relation avec la sclérose amyotrophique latérale......... 21

Figure-6. Localisation du gène SODI sur le chromosome 21 ................. .... 32

Figure-7. Structure de l ' enzyme SODI et représentation détaillé du site actif de SOD] et les acides aminés impliqués dans la liaison des ions Cu et Zn........................................................................... 34

Figure-8. Localisation du gène SOD2 sur le chromosome 6 .. ; .. ...... ... ......... ... 36

Figure-9. Localisation du gène GPx 1 sur le chromosome 3........... . .......... . ... 40

Figure-IO. Localisation du gène Catalase sur le chromosome Il . .... .............. 42

Figure-Il. Arbre phylogéniques des quatre gènes SODl , SOD2, GPx l et CAT... 73

v

--------j;:/

LISTE DES TABLEAUX

Numéro de la page

Tableau-l. Liste des familles d 'enzymes antioxydantes ion-dépendants....... 6

Tableau-2. L'interaction entre le polymorphisme de GPX l , Pro 198Leu, et celui de

MnSOD, Val] 6Ala, et le risque de cancer du sein ............ ... .... 25

Tableau-3. Amorces utilisés pour l'Amplification des ADNe de nos quatre gènes... 32

Tableau-4. Longueur des régions codantes et non codantes de SOD 1 ainsi que leurs

localisations sur ce gène ............................................... ..

Tableau-S. Longueur des régions codantes et non codantes des trois variants

de SOD2 ainsi que leurs localisations sur ce gène .................. .

Tableau-6. Longueur des régions codantes et non codantes des deux variants

de GPx] ainsi que leurs localisations sur ce gène .................. .

Tableau-7. Longueur des régions codantes et non codantes de l'enzyme Catalase

ainsi que leurs localisations sur ce gène ............................. .

Tableau-8. Quelques caractéristiques des gènes des enzymes antioxydantes ainsi

que les produits des gènes analysés dans ce projet. ................ .

Tableau-9. Identification des régions d'identité entre les séquences codantes

(exons) des gènes SOD] et SOD2 (Variant]) ainsi que le pourcentage

d'identité entre ces régions (Bestfit) .................................... .

Tableau-IO. Identification des régions d ' identité entre les séquences

non codantes (introns) des gènes SODI et SOD2 (Variant])

ainsi que le pourcentage d'identité entre ces régions (Bestfit) ..... .

Tableau-Il. Identification des régions d'identité entre les séquences 5' -UTR

et 3' -UTR des gènes SOD] et SOD2 (Variant]) et de leurs

37

41

45

47

48

54

55

ARNms ainsi que le pourcentage d'identité entre ces régions (Bestfit)... 58

Tableau-I2. Identification des régions d'identité entre les séquences peptidiques de SOD] et SOD2 (Isoforme A) ainsi que le pourcentage d ' identité entre ces séquences (Bestfit)................................... ... 59

v

Tableau-13. Comparaisons des exons de SOD] et SOD2 (variant]) par la méthode Gap............................................... ............. 60

Tableau-14. Comparaisons des introns de SOD] et SOD2(Variant]) par la méthode Gap... .. . ... ... ... ... ... ... ... ... ... ... ... ..... ..................... 61

Tableau-15. Comparaison des régions 5' -UTR et 3' -UTR des gènes SOD] et SOD2 (variant1) et de leurs ARNms selon le programme Gap .......................................... :........ 62

Tableau-16. Comparaisons des séquences peptidiques de SOD] et SOD2 (Isoforme A) par la méthode Gap. L ' jsoforme A est la protéine résultante

. du Variant] de SOD2...................................................... 63 Tableau-17. Identification des régions d ' identité entre les séquences codantes

(exons) des gènes GPx1 (Variant1) et CAT ainsi que le pourcentage d ' identité entre ces régions (Bestfit). . .. . . . . .. . . . . .. . . . . .. . .. . . . . . . . .. 65

Tableau-18. Identification des régions d ' identité entre les séquences non codantes (introns) des gènes GPx1 (Variant1) et CAT ainsi que le pourcentage d ' identité entre ces régions (Bestfit). . . . . .. . . . .... .. . .. . .. . .. ... . . . . .. . . 66

Tableau-19. Identification des régions d ' identité entre les séquences 5' -UTR et 3 ' -UTR des gènes GPx1 (Variant1) et CAT et de leurs ARNms ainsi que le pourcentage d ' identité entre ces régions (Bestfit)...... 67

Tableau-20. Identification des régions d ' identité entre les séquences peptidiques de GPx] (Isoforme A) et CAT ainsi que le pourcentage d' identité entre ces séquences (Bestfit).............................................. 68

Tableau-21. COlnparaisons des exons de GPxl(Variant1) et CAT par la méthode Gap... ... ... .................................................. .... 69

Tableau-22. Comparaisons des introns de GPxl (Variant1) et CAT par la méthode Gap...... ... ... ...... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .... . .. . 70

Tableau-23. Comparaison des régions 5' -UTR et 3' -UTR des gènes GPx1 (Variant]) et CAT et de leurs ARNm selon le programme Gap ... ... .

Tableau-24. Comparaisons des séquences peptidiques de GPx1 et CAT par la méthode Gap........................................................ ....... 73

Tableau-25. Liste des facteurs de transcription trouvés en abondance sur nos quatre gènes ainsi que le nombre de fois qu ' on a trouvé ces facteurs de transcription sur chacun des gènes indiqués. ~ ... .... ... 78

v

LISTE DES ANNEXES

Numéro de la page

ANNEXE l Les séquences nucléiques des gènes SODI , SOD2, GPxI et CAT... 83

. ANNEXE II Les séquences peptidiques des quatre enzymes antioxydantes SODI , SOD2, GPxletCAT ........................................................ 117

v

ROS 0 2-

H 20 2

OH-H+

SODI SOD2 MnSOD GPxl CAT ADN ADNe ARNm GSH Cu Zn Se Fe Kb Pb NF-KB ER PR TAM ER-a TGF-a EGFR BRCAI BRCA2 SNP aa TFD AP-2 CTF/CBp ·

LISTE DES ABBREVIATIONS

Radicaux oxygénés libres (Reactive oxygen species) Anion superoxyde Peroxyde d' hydrogène L'hydroxyle Ion hydrogène Superoxyde dismutase cytosolique Superoxyde dismutase mitochondriale Manganèse superoxyde dismutase Glutathionne peroxydase cellulaire Catalase Acide désoxyribonucléique Acide désoxyribonucléique complémentaire L'acide ribonucléique messager Glutathion Le cuivre Le zinc Le sélénium Le fer Kilo bases Pairs de base Nuclear factor-kappa B Récepteur de l'Œstrogène Récepteur dela progestérone Tamoxifen Récepteur de l 'Œstrogène alpha Transforming Growth Factor alpha Epidermal growth "factor receptor Breast Cancer 1 Breast Cancer 2 Single Nucleotide Polymorphism Acide aminé Transcription Factor Database Activating Protein 2 Co-activator Transcription Factor/CREB Binding Protein

RÉSUMÉ

Le cancer du sein est considéré comme le cancer le plus dangereux jamais diagnostiqué

chez les femmes dans le monde. Plusieurs équipes de recherche essaient de délivrer le mystère

de ce cancer en étudiant plusieurs facteurs qui y sont impliqués. Dans notre laboratoire on a

essayé d'étudier les interactions entre les gènes antioxydants : SOD l , SOD2, GPx 1 et CA T et

de comprendre la relation qui peut exister entre ces gènes et le cancer du sein. Ces enzymes,

malgré qu ' elles accomplissent des fonctions similaires, elles se localisent dans des

compartiments cellulaires différents.

Pour cette étude on a utilisé des outils bio-informatiques jugés de très intéressants et très

efficaces pour répondre à trois questions principales: a) Les quels des différents variants de

SOD2 et de GPxI qui sont surexprimés dans les cellules mammaires cancéreuses (ER+)?

b) y'a-t-il des régions similaires entre les différentes régions codantes et non codantes entre ces

gènes, si oui, est ce que ces ressemblances ont des effets sur leurs niveaux d'expressions et est

ce que ces ressemblances peuvent expliquer les mécanismes de · régulation de nos quatre gènes

et déterminer par quel moyen ils communiquent entre eux? c) Est-ce que la régulation de

l'expression de nos quatre gènes peut être due à certains facteurs de transcription communs entre

eux, si oui les quels?

Notre étude a réussi à répondre à ces trois questions pour donner des bonnes perspectives

au niveau des études scientifiques sur ce type de cancer, mais des études plus approfondis en

laboratoire seront très intéressants pour mieux comprendre la relation entre les gènes

antioxydants et le cancer du sein.

iT

ABSTRACT

Breast cancer is considered to be the most dangerous cancer ever diagnosed at the

women in the world. Several research teams have tried to understand the mystery of this cancer

by studying several factors which could be implied. In our laboratory we have attempted to

study the interactions between antioxidant genes: SODI , SOD2, GPxI and CAT and to

understand the relation that can exist between these genes and breast càncer. Although these

enzymes perform similar functions, they are located in different cellular compartments.

For this study we have used interesting bioinformatic tools to answer three maIn

questions: a) Which variants of SOD2 and GPxI are over-expressed in the breast cancer cells

(ER +)? b) Are there similar regions between the various coding and not co ding regions in these

genes, if yes, did these resemblances have effects on the levels of their expressions and could

they explain the mechanisms of regulation of our four genes and determine by which ways they

communicate between themselves? c) Could the regulation of the expression of our four genes

be due to sorne common transcription factors, if yes which ones?

Our study gave answers to these three questions and so it brought good perspectives to

scientific studies in this cancer, but deeper studies in laboratory will be acquired to better

understand the relationships between the antioxidant genes and breast cancer.

iTi

. CHAPITRE-l

CANCER DU SEIN: LE RÔLE DU STRESS OXYDA TIF , LES ANTIOXYDANTS ET LES ENZYMES ANTIOXYDANTES'

( 1 )

1-1. Les rôles des radicaux libres d'oxygène, les pro-oxydants et les antioxydants dans le phénomène de la cancérogénèse:

Le développement normal des tissus est régulé par une certaine hémostasie entre la

prolifération cellulaire et la mort cellulaire par apoptose. Cette dernière est programmée

génétiquement et elle est considérée comme une décision prise par les cellules elles mêmes pour

qu'elles se suicident pour le bien-être de l'hémostasie des tissus ce qui lui a permis d'être conservée

durant l'évolution. Cette apoptose est maintenu par des signaux intra et extracellulaires qui

aboutissent à des changements des niveaux d'expression génique. Ces changements poussent la

cellule d'entrer dans une cascade de changements morphologiques et biochimiques qui finissent par

la fragmentation de l'ADN et donc la morte cellulaire. Le désordre dans la régulation de la

prolifération cellulaire et dans l' apoptose sont des facteurs majeurs et responsables de l'initiation et

la naissance des cellules cancéreuses. En effet, les ROS ont été reconnues capables de dégrader et

d'inactiver des molécules importantes et des structures biologiques critiques dans la prolifération des

cellules ce qui explique leurs implications, directes ou indirectes, dans plusieurs maladies humaines

y inclus le cancer. «ROS» est un terme qui reflète plusieurs formes intermédiaires de l'oxygène y

inclue les éléments radicaux et non radicaux qui participent dans l'initiation et la propagation de la

réaction en chaine des radicaux libres (1).

Le superoxyde (02-), le peroxyde d'hydrogène (H20 2) et l'hydroxyle (OH-) sont des éléments

majeurs de la famille des radicaux libres (ROS). Ils sont générés continuellement par le

métabolisme normal « in vivo» et correspondent aux étapes intermédiaires de la réduction de

l'oxygène (2). Ces éléments, peuvent se transformer facilement en des formes dangereuses des

radicaux libres, par exemple, une dismutation de 0 2- en H202 par l'action des superoxydes

2

dismutases cytosoliques et mitochondriales (SODI et SOD2 respectivement). H20 2 à lui seul n 'est

pas très puissant dans les solutions aqueuses mais il a une demi-vie plus longue qu ' 0 2-, il est

capable de dépasser la membrane lipidique et il peut initier des réactions d ' oxydation et de

mutagénèse (3). La réaction Fenton et Haber-Weiss du radical O2 avec H20 2 en présence des

métaux catalytiques donne naissance au radical OH- qui est un des radicaux les plus actifs des

ROS (4):

OH- est le radical le plus agressif de touts les radicaux libres. Son action sur les protéines

mène à une réticulation protéine-protéine extensive (5) dans l'ADN, l' OH- peut provoquer

plusieurs dommages comme des modifications au niveau des bases et des sucres, des réticulations

entre les bases, réticulations entre ADN et protéine, des cassures doubles brin ainsi qu'une

formation des adduits (6).

Par conséquent, le rôle des enzymes antioxydants est crucial dans la régulation du

métabolisme. Notre étude est faite sur les enzymes antioxydantes les plus importantes, des

enzymes qui agissent directement sur des radicaux libres spécifiques et les dégradent en des

produits moins agressifs. Ces enzymes sont SODI , SOD2, GPxI et CAT (Tableau-l). Les SODI

et 2 convertissent le radical superoxyde en H20 2 qui, tous seul, ne forme pas un radical libre mais il

est considéré cümme un précurseur pour la formation du radical libre le plus puissant, OH-. La

détoxification de H20 2 est ensuite faite par GPxI qui réduit H20 2 en eau (H20) en présence du

glutathionne (GSH) ou bien par CA T qui décompose le H20 2 en eau et oxygène (H20 + O2)

(Figure-l). Les SODs, les GPxs ainsi que CA T sont des enzymes intracellulaires très performants,

qui ont une performance qui se manifeste par des fonctions spécifiques et non remplaçables, et

chaque classe de ces enzymes est nécessaire pour la survie des cellules même sous des conditions

normales.

3

1-2. Les antioxydants :

L'excès en des ROS est généralement inactivé par différents mécanismes en utilisant les

molécules ' antioxydantes endogènes ou exogènes qui peuvent retarder ou empêcher l'oxydation d'un

substrat. Ainsi , des mesures préventives proprement antioxydantes agissent en liant et en séquestrant

les promoteurs d'oxydation et les ions en métal, tels que le fer et le cuivre, qui contiennent les électrons

impairs et accélèrent fortement la formation des radicaux libres. Le balayage ou les ruptures des

chaines faites par les antioxydants agissent à une partie dans la réaction en chaîne des radicaux libres,

en convertissant les radicaux de haute énergie en des produits à énergie réduite qui ne peuvent pas

propager la chaîne plus loin. Les éboueurs lipide-solubles et hydrosolubles agissent dans les

environnements cellulaires qui sont hydrophobes ou hydrophiles, respectivement.

4

SODI

SOD2

Figurel. L'inactivation des radicaux libres par l'action des quatre enzymes étudiées dans notre projet. Yuan X, Liu G, Murthy M.H..V. Eostrogen receptor-posirive and oest:rogen receptor-negarive human breast cancer cells: regularion

of expression of cancer - related genes by estradiol and tamoxife n. 2008;3:7-21 .

Les Superoxyde DisJllutases permettent de convertir l'anion superoxyde en H20 2 (toxique), lequel H20 2 doit être détoxifié par la glutathion peroxydase] (GPxl). A défaut de cette réaction, H20 2 va réagir avec les ions fer et générer des réactifs hautement toxiques pour les acides nucléiques des cellules (génotoxiques).

5

Tableau-l. Liste des familles d' enzymes antioxydantes ion-dépendants. Yuan X, Liu C , M urthy M.R.V. Eostrogen receptor-positive and oeslrogen receptor-negative human breast can cer cell s: regulation of expression of cancer - related genes by est:radiol and tamoxifcn. 2008; 3:Î-21

Enzyme family Enzyme Metal Cellular Chromosomal Reaction ion location location

SODI Cu/Zn Cytosol 21

Superoxide SOD2 Mn Mitochondria 6 2- +

dismutases EC-SOD Cu/Zn Interstitium 4 20 +2H ~ H202+02

Se-Glutathione . GPx-1 Se Cytosol 3

peroxidases GPx-p Se Plasma 5

PH-GPx Se Cytosol 19 H202 + GSIt---+ GSSG + 2 820

GPx-GI Se Cytosol 14

Catalase CAT Fe Peroxisomes II 2H202 ~ 2H20+02

Ce tableau regroupe les caractéristiques des quatre enzymes étudiés dans notre projet. D' après les informations fournisses par ce tableau on remarque que nos quatre enzymes sont localisées dans des différents endroits soit au niveau cellulaire ou chromosomal mais leurs fonctions se ressemblent.

6

1-3. Les enzymes antioxydantes :

1-3-1. Le superoxydes dismutases cytoplasmiques (SODi) : le gène SOD1 est un gène de Il

Kb de longueur et il comprend 5 exons et 4 introns, il a été localisé dans le chromosome 21 au

niveau de la région 21 q22 (7-8). La protéine qui. résulte est surtout trouvée dans le compartiment

cytosolique, mais des petites proportions de ces protéines ont été tracées dans l ' espace

intermédiaire des mitochondries et. dans les lysosomes (9-10). L' enzyme est formée par deux sous

unités polypeptidiques identiques, une liée à l ' atome Cu et l ' autre au Zn. Ce gène est très conservé

durant l ' évolution et il a montré des grandes similarités avec les gènes correspondants pour

d ' autres espèces surtout au niveau de la TATA boxe et les CCAAT boxes, la région riche en GC

ainsi que par la présence des sites de liaison à un certain nombre de facteurs de transcription

comme: NF1 , SpI , API , AP2, GRE et NF-KB (7,11 ,12). L'expression de SOD1 augmente ou

diminue dépendamment d'une large variété de stimuli externes (13-21). Une diminution dans

l ' expression de SOD 1 ou bien des mutations au niveau de ce gène qui perturbent le f~nctionnement

normal de ce gène, ainsi qu 'une « over dose» de SOD 1 ont été reliés directement ou indirectement

à des maladies neurologiques comme le Syndrome de Down (22-24) et la sclérose latérale

amyotrophique (25 ,26).

1-3-2. Superoxyde dimutase mitochondriale (SOD2) : L'autre gène qui fait partie de la

famille des superoxydes dismutases et qui fait l ' objet de notre étude est SOD2. Le SOD2 humain

est de 15 Kb de longueur et il comprend 5 exons et 4 introns et est localisé à la région 6q25 du

chromosome 6 (27). Contrairement à SOD1 , SOD2 n 'a pas de TATA boxe ni de CAAT boxe

mais il a une région riche en GC qui est très bien conservée dans toutes les espèces. Il y a aussi de

7

multiples séquences consensus Sp 1 et AP2 dans la région 5' -UTR flanquante ainsi que des sites

NF-KB et SpI dans la région 3' -UTR flanquante en aval du site de polyadénylation (27,28). Toutes

ces régions et ces sites sont très bien conservés aussi. Ce gène mène à la formation d'une protéine

qui est formée par 4 sous unités identiques localisées dans la matrice mitochondriale de certains

tissus comme le foie , les reins et les cellules pyramidales de l 'hippocampe (29-31). Comme SOD 1,

l ' expression du gène SOD2 est induite par plusieurs stimuli pro-oxydants qui se trouvent dans

l ' environnement de la cellule (32-38). Des observations ont montrées que l ' activité de SOD2 est

réduite dans les cellules cancéreuses (39), et qu'une surexpression de SOD2 protège les cellules

contre les radiations et réduit la malignité des cellules cancéreuses (40,41). Deux autres

observations principales placent SOD2 comme un gène suppresseur de tumeur: la perte

d'hétérozygotie de la région 6q de chromosome a été trouvé dans environ 40% de mélanomes

malins humains (42) et la suppression du long bras du chromosome 6 identifié dans SV 40 a

transformé le fibroblaste humain (43). En outre, la surexpression de MnSOD (SOD2) supprime la

tumorigenicité des cellules humaines de mélanome, des cellules de cancer du sein (44) et des

cellules de glioma (45). Toutes ces observations suggèrent que SOD2 peut protéger les cellules

contre la cancérogenèse causée par les radicaux libres. D'autres recherches faites sur les mutations

et les polymorphismes au niveau du gène SOD2 ont montré que ces derniers sont associés à de

sérieuses maladies humaines comme le vieillissement prématuré (46), des maladies

neuropathologiques, la cardiomyopathie idiopathique (47) et le cancer du sein (48).

1-3-3. La glutathionne peroxydase cellulaire (GPx1) : Le gène GPx1 humain a été localisé

au niveau de la région 3qll-3qI3.1 du chromosome 3 (49) ainsi que deux autres loci considérés

comme pS'eudogènes ont été trouvés dans le chromosome 21 et le chromosome X (50-52). Le

locus de GPx1 sur le chromosome 3 est très proche de l' oncogène rhoH12 qui est localisé de

8

l'autre coté du centromère à la position 3q21 (53) de façon que les 511 paIrs de bases de

l ' extrémité 3' -UTR de l 'ADN complémentaire (ADNc) de rhoH12 chevauche avec la séquence

5' -UTR flanquante de GPxl et à une distance de 810 pb du point de départ de la transcription du

gène GPx l (54,55). Plusieurs allèles dans la région 3p du chromosome 3 ont été fréquemment

observés dans plusieurs types de cancer sporadiques y inclus les cancers des poumons, du sein, des

reins et des ovaires (56).

En plus de ce site oncogénique, d ' autres régions régulatrices potentielles ont été observées

dans la région 5' -UTR flanquante incluant une répétition Alu, une TA TA boxe, des séquences

consensus SPI et API (57). L'expression de GPx1 est régulée par plusieurs signaux biochimiques

comme la tension d ' oxygène, les hormones et les xénobiotiques (58,59). L'enzyme active est un

tétramère qui est abondamment exprimé dans les érythrocytes, les reins et le foie mais il est moins

exprimé dans d' autres cellules (60). Des polymorphismes dans le gène GPx 1 sont associés à des

grands risques à quelques types de cancers (61-62).

1-3 -4. Catalase (CAT) : le gène de la catalase se trouve à la position Il p 13 du chromosome

Il (63). Une analyse d ' une portion de 1.7Kb de la séquence 5'-UTR flanquante a montré que ce

gène a un promoteur de structure typique, et que dans les 500 pb précédant le codon Start il n'ya

pas de boxe TATA, mais par contre il ya Cinque boxes CCAAT, deux motifs CCAAT inversés,

deux sites de liaison SpI , une région riche en GC ainsi que de multiple sites de début de

transcription.

Dans cette région on trouve également 4 éléments intéressants: une séquence de liaison à la

protéine c-myc (TCTCTT A), une boxe Pu (GAGGAA), une séquence de 1 ' interféron-~

(AAGTGA) et un élément de réponse au glucocorticoïde (TGTTCT). Toutes ces séquences

peuvent avoir un rôle dans la régulation de l ' expression de ce gène (64-68). La protéine CA Test

9

une protéine hème tétraédrique qui contient 527 acides aminés (69-71). Dans le foie, on trouve

beaucoup de cette enzyme paroxysomale. L ' enzyme cible cette organelle par un signal sous forme

d 'un tripeptide Ser-His-Leu localisé proche du terminal carboxyle de la protéine (72,73). Une

catalase mutée cause l ' acatalasémie (74). Un disfonctionnement de l'enzyme CAT peut être assez

grave pour causer plusieurs maladies. humaines comme: le vieillissement, l' athérosclérose,

l ' arthrite, le cancer, un disfonctionnement pulmonaire ... etc (75-77). Il ya aussi un certain nombre

d ' anomalies comme le syndrome de Zellweger et la malàdie de Refsum infantile qui sont liées à un

mauvais emplacement de cette enzyme dans un autre compartiment cellulaire à cause d 'une

défiance de l ' assemblement du peroxysome (78-80).

1-4. Les hormones stéroïdiennes, leurs récepteurs et la thérapie endocrine du cancer du sein:

L' œstrogène et la progestérone sont des facteurs crUCIaux dans la crolssancè et la

différentiation des tissus mammaires (81). Ces hormones exercent leurs effets par leurs liaisons et

l'activation de leurs récepteurs spécifiques; le -récepteur d'œstrogène (ER) et le récepteur de la

progestérone (PR). Des anticorps monoclonaux sont généralement utilisés pour des analyses

immuno-histochimiques du statut de ces récepteurs dans les tumeurs au niveau des cellules

mammaires (82). ER et PR sont des membres d'une superfamille de récepteurs nucléaires

d 'hormones qui, une fois associés à leurs ligands, fonctionnent comme des facteurs de transcription

(83); par exemple, l ' œstrogène influence l'expression d'un certain nombre de gènes incluant le PR,

qui sont importants pour la signalisation au niveau de la mitogénèse. Malgré qu'il n ' ya pas de vraie

évidence que le gène de ER subit des larges délétions, des réarrangements ou des amplifications

durant la carcinogénèse des cellules mammaires, il ya quelques observations qui ont montré que

10

des variants moléculaires des ER peuvent être associés à des phénotypes bizarres dans des tumeurs

mammaires (84).

La thérapie endocrine du cancer du seIn cible les VOles de signalisation impliquant

l' œstrogène et l 'ER. Des études cliniques faites avec de nombreuses hormones antagonistes pour

l' œstrogène ont conduit à des résultats très promoteurs (85-87). Des modèles utilisant l ' anti

œstrogène ont montré des simples compétitions entre l ' œstrogène et l ' anti -œstrogène pour le site

de liaison au ligand d 'ER (88). Mais, malgré que . quelques anti-œstrogène, comme les stéroïdes,

sont des antagonistes très efficaces, in vivo comme in vitro, avec aucune activité agoniste, d ' autre

anti -œstrogène, comme le tamoxifen, peuvent avoir des effets mixtes : agoniste et antagoniste et

ceci dépend du type de la cellule impliquée (89).

Le tamoxifen (T AM) a été utilisé, depuis des années, comme un traitement pour le cancer du

sein et il a montré des résultats impressionnants avec plus que 700/0 d'efficacité au niveau de la

réponse des cellules mammaires cancéreuses (90-95). Il provoque un arrêt de la croissance ainsi

qu 'une apoptose au niveau des cellules cancéreuses et il a été approuvé comme un agent

chémopreventif pour les femmes qui risquent #d' avoir cette maladie (96). T AM inhibe la

prolifération cellulaire par son action sur ER -u, un facteur de transcription, qui régule la

transformation du TGF - u, un facteur de croissance, et celle du récepteur du facteur de croissance

épidermique (EGFR). Ceci peut mener à un arrêt de la croissance cellulaire ou à la mort cellulaire

et donc à une régression de la tumeur, dépendamment de la concentration de T AM utilisé (97,98).

L'effet anticarcinogénique de T AM peut être médié par d ' autre voies de signalisation que celui

qui implique l 'ER (99), y inclus la protéine kinase C, la régulation de la calmoduline, la

signalisation du calcium ainsi que la régulation du stress oxydatif cellulaire (100,101).

Il

1-5. L'œstrogène, letamoxifen et leurs effets sur les gènes d'enzymes antioxydantes:

Le cancer du sein, avec touts ces facteurs héréditaires ainsi que ceux environnementaux, est

une maladie cliniquement hétérogène et cOlnplexe (102). Les mutations des gènes qui mènent à

une prédisposition à un cancer héréditaire ~ont (103):

(a) Des mutations germinales qui sont hérités recessivement.

(b) Des mutations somatiques

(c) Des mutations qui sont soit germinales soit somatiques et qui sont dominantes.

Malgré que quelques mutations héritées, comme celles trouvées dans les gènes BRCA 1 et

BRCA2, sont plus prévalent dans certaines régions ethniques et géographique~ (104-107), elles ne

causent que seulement 5-10% des cas atteintes par le cancer du sein parmi toute la population en

général, alors que d'autres mutations sont plus fréquentes dans des cancers sporadiques (108-110).

Des gènes reliés aux cancers, comme les proto-oncogènes, les gènes suppresseurs de tumeur

et les gènes antioxydants sont généralement impliqués dans la régulation des fonctions normales

des cellules comme la prolifération, la différentiation et l' apoptose (111). Ils constituent un

système de processus multiples qui, normalement, guide les transmissions spécifiques des signaux

extracellulaires au noyau, et par conséquent régulent l'expression des gènes et la réplication ·des

cellules. Mais, n'importe quelle activation de ces gènes, due à des modifications héréditaires ou

bien sporadiques de ces voies régulatrices peut mener à une ou plusieurs des conséquences

suivantes (112): (a) une super production du produit du gène soit une concentration plus élevée de

la protéine résultante dans la région fonctionnelle de la cellule; (b) une expression non prévue du

gène: une activation du gène dans un moment ou un contexte inapproprié durant le cycle

12

cellulaire; (c) L' expression du gène dans un type de cellule différent de celui dans le quel la cellule

exerce normalement ces fonctions, et (d) des modifications structurales des protéines produites par

les gènes ce qui modifie le mode d' action de ces protéines.

Les effets de la prolifération de l' œstrogène qui Joue un rôle très important dans le

développement du cancer du sein ont une relation étroite avec l'ER (113,114). En général, les

tumeurs ER négative sont associées à une récurrence antérieure et à un faible espoir de survie des

patients, comparé aux tumeurs ER positive ce qui fait que la présence d'ER est considérée comme

un bon marqueur dans la prédiction de la réponse de la thérapie endocrine (115-117). D 'autres

observations ont montré que l'estrogène est aussi impliqué dans le dommage oxydatif de l'ADN

par sa liaison au récepteur de l 'œstrogène (118). D'autres études ont révélé que l'œstrogène peut

exercer des rôles antioxydants ainsi que anti-apoptotique dans la fibrose hépatique chez les rats

(119). Cette grande diversité fonctionnelle de l'œstrogène nous invite à se demander: C' est quoi le

rôle exacte de l' œstrogène dans la .carcinogénèse au niveau des cellules mammaires?

Le mécanisme d' action le plus important du tamoxifen comme une drogue anti tumeur tire

son effet de son rôle comme un agoniste et antagoniste d'ER, mais ça peut avoir d'autres

mécanismes qui n'ont pas de lien avec l'ER.

13

CHAPITRE-2

LES SIGNAUX DE TRANSDUCTION, LES INTERACTIONS

GÉNIQUES, LES DIALOGUES ENTRE LES GÈNES ET LE

POL YMORPHISME

14

2-1. Généralités: Les signaux de transduction

La transduction de signaux désigne l'intégration d'un message d'origine extracellulaire par

une cellule. La transduction de signaux est un point commun de la communication cellulaire des

systèmes endocriniens, nerveux et immunitaire chez les mammifères. Chez ceux -ci, il existe plus

de 200 types cellulaires différents et spécialisés. Ces cellules émettent des médiateurs (ligands,

hormones ... ) qui peuvent être détectées par d'autres cellules (par l'intermédiaire de récepteurs

spécifiques situés à la périphérie de la cellule, au niveau de la membrane plasmique) et induire des

réponses de ces dernières. Le signal est transmis à l'intérieur de la cellule par un changement de

conformation du récepteur membranaire. Cette trànsformation induit ensuite l'initialisation de

diverses voies. de signalisation parfois par l'intermédiaire de messagers secondaires (Figure-2).

On a déjà mentionné plus haut que le cancer est une maladie très complexe. Plusieurs facteurs

peuvent être impliqués dans cette maladie dont on peut citer les signaux de transduction. Parmi ces

voies de signalisation, beaucoup peuvent être impliqués dans le cancer, ce qui lui rends une

maladie compliqué et pas facile à traiter. La Figure-3 représente un sommaire des voies de

signalisation impliquées dans le cancer. Alors que la Figure-4 rassemble ces voies avec plus de

détails.

15

Chemokilles . Hormones.

Survival FactOls Transmitters Gro'lo1h Factors (e.g .. IGF 1) (e.g. inter1eukins. (e.g . TGFtl. EGF)

scrotonin, etc.)

~

Exlracellular Ma!rix

t

Wnt

1

Hedgehog

1

Cy1OCht0ff1;@ C

t Ca$p~$e S

.~" Caspilse S uu • .

t FAnO

(e.g . Fasl . Tnt)

Figure-2. Quelques voies de signalisation impliquées dans quelques processus primordiaux dans la survie cellulaire : la régulation, la différentions, le cycle cellulaire et l' apoptose. http://en. wikipedia.org/wiki/Signal transduction (122).

16

~l/ TCF4

t ~~ . , -~~ J ~(RTK)~

RAS:GTP ~-- E-cadherin

Figure-3. Quelques voies de signalisations impliquées dans certains types de cancer. Toutes ces di fférentes voies de signalisations (voie de SMAD, Apoptose, p53 , PI3K ... ) et beaucoup d ' autres peuvent affecter le déroulement normal du cycle cel1uJaire ce qui J' empêchent même de se suicider ce qui cause une formation d ' une masse cellulaire immortelle signe évidente des cancers. Bert V, Kenneth WK. Cancer genes and the pathways they control (123). Nature Med. 2004 ; 8 :795.

17

Figure-4. Multiples voies de signalisation impliquées dans le cancer. Interaction de plusieurs voies de signalisation entre eux dans une même cellule ce qui rend parfois difficile de savoir exactement là où les voies qui sont réellement impliquées dans un cancer et non dans un autre type de cancer. GENE ASSIST ™ PATHWA y ATLAS (124).

18

2-2. Les voies de signalisation, les interactions géniques aInSI que les polymorphismes trouvés dans nos quatre gènes:

2-2-1. Voies de signalisation:

Plusieurs VOles de signalisation sont impliquées dans le fonctionnement de la défense

antioxydante contre les ROS. Les gènes indiqués ici sont nos quatre gènes en étude: SODI , SOD2,

GPx 1 et CA T. Dans la Figure-S, les voies impliquées ici sont en relation avec la maladie de

Sclérose Amyotrophique Latérale (SAL).

2-2-2. Interaction génique:

Les interactions génétiques correspondent à des modifications dans l' action d 'un gène

induites par l' expression d'un autre gène. Typiquement, les interactions génétiques sont mises en

évidence par une observation des phénotypes. Par exemple, si le phénotype d'un mutant sur un

premier gène est aggravé ou au contraire sauvé par une mutation sur un deuxième gène, alors il y a

interaction entre les deux gènes.

Une interaction génétique peut être la conséquence directe d'une interaction moléculaire mais

il se peut aussi qu'elle soit la conséquence d'une cascade d ' interactions moléculaires. Les

interactions génétiques sont donc des interactions dont on ne connaît pas le mécanisme moléculaire

ou qui sont la conséquence de plusieurs interactions moléculaires.

En définitive, la notion d' interaction que nous prenons en compte recouvre des réalités biologiques

variées:

• Augmentation ou diminution du niveau d' expression génique

19

• Régulation post-transcriptionnelle

• Modification post-traductionnelle

• Formation de complexes protéiques

• Activation ou inhibition d ' un gène par un autre

• Participation à des voies de signalisations

2-2-3. Polymorphisme: Polymorphismes Nucléotidiques Simples (SNPs)

Un des grands défis de la génétique statistique est de développer les méthodes puissantes qui

peuvent identifier les gènes qui régulent des voies biologiques menant à une maladie. La

découverte de tels gènes est critique dans la détection et le traitement des maladies humaines, y

compris le cancer. Un bon exemple est les efforts récents du Projet du Génome Humain vers la

caractérisation à grande échelle des polymorphismes nucléotidiques simples (SNPs). Les SNPs

sont une forme abondante de variation génomique, distinguée des variations rares par la condition

que le moindre allèle abondant ait une fréquence de 1 % ou plus.

Une recherche faite sur des associations entre les polymorphismes SNP et le risque

communs de cancer du sein a mené à l'hypothèse que le cancer du sein est une maladie complexe,

par lequel une constellation d'allèles de très base pénétrance doit être relié à un phénotype de

risque (119).

Des polymorphismes dans les gènes de dismutase de superoxyde de manganèse (MnSOD) et

de peroxydase de glutathion (GPX-1) ont été proposés en tant que des allèles de basse pénétrance,

et clairement pas associés au cancer du sein. Ils ont étudié si les variantes aux deux

polymorphismes, dépendamment liées au risque de cancer du sein, pourraient influencer le risque

de cancer du sein une fois considérées ensemble (Tableau-2). Des polymorphismes Non-

20

synonymes dans les deux gènes ont été montrés pour réduire leur efficacité à enlever des espèces

oxydantes des cellules.

Peu de polymorphismes ont montré statistiquement des associations significatives avec le

risque de cancer du sein jusqu'ici. Une explication pour ce manque d'association pourrait être que

les polymorphismes communs n'exercent pas un assez grand effet sur la fonction d'aucun des deux

gènes en particulier pour qu' il soit seul, respons~ble du développement du cancer.

En revanche, les polymorphismes dans plusieurs gènes biologiquement relatifs qui modifient

légèrement la fonction de chaque gène individuel, peuvent se combiner pour expliquer le

composant génétique du risque de cancer du sein. En plus, les facteurs environnementaux comme

le style de vie ont pu également jouer un rôle dans l' étiologie de la maladie, indépendamment ou

en combinaison avec des variantes génétiques.

21

Amyotrophie LatEral Sc1erosis (ALS)

Cu C1JJ2 n supe roxiJÎe

Reduced /diJrJlU1'OS\ \ ' , , ,

prot.e cnon \ \ ~ \ , \ ~

IpPP3CAI ISLC1A21 \ 0----'-

\ o ----.-

1 ALS2 H R.lI.Bs.e..I '

o 02 1 SODl i 1 OPX10.4

o .. 0 ~ 0 H 20

SuperoxiJie Hydrogen 1 CATI peroxide

/

l'il iJfolding ----1~.

-. Hydroxyl ra.dicals

Inte rm.ediat.e iilaj1ient

Alsin ~I RAC1 ~ - -.- PI3 }Ünasel Il.KTI prosurvival path-';;lay

05030 12/27106

1 NEFL 1

~~opolymer- 1 NEF3 1 lZa1J.on

.. 1 NEFH 1

N euroiilarne nt flea Irj chain subunit

Figure-S. Les voies de signalisation appliquées sur les gènes antioxydants qui ont une relation avec la sclérose amyotrophique latérale. http://www.genome.jp/tmp/mark pathway www4694/hsa05030.gif (125).

22

Une autre étude sur le polymorphisme de ces gènes à été fait. L'étude a été réalisée en

comparant 1262 femmes diagnostiqués au cancer du sein a 1533 femmes saines (contrôles). Les

polymorphismes étudiés pour les deux gènes MnSOD et GPX-1 sont Val16Ala, rs1799725 et

Pro198Leu, rs1050450, respectivement et sont génotypés par l'utilisation de l'analyse de TaqMan.

Les résultats de cette étude sont résumés dans le tableau-2 (119). Jusqu'ici, peu de telles

interactions ont été détectées et rapportées dans la littérature. Afin d'avoir la puissance suffisante

de détecter de telles associations, des grandes bases de données sont nécessaires. Cette étude a la

puissance de 80% de détecter un rapport de chance de 1.85 pour une interaction entre les modèles

récessifs pour deux polymoJ]Jhismes comme ceux cités plus haut, où ni l'un ni l'autre seul, risque

d'augmenter le polymorphisme. Dans ces analyses, ils ont tiré bénéfice de la présence relativement

forte des deux polymorphismes. L'objectif évident était d'examiner plus de gènes le long de la

même voie, aussi bien que des variables non-génétiques telles que les niveaux de plasma ou les

facteurs de style de vie qui affectent l'effet oxydant tel que le tabagisme, la consommation d'alcool,

et les antioxydants diététiques ou les suppléments. Les travaux futurs sur des polymorphismes dans

les gènes le long des voies biologiquement relatives, et l'inclusion des interactions d'environnement

x gène, rendront nécessaire l'élaboration ultérieure des méthodes statistiques. La conclusion a la

quelle cette équipe de recherche est arrivé à la fin de leur projet est que les polymorphismes dans

les gènes de GPX-1 et de MnSOD sont associés à un grand risque de cancer du sein.

U ne autre étude faite sur les interactions géniques dans les gènes impliqués dans le cancer du

sein a confirmé que le polymorphisme génétique dans le gène de MnSOD peut être associé a un grand

risque de cancer du sein parmi les femmes chinoises avec des niveaux élevés de l'effet oxydant ou

d'une basse prise des antioxydants (120). En effet, dans cette étude ils ont constaté que le génotype

23

AlaJ Ala de MnSOD a été légèrement associé à risque élevé de cancer du sein. L'association positive

était plus évidente chez les femmes pré-ménopausées, en particulier parmi ceux qui ont consommé une

basse quantité des vitamines antioxydantes ou avec des niveaux élevés de stress oxydatif. Cependant,

l'étude est limitée par le de basse fréquence de l'allèle Ala dans la population chinoIse, et la majeure

partie de l'ORs ( odds ratio) n'était pas statistiquement significative.

24

Tableau-2. L'interaction entre le polymorphisme de GPX1 , Pro198Leu, et celui de MnSOD, Val16Ala, et le risque de cancer du sein. Basé sur Cox et al. Gene *Gene interaction between MnSOD and GPx1 and breast cancer risk: a nested case-control study (119). BMC Cancer. 2006; 6:217-2.

Genotype

Pro198 carrier and Val16 carrier

Leu 198Leu and Val16 carrier

Pro198 carrier and Ala16Ala

Leu198Leu and Ala16Ala

*OR=odds rati o.

*CI=Confidence lntervals

Cases (%)

771 (67.0)

90 (7.8)

255 (22.2)

35 (3.0)

Controls (%) OR. * (95% CI)

997 (67.4) 1.00 (Ref.)

124 (8.4) 0.94 (0.69 - 1.27)

331 (22.4) 1.01 (0.83 - 1.23)

28 (1.9) 1.87 (1.09 - 3.19)

Le Tableau 2 montre les relations el1tre les génotypes de MnSOD et de GPX-l et le rîsque de cancer du sein. La distribution des génotypes combinés et montrés dans ce tableau n'est pas statistiquelnent différente de cela prévue. Ni l'un ni l'autre de ces SNPs n ' augmentent individuellement le risque de cancer du sein. Étant donné que ces deux gènes sont en activité sur Ja voie de la désintoxification des ROS de 1 '0-à H20 2 (MnSOD), et ensuite à H20 (GPX-l) et ces polymorphismes influencent l'efficacité de cette désintoxication, ils ont présumé que le risque pourrait être détecté quand les deux SNPs sont combinés. Dans ces analyses, la cOlnbinaison des deux polymorphismes est associée à un risque sensiblement accru de cancer du sein. Les individus hOlnozygotes pour J'allèle AJa16 de MnSOD et J'allèle Leu 198 de GPX-1 ont une augmentation de 1.87 fois du risque de cancer du sein comparé aux porteurs Val16 et Pro 198, et la pvaleur pour J'interaction entre ces génotypes est de 0.03.

25

,.--------------- -- ---- -

CHAPITRE-3

LE PLAN DE TRAVAIL EN VUE DE DÉCOUVRIR LES

MECHANISMES DE RÈGULATION DES GÈNES D'ENZYMES

ANTIOXYDANTES DANS LE CANCER DU SEIN

26

Les résultats antérieurs obtenus dans notre laboratoire sur les traitements des cellules

mammaires cancéreuses récepteur d ' œstrogène positif et négatif (ER + et ER -) avec l ' œstradiol et

le tamoxifen, soit individuellement ou combinés ont aboutit aux observations suivantes (118):

(a) Traités avec l 'œstradiol seul (1.0 llM, 18h), le niveau d'expression de SOD2 et GPx l

augmente 1400 fois et 500 fois dans les cellules du cancer du sein ER+ par rapport à cellules ER-,

respectivement, comparés aux cellules non traités alors que le niveau d ' expression de SODI et

CAT diminue de 73% et de 81 % respectivement. (b) Traités avec le tamoxifen seul (1.0 J.1M, 18h)

le niveau d ' expression de SOD2 et GPx 1 a augmenté de 2000 et 500 fois respectivement comparé

aux cellules non traités, alors que l' expression de SOD 1 et CAT a diminué de 85% et de 760/0

respectivement. (c )Traités avec une combinaison de l' œstradiol et le tamoxifen (1 OnM œstradiol +

1.0 J.1M tamoxifen, 18h), le niveau d'expression de SOD2 et de GPxl a augmenté 903 fois et 950

fois respectivement comparé aux cellules non traités, alors que le niveau d ' expression de SOD 1 et

de CA T a diminué de 81 % et 570/0 respectivement. Les enzymes SOD 1 et SOD2 agissent sur les

radicaux superoxydes et les convertissent en peroxyde d'hydrogène alors que les enzymes GPxl et

CAT dégradent le peroxyde d'hydrogène en H20. Ainsi, les deux familles d'enzymes, d 'une part

les dismutases superoxydes SODI et SOD2, et GPxl et CAT, d'une autre part, agissent

séquentiellement sur les radicaux superoxydes.

Des résultats similaires sur les niveaux d' expression de SODI vs SOD2, et GPxl vs CAT

ont été observés quand les cellules Neuro-2A étaient traitées avec des neurotoxines; ménadione,

roténone et 6-0H dopamine, qui produisent une variété de ROS dans ces cellules (8). Ces enzymes,

malgré qu' elles accomplissent des fonctions similaires, elles se localisent dans des compartiments

27

cellulaires différents. Les différences qu 'on observe dans les niveaux d' expression dans chacun des

pairs des gènes correspondant suggèrent qu'il existe probablement un mécanisme de dialogue entre

les gènes membres de chaque pair aussi bien qu' entre les quatre gènes antioxydants. On ajoute à

ceci les mécanismes qui peuvent exister pour la translocation des différentes enzymes matures à

leurs compartiments correspondants.

Dans le but d' élucider la nature de ces mécanismes on a comparé les gènes de ces quatre

enzymes antioxydantes (SODI , SOD2, GPxI et CAT) dans différents compartiments et dans des

différents niveaux d'expression. Dans ce Chapitre on montre le travail effectué pour atteindre notre

objectif principale celui de Comprendre les mécanismes de régulation de nos quatre gènes et

détermine~ par quel moyen ils communiquent entre eux. Pour ce faire on s'est fixé trois objectifs

spécifiques. Le premier objectif était de chercher les variants de SOD2 et GPxI qui sont

surexprimés dans notre étude antérieure. Le deuxième objectif était de chercher des régions de

similarité entre tous les composants de nos quatre gènes en comparant les différentes régions de

ces gènes : exons, introns, 5' -UTR, 3' -UTR ainsi que les séquences peptidiques pour déterminer

les régions similaires et les régions qui diffèrent entre ces gènes, dans le but de voir si ces

comparaisons peuvent expliquer les observations déjà faites sur les changements des niveaux

d'expressions de ces gènes. Le troisième objectif était de chercher des facteurs de transcription

impliqués dans l'expression de nos gènes

Pour ce faire, on a utilisé des programmes bio-informatiques assez puissants et jugés de très

efficaces.

28

3-1. Méthodologie:

3 -1-1. Les outils bio-informatiques:

Notre recherche est basée sur les outils bioinformatiques et le système d ' exploitation utilisé

est Unix. Le système Unix est l ' un des systèmes d ' exploitation les plus populaires dans le monde,

en raison du grand nombre d'architectures qu ' il suppose. Ce système est un système d ' exploitation

multi-utilisateurs, multitâches, ce qui signifie qu' il permet à un ordinateur mono ou

multiprocesseurs d ' exécuter simultanément plusieurs programmes par un ou plusieurs utilisateurs.

Au sens strict, Linux n'est pas Unix. Linux n ' est que le noyau, le cœur du système

d ' exploitation. Le système Linux est construit par une succession de couche:

-Noyau: contient essentiellement tous les composants nécessaires au fonctionnement

matériel.

-Les daemons : correspondent essentiellement à des taches mises en service dès le démarrage

du système.

-le Shell : est l'interrupteur de commande disponible sur un système Unix. Il constitue le seul

moyen pour l'utilisateur de communiquer avec le système lui-même.

-Les commandes : des simples scripts Shell qui se tapent dans une fenêtre « terminale» pour

demander au système de faire une application.

À part ces composaI).ts du système Unix, il ya des applications et des programmes dont on

s ' est servi pour effectuer notre recherche. Les éditeurs de texte, comme Joe qu'on a utilisé pour

afficher le contenue de nos répertoires qui contiennent les séquences des gènes étudiés.

Les programmes Emboss et GCG, aussi , ont été très utiles. E~ effet, Emboss (European

Molecular Biology Open Software Suite) est une suite logicielle développée par l'EBI et l ' institut

SANGER. La suite comprend des programmes, des utilitaires et des banques de séquences qui

29

permettent de couvrir l'ensemble des besoins élémentaires dans le domaine de l ' analyse et de

l'exploitation des séquences biologiques.

GCG, de sa part est un ensemble de programmes d'analyse de bio-informatique. Il répond en

tout ou en partie à la majorité des besoins de bio-informatique: analyse de gels de

chromatogrammes, enzyme de restriction, recherche de gènes, phylogénie, comparaisons des

séquences nucléotidique ou peptidiques avec des b~nques de séquences. Il existe plusieurs version

de GCG, et dans notre projet on a utilisé la dernière version de GCG qui est GCG.II et qui nous

semble la plus performante.

Finalement, en utilisant le système Unix on peut remarquer la nécessité d ' avoir des sorties

graphiques qui peuvent être sauvegardées ou visualisés de plusieurs manières (commande

xwindows sur Unix, Cygwin qui est un environnement Unix pour Windows ... ). Dans notre analyse

on a utilisé SeqLab comme logiciel à interférence graphique sous Unix.

Au niveau de la recherche des variants de SOD2 et de GPx 1 qui sont impliqués dans notre

étude (Obj~ctifl) et au niveau de la recherche des facteurs de transcription qui pourront être

impliqués dans les changements des niveaux d'expression de nos quatre gènes (objectiD), on a

utilisé une commande sous le programme GCG.ll. Cette commande est Findpatterns qui permet

de chercher des petites séquences dans des grandes séquences. Comme par exemple si on cherche

une séquence consensus d'un facteur de transcription dans une séquence d'ADN d 'un gène on peut

utiliser cette commande qui nous donne comme résultats l ' existence ou non de cette sequence

consensus sur le gène en question.

Au niveau des étapes d ' alignement et de comparaIson des séquences, on a utilisé des

programmes comme BLAST, Bestfit, Gap et ClustaW.

30

BLAST (Basic Local alignement Search Tool), permet de comparer une séquence contre des

banques locales. L'utilisation de BLAST nous a donné une idée sur les gènes et les protéines

homologues et paralogues à nos gènes en étude.

De plus, on a utilisé Bestfit qui est un programme qui donne les meilleures séquences

similaires locales. Ce dernier nous a donné une série de séquences similaires entre n~s quatre

gènes. Quand à Gap, lui il donne les meilleures séquences similaires globales, ceci est utilisé pour

voir les similarités globales tout au long de nos séquences nucléotidiques ou protéiques.

Finalement Clusta West un programme d' alignement multiple. On l' a utilisé pour comparer les

séquences des quatre gènes ensembles pour trouver les séquences similaires chez les quatre gènes.

3-1-2. Recherche des Variants de SOD2 et GPxl qui sont surexprimés dans

notre étude:

Pour atteindre cet objectif on s'est servi de quelques informations déjà utilisé dans une étude

antérieure dans notre laboratoire. Dans cette étude, ils ont utilisé des amorces sens (F) et anti -sens

(R) (Tableau-3). On s'est servie de ces amorces pour chercher quels variants de SOD2 et GPXl qui

ont été impliqués dans cette étude puisque notre projet est basé sur des résultats déjà trouvés dans

cette étude antérieure. Pour chercher ces amorces sur la banque de données Genbank, on a utilisé,

comme indiqué plus haut, la commande Findpatterns comme suit:

Pour SOD2:

%Findpa tterns

Fi ndpatterns in wha t ·sequence? Genbank:* NC-0000006.10

Enter pattern

Pattern1 amorce sen s (F) SOD2

Pattern2 amorce ant i sens (R) SOD2

(NC-0000006.IO est le numéro d'accession de SOD2 dans la Genbank)

31

Tableau-3. Amorces utilisés pour l'Amplification des ADNc de nos quatre gènes

Antioxidant enzyme genes

SODI

SOD2

GPxl

CAT

32

La signification de cet ensemble de commande est qu'on est allé cherche l' amorce sens

(pattern1) et l' amorce anti sens (pattern2) dans les séquences des gènes SOD2 (NC-000006.10) qui

se trouvent sur la banque de données Genbank.

La même chose est faite pour le gène GPx 1 :

%Findpatterns

Fi ndpatte r ns in what sequenc e? Genbank:* NC-0000003.10

Enter pattern

Patternl amo r ce s ens (F ) GPx l

Pattern2 amo r ce anti sens (R) GPx l

(NC-0000003.10 est le numéro d 'accession de GPx] sur dans la Genbank)

3-1-3. Comparaison et recherche des régions de similarité entre tous les composantes de nos quatre gènes

3-1-3.1 Extraction des régions codantes Cexons) et non codantes Cintrons) ainsi que les régions 5' -UTR et 3' -UTR:

Durant cette étude, on s'est servi beaucoup de la littérature qui existe déjà sur des sites

internet sur les séquences complètes des gènes humains. Pour ça on s'est référé au site de NCBI

(http://www.ncbi.nlm.nih.gov/). Sur ce site, on trouve des informations intéressantes sur nos quatre

gènes.

Cette partie de notre étude consiste à extraire les régions codantes, les régions non codantes

ainsi que les régions 3' -UTR et 5' -UTR de nos gènes et celles de leurs ARNm. Cette étape est très

critique parce qu' elle demande beaucoup de précision puisque' on ne peut pas se permettre de

manquer ou d' ajouter même pas une base sinon ceci pourra causer un changement du cadre de

33

lecture. Pour ce faire , on s ' est servi du projet de séquençage du génome humain et pour chaque

gène on est allé voir le chromosome sur le quel se trouve notre gène et on essaie d ' extraire la

séquence du gène. Pour vérifier si on a choisi la bonne séquence de gène, on a utilisé des méthodes

de prédiction des gènes eucaryotes. Ceci consiste à vérifier les éléments suivant:

../ Les cadres de lectures ouverts,

../ Jonction exon/intron et sites d ' ép'issage,

../ Codon d ' initiation et codon dé terminaison,

../ Les régions promotrices,

../ Les sites de polyadénylation,

Après qu' on s ' est assuré que la séquence qu ' on a extraite correspond à la séquence du gène

en question on passe à découper ce gène en région 5' -UTR, 3' -UTR, régions codantes (les exons)

et les régions non codantes (les introns). Ce travail est fait sur nos quatre gènes SOD 1, SOD2,

GPx1 et CAT pour pouvoir comparer touts ces composants entre eux et pour voir c ' est où qu' ils se

ressemblent entre eux et aussi pour trouver les parties qui diffèrent entre ces gènes.

SODt:

Pour le gène SOD 1, l'annotation et la séquence nucléotidique ainsi que la séquence de la

protéine sont fournis. Le gène SOD 1 est un gène de Il Kb de longueur et il comprend 5 exons et 4

introns, il a été localisé dans le chromosome 21 au niveau de la région 21 q22 (entre le

nucléotide31953806 et le nucléotide 31963115 du chromosome 21) (Figure-6).

L ' annotation du gène SODI nous informe sur la longueur des exons et leurs séquences et de

même pour les introns et l' ARNm de ce gène. Par contre elle ne nous informe pas sur les

séquences 5' -UTR et 3 ' -UTR. Pour ces derniers, on est allé chercher les gènes en aval et en amont

34

du SOD 1 sur ~e chromosome 21. Dans la séquence du gène en amont du SOD 1 qui est KRT AP6-1 ,

on a pris les derniers 1000 pairs de base pour les considérer comme la région 5' -UTR de SOD 1

alors que dans la séquence du gène en aval de SOD 1 qui est OLIG 1 on a pris les premiers 1000 pb

de ce gène comme la séquence 3' -UTR de SODI. Cette méthode a été utilisé pour les autres trois

gènes (SOD2, GPx1 et CAT), c' est -à-dire, on a cherché les gènes en amont et en aval de nos

quatre gènes et on a déduit les régions 3' -UTR et 5' -UTR de ce gènes en étudiant les régions qui

chevauchent au niveau de la partie 3' -UTR de notre gène et la partie 5' -UTR du gène en aval. Pour

la région 5' -UTR on-a cherché la région chevauchante èntre la région 3' -UTR du gène en amont et

la région 3' -UTR de notre gène. On s' est basé sur les méthodes de prédiction déjà mentionné

(vérification des codons Start et stop, des promoteurs et des sites de poly adénylation) pour

s' assurer que les régions 5' -UTR et 3' -UTR de nos gènes sont les bonnes.

Comme on a indiqué plus haut, la séqu~nce complète du gène de SOD1 est de Il Kb de

longueur, mais sans la région 5' -UTR et 3' -UTR, on trouve qu' elle est composé de 9310 pb, entre

le nucléotide31953806 et le nucléotide 31963115 du chromosome 21 (Figure-6b). Le Tableau3

regroupe les séquences des exons et des introns de SOD 1.

La protéine de SOD 1 est composée de 154 acides aminés. Elle lie les ions cuivre et zinc et

est l'une de deux isozymes responsables de détruire les radicaux libres de superoxyde dans le corps.

L'isozyme codée est une protéine cytoplasmique soluble. L' acide aminé His63 est considéré

comme crucial pour la liaison des deux ions (Cu et Zn) (Figure-7).

35

b)

[3195380G ~

Ideogran

a) 21p13 -f~J 21p12 -==

21pl1.2

21pl1.1 21911.1 21911.2

21"121

21"122

-~=

NC_000021.7

Figure-6. a) localisation du gène SOD1 sur le chromosome 21. b) représentation du gène SODI avec sa région 5' -UTR et 3' -UTR (les triangles), ces exons (les rectangles), cesintrons (1es régions entre les exons). NC_000021.7 est le numéro d'accession de notre gène sur NCBI (NC_000021.7). (126)

, 36

Tableau-4. Longueur des régions codantes et non codantes de SOD 1 ainsi que leurs localisations sur ce gène. * les numéros attribués aux nucléotides dans ce tableau sont par rapport au gène SODI et non par rapport au chromosome 21 (Annexel).

Longueur des séquences des exons et des

introns de SOD 1

Exon-1 71pb(de 149 à 220)

Intron-l 3949pb(de221 à4169)

Exon-2 96pb (de 4170 à 4265)

Intron-2 2563pb (de 4266 à 6828)

Exon-3 69pb (de 6829 à 6897)

Intron-3 740pb (de 6898 à 7637)

Exon-4 117pb (de 7638 à 7754)

Intron-4 1096pb (de 7755 à 8850)

Exon-5 107pb (de 8851 à 8957)

37

a)

b) 1.10 elect ron density

Human 500 1 metal-binding site. Cu (cynn sphere) and l n (orange sphere) atorm . 1Ir(' bridged by il llis\ idine ligand {His631_ Th'" Cu il\ ()'TI ln tllis f igure i~ re(lu/;('(l îlJ)d thE' Cu ' NIHis(1) bond ls b(Hwn.

Figure-7. a) Structure de l' enzylne SOD1. b) représentation détaillé du site actif de SODI et les acides aminés impliqués dans la liaison des ions Cu et Zn.

Arg143 et His63 sont les acides aminés les plus crucialement impliqués dans le mécanisme catalytique de SOD 1. His63 forme un pont entre les ions de cuivre et de zinc par sa liaison à ces ·deux ions avec son anneau nitrogène. Ce pont est cassé et reformé pendant la catalyse. Argl 43 est nécessaire pour fixer le superoxyde (par l'intermédiaire d ' une liaison d'hydrogène) en une bonne position et en une correcte orientation pour permettre le transfert d'électron avec le cuivre. http://www.nottingham.ac.uk (127).

38

SOD2

Le gène de SOD2 humain est un gène de 15 Kb de longueur et formé de 5 exons et 4 introns

et est localisé à la région 6q25 du chromosome 6 (Figure-8). Le gène SOD2 se trouve entre le

nucléotide 160020138 et le nucléotide 160034343 du chromosome 6. Le gène SOD2 est constitué

de 14206 pb (sans compter les régions 5' -UTR et 3 ' -UTR). On trouve 3 variants pour SOD2. Le

variant 1 représente le transcrit le plus long. Il donne une protéine similaire à celle produite par le

variant 2 (isoforme A).

Le variant2 a de multiple différence dans la région 3' -UTR comparé au variant 1. Le varient3 ,

comprend plusieurs différences par rapport aux deux autres variants, il lui manque un ex on et il est

très différent au niveau de la région 3' -UTR. La protéine résultante (isoforme B) est plus courte

que l'isoforme A (Tableau-4).

Les deux protéines résultantes de ces trois variants sont appelées isoforme A et isoforme B.

Les variant1 et le variant 2 donne l' isoforme A qui est la plus longue et elle est constituée de 222

acides aminés, alors que le variant 3 donne l' isoforme B qui est composée de 183 acides aminés.

Une remarque assez intéressante qu'on veut indiquer ici est le voisinage remarquable entre le gène

SOD2 et le gène du récepteur d' œstrogène (ER). En effet, le gène du récepteur d'œstrogène est

placé à la région 6q25.1 du chromosome 6 et le gène de SOD2 est placé à la région 6q25.

39

Ideogran

a)

b)

~ 16003434:; ] ~ 160020138] C~~=-__________________ ~~ ____ ~ __ ~~,~~

NI1 001024466+1 NI1 001 0 244~::.5+ 1

i:; ot'.:>t"iil E; '~"e( 'Jr':; .:>~" CCDS34564" 1 P 1) 01 0 19(\36.1 i:; c.·t"c.t."." A pt'e( IJr·:; or' CCDS52~::'5+:I

i:; 0"'01""(1 A pl"ec IJr'~ .)1" CCD :~:52(.5+ 1

Figure-8. a) localisation du gène SOD2 sur le chromosome 6. b) représentation du gène SOD2 avec sa région 5' -UTR et 3' -UTR (les triangles), ces exons (les rectangles), ces introns (les régions ente les exons). NC _ 000006.10 est le numéro d'accession de notre gène sur NCBI. Ce gène comprend 3 variants qui diffèrent aux niveaux de }'exon 2 ainsi qu'au niveau de la région 3'-UTR. (126)

40

Tableau-S. Longueur des régions codantes et non codantes des trois variants de SOD2 ainsi que leurs localisations sur ce gène.

Variant 1 Variant 2 Variant 3

Exon-l 22pb (de 155 à 177) 22pb (de 155 à 177) 22pb (de 155 à 177)

Intron-l 282pb (de 178 à 459) 282pb (de 178 à 459) 282pb (de 178 à 459)

Exon-2 202pb (de 460 à 661) 202pb (de 460 à 661) 202pb (de 460 à 661)

Intron-2 4419pb (de 662 à 5080) 4419pb (de 662 à 5080) 7628pb (de 662 à 8289)

Exon-3 179pb (de 5081 à 5196) 116pb (de 5081 à 5196) 179pb (de 8290 à 8468)

Intron-3 3093pb (de 5197 à 8289) 3093pb (de 5197 à 8289) 2216pb (de 8469 à 10684)

Exon-4 179pb (de 8290 à 8468) 179pb (de 8290 à 8468) 145pb (de 1~685 à 10829)

Intron-4 2216.pb (de 8469 à 10684) 2216pb (de 8469 à 10684)

Exon-5 145pb (de 10685 à 10829) 145pb (de 10685 à 10829)

41

1

i

GPxl

Le gène OPxl humain a été localisé au niveau de la région 3qll-3qI3.1 du chromosome 3

ainsi que deux autres loci considéré cOmme pseudogènes ont été trouvés dans le chromosome 21

et le chromosome X. Ce gène est situé entre le nucléotide 49369613 et le nucléotide 49370795 du

chromosome 3. GPxl est un petit gène de 1183 pb.

Des études faites sur ce gène ont montré que la protéine codée par ce gène protège contre

l'apoptose de CD95 dans des cellules cultivées de cancer du sein et sa surexpression retarde la

croissance endothéliale et augmente la résistance aux défis toxiques. Cette protéine est l'une des

quelques protéines connues chez les primates et qui contient le sélénocystéine (121), qui se trouve

dans le site actif de la glutathionne peroxydase et est codé par le codon stop TGA. En outre, cette

protéine est caractériséè par un polymorphisme dans la séquence poly-alanine dans la région de N

terminale, qui inclut trois allèles avec cinq ou six répétitions ALA dans cette séquence. L'allèle avec

cinq répétitions ALA est hautement associé au cancer du sein (121). GPXl est polymorphe au codon

198, ayant pour résultat une proline ou une leucine à cette position, et on peut dire que la fréquence

de l'allèle de leucine est fortement associée à une augmentation du risque du cancer du poumon et

probablement le cancer du sein.

Deux variantes alternativement épissées codent pour deux isoformes distinctes ont été

trouvées pour ce gène (Figure-9). Le variant1 représente le transcrit le plus court et code pour

l'isoforme le plus long. L ' isoforme résultant est de 203 acides aminés de longueur. Le variant2 ne

comprend pas d ' intron «intronless ». Il a un segment additionnel dans la région codante

42

(Tableau-5) ayant pour résultat le décalage du cadre de lecture ouvert par rapport au variantl. Par

conséquent l'isoforme 2 a un C':'terminal distinct et plus court, soit 98acides aminés, par rapport à

l'isoforme l. Un autre voisinage qu 'on veut indiquer ici est celui du locus du GPx1 et l ' oncogène

rho 12 (ils ont une région chevauchante entre les deux gènes).

CAT

Le gène de la catalase se trouve à la position Il p 13 du chromosome Il. Ce gène est composé

de 33180 pb dont on trouve 13 exons et 12 introns (Figure-IO et Tableau-6). Il est situé entre le

nucléotide 34417054 et le nucléotide 34450183 du chromosome Il. Ce gène donne naissance à

une protéine de 527 acides aminés.

OLe Tableau-7 résume toutes les informations qu'on a recueillies sur nos quatre gènes.

3-1-3.2. Alignement et comparaison des séquences nucléotidiques et peptidiques des quatre gènes: SODl, SOD2, OPx1 et CAT

Après avoir découpé nos gènes en différents morceaux (5'-UTR, exons, introns et 3' -UTR),

on a pro~édé à la comparaison de ces parties. Comme on a déjà précisé, dans cette partie de notre

projet on a utilisé plusieurs programmes bio-informatique, on a commencé par comparer les 4

gènes entre eux mais on a focalisé ces comparaisons et ces alignements pour les duos SOD1~SOD2

et OPx 1-CA T puisque les résultats déjà trouvés dans notre laboratoire ont déjà montré qu'il ya une

certaine relation entre les niveaux d'expression de ces gènes (SODLet SOD2 d'une part et GPx1 et

CAT d'une autre part).

43

a) Ideogran

b) NC_000003.10

~ 4 ~1370 795 ] ... 4936'3613 ]

Figure-9. a) localisation du gène GPxl sur Je chromosome 3. b) représentation du gène GPx l avec sa région 5' -UTR et 3 ' -UTR (les triangles ), ces exons (les rectangles), ces introns (les régions ente les exons). NC _ 000003 .10 est le numéro d'accession de notre gène sur NCBI. Ce gène comprend 2 isoformes qui diffèrent au niveau des exons ainsi qu'au niveau des régions 3 ' -UTR(126)

44

Tableau-6 . . Longueur des régions codantes et non codantes des deux variants de GPx 1 ainsi que leurs localisations sur ce gène.

Variant 1 Variant 2

Exon-l 251 -(de 81 à 332) 296 (de 81 à 377)

Intron-l 280 (de 333 à 612)

Exon-2 359 (de 613 à 971)

45

r------ ------------------- --- ------------ -- - -- ---- .------ --------

Ideogran

a) 11F"15

IlF" 14

li~H le 11p 1.:L

111Hll 11-=112

11-=1 13

11·~14 11 ·~21 11·~22

11 ·~23

11 ·~24 11·~25

b)

C (:D$7~91 + 1

Figure-IO. a) Localisation du gène Catalase sur le chromosome Il. b) représentation du gène CAT avec sa région 5' -UTR et 3 ' -UTR (les rectangles), ces exons (les rectangles), ces introns (les régions ente les exons) . NC_OOOOOl].8 est le nUlnéro d ' accession de notre gène sur NCBI. Ce gène ne comprend pas de différents variants donc on a une seule isoforme du gène Catalase. (126)

46

Tableau-7. Longueur des régions codantes et non codantes de l' enzyme Catalase ainsi que leurs localisations sur ce gène.

Longueur des séquences des exons et des introns de CA T

Exon-1 65pb (de 84 à 149) Intron-1 10113pb (de 149 à 10262)



Exon4 13 Op b (de 13147 à 13277) Intron-4 4883pb (de 13277 à 14160)








Exon-12 83pb (de32028à32111) Intron-12 327pb (de 32111 à 32438)

Exon-13 65pb (de 32438 à 32503)

47

Tableau-8. Quelques caractéristiques des gènes des enzymes antioxydantes ainsi que les produits des gènes analysés dans ce projet. * La longueur des gènes, introns et exons sont exprimés en nombre de bases (pb) et les longueurs des protéines en nombre d ' acides aminés (aa).

SOD} SOD2 GPx } CAT

Localisation sur 21q22 6q25 3q Il Il P 13 les chromosomes

Longueur du gène 11Kb 15Kb 1.3 Kb 37 Kb

Les types des sites Boxe Régions riches en un oncogène 5 boxes de régulation des TATA, boxe G+C, Sp l , AP2 (rho2), répétition CCAAT, 2

gènes CCAAT, NF-kb Alu, boxe SpI , région région riche TATA, SpI , API très riche en

en G+C, G+C, NF1 , SpI , séquence de Apl , Ap2, liaison à c-

GRE et NF- myc kb (TCTCTTA),

une boxe Pu (GAGGAA), une séquence d ' interféron

beta (AAGTGA), un élément de réponse aux

glucocorticoïd e (TGTTCT)

Nombre et 4 introns 4 introns 1 intron 12 introns longueur totale 8348 pb * 100] 0 pb 280 pb 34767 pb

des introns Nombre et 5 exons 5 exons 2 exons 13 exons

longueur totale 460 pb 664 pb 610 pb 1572 pb des exons Nombre et 1 ARNm 3 ARNlns 2ARNms 1 ARNm

longueur totale 981 ARNml=918 ARNm1=921 2305 des ARNm (en ARNm2=1035 ARNm2=1200

bases) ARNm3=1593

NOlnbre et 1 protéine 2 protéines 2protéines 1 protéine longueur des 154 aa* ARNm 1 et 2=222aa ARNml=203 aa 527 aa proté i nes( en ARNm3=183aa ARNm2=98 aa

acides aminés) Nombre des sous

unités 2 4 3 3

48

Pour ce faire on a utilisé trois programmes différents qui servent à la comparaIson des

séquences °nucléotidiques et peptidiques. Le premier est un programme de comparaison multiple

appelé ClustaW qui permet d'établir l'alignement multiple des séquences personnelles ou de

banques, nucléiques ou protéiques. Il propose en outre de générer l'arbre phylogénétique à partir

d'un alignement donné. Ceci on l' a utilisé pour déterminer les régions communes pour les quatre

gènes.

Les deux autres programmes, Bestfit et Gap, sont deux programmes de comparaison des

séquences en pairs. En effet, Bestfit et Gap ne peuvent pas comparer plus que deux séquences à la

fois. La différence entre ces deux programmes consiste au niveau des séquences à comparer. Bestfit

est un programme de comparaison qui donne les meilleures régions locales de similarité entre des

séquences nucléiques ou peptidiques. Quand a Gap, il donne toutes les régions globales qui sont

similaires entre deux séquences.

3-1-4 Recherche des facteurs de transcription impliqués dans l'expression de

nos gènes:

Pour accomplir cette étape, on a utilisé la même commande qu'on a utilisée pour la recherche

des variants de SOD2 et de GPx 1 : Findpatterns. Mais dans cette étape on a fait la recherche a

partir d'une banque de donnée spéciale pour les facteurs de transcription (TFD : Transcription

Factor Database).

Cette étape consiste à vérifier l' existence, sur nos quatre gènes, d ' une centaine de facteurs de

transcriptions qu'on a jugé parmi les plus intéressants selon plusieurs études faites avec des

facteurs de transcription. Ces facteurs de transcription sont situés dans la TFD, donc on a cherché

49

leurs existences sur nos gènes en se servant de leurs séquences consensus comme l' indique

l ' ensemble de commande suivant:

%Findpatterns - data= genrunda t a : tfd.dat

Findpa t t e rns in what sequence? "Nom du gène".rsf

Enter pattern

Pattern1 séquence consens u s F . TI

Pattern2 s é quence consensus F .T2

Pattern 100

To t a l fi nds : n ombr e de f acteur de t rans c rip ti on t r ouvés.

3-2. Résultats e Discussion: 3-2-1 Variants 1 de SOD2 et de GPx1 .

Notre recherche des Variants de SOD2 et de OPx 1 qui sont surexprimés dans notre étude sur

le cancer du sein ont montré que ce sont les variants 1 de SOD2 et de OPx 1 qui ont été surexprimé

dans cette étude. Ceci est expliqué par le fait que les amorces qui ont été utilisé pour l'amplification

de ces deux gènes ont été trouvées seulement dans les séquences des Variants 1 de SOD2 et de

OPx 1. Donc on peut déduire que ce sont ces variants 1 de ces deux gènes qui sont impliqué dans

notre étude sur la relation entre les gènes antioxydants et le cancer du sein.

50

3-2-2 Régions similairès et pourcentage de ressemblance entre les composants

de nos quatre gènes:

Cette partie montre l' ensemble des résultats qu 'on a eu pour cette partie de . notre étude.

L'utilisation des programmes Bestfit et Gap nous a permis d ' avoir des pourcentages de

ressemblance entre nos gènes.

Dans les tableaux de Bestfit et de Gap, les résultats sont exprimés en pourcentage de

ressemblance. Comme on a déjà mentionné, Bestfit est un programme d ' alignement local qui

utilise l'algorithme Smith et Waterman. C' est un programme qui cherche à repérer les segments

qui ont les plus fortes ressemblance. Donc il ne compare pas la séquence globale mais il compare

chaque nucléotide d'une séquence avec le nucléotide qui lui correspond dans l ' autre séquence.

Quand à Gap, c' est un programme d'alignement global 'qui utilise l' algorithme de Needleman et

Wunsch. Ce dernier est un programme qui tente d'aligner les deux séquences sur la totalité de leurs

longueurs.

Dans les tableaux qui montrent le niveau de ressemblance (les tableaux Bestfit et Gap), les

chiffres mentionnés représentent le pourcentage de ressemblance entre les différentes régions qui

composent les gènes: (5 ' -UTR, 3'-UTR, exons et introns).

D~ns les tableaux qui montrent les régions similaires entre les différents gènes, les chiffres

représentent les numéros des nucléotides ou des acides aminés qui composent soit les séquences

nucléiques ou les séquences peptidiques de nos quatre enzymes antioxydants, respectivement. Les

chiffres sont par rapport à la séquence du gène ou du peptide (Annexe let 2) et on précise que dans

les séquences nucléiques de nos gènes le chiffre 1 représente le premier nucléotide de la région 5' -

UTR de l'ARNm du gène. Pour les séquences 5' -UTR des gènes, on les a attribué des chiffres avec

51

des signes (-) alors que des signes (+) ont accompagné les numéros des nucléotides des régions 3' -

UTR de nos quatre gènes (Annexel).

Pour les séquences peptidiques (Annexe 2), le chiffre 1 représente le premier acide aminé de

la séquence.

3 -2-2-1. Résultats de la comparaison des différentes composantes' des gènes SOD1/S0D2:

Les résultats de la comparaIson des deux gènes SOD 1 et SOD2 sont résumés dans les

tableaux suivants. Les tableaux de 9 - 12 résument les résultats de comparaisons des régions

composantes des gènes SOD 1 et SOD2 selon le programme Bestfit alors que les tableaux de 13-16

résument les résultats de comparaison selon le programme Gap. Selon le Tableau-9, on remarque

que les pourcentages de ressemblance sont élevés, surtout pour l ' ex on 1, mais les régions

similaires sont assez courtes (entre 10 et 21 pb). Dans le Tableau-lO, on al ' ensemble des

pourcentages de ressemblance ainsi que les régions similaires pour les quatre introns de SOD 1 et

SOD2. Dans ce tableau on remarque que les pourcentages de ressemblance sont presque pareils

pour les quatre introns. Mais au niveau des longueurs des régions similaires entre ces introns on

remarque que les régions de ressemblance pour les introns 1 et 2 sont assez longues (139 pb et 622

pb respectivement). Tout en sachant que les introns peuvent avoir un rôle dans la régulation de

l ' expression des gènes en ayant des régions régulatrices qui peuvent se lier a des facteurs de

transcription, ceci suggère que ces régions , ~imilaires déterminées par le programme Bestfit peuvent

avoir une importance dans la régulation de nos deux gènes, SOD 1 et SOD2.

Dans le tableau-lIon a identifié les régions de ressemblances entre les régions 5 ' -UTR et

3' -UTR des deux gènes, SOD 1 et SOD2 et de leurs ARNm. Dans ce tableau, on remarque que les

pourcentages de ressemblance entre les régions 5' -UTR et 3' -UTR des gènes SODI et SOD2 sont

52

plus élevées que les pourcentages de ressemblance entre les régions 5' -UTR et 3' -UTR des ARNm

de ces gènes (81.47% et 83.330/0 pour les régions 5' -UTR et 3' -UTR des gènes respectivement et

75% et 76.360/0 pour les régions 5' -UTR et 3' -UTR des ARNms respectivement).

53

Tableau-9. Identification des régions d' identité entre les séquences codantes (exons) des gènes SOD 1 et SOD2 (Variant 1) ainsi que le pourcentage de ressemblance entre ces régions (Bestfit).

Pourcentage de ressemblance entre Régions d ' identité au niveau des régions codantes

Liste des exons les régions similaires (exons) pour SOD 1 et SOD2 dans les exons des

gènes SOD 1 et SOD2 (%) SOD1 SOD2

Exon-I 90.90 de ]60 àI71 (11 pb) . de167à177(10pb)

Exon-2 75 de4251 à4266 (14 pb) de 568à583(15pb)

Exon-3 80 de 6836 à 6860 (24 pb) de 5124 à 5148 (24 'pb)

Exon-4 77.77 de 7653 à 7682 (29 pb) de 8342 à 8371 (29 pb)

Exon-5 65.21 de 8859 à 8881 (22 pb) de 10805 à 10826 (21 pb)

54

Tableau-lO. Identification des régions d' identité entre les séquences non codantes (introns) des gènes SOD! et SOD2 (Variant!) ainsi que le pourcentage de ressemblance entre ces régions (Bestfit)

Pourcentage de ressemblance entre Régions d'identité au niveau des régions non codantes

les régions (introns) pour SODI et SOD2 Liste des introns similaires dans les

introns des gènes SODI et SOD2 (%)

SODI SOD2

Intron-1 65.90 de 408 à 545 (138 pb) de 260 à 399 (139 pb)

Intron-2 70.68 de 4355 à 4747 (392 pb) de 3023 à 3645 (622 pb) de 4948 à 5294 (346 pb)

l11tron-3 72.72 de 6988 à 7020 (32 pb) de 6057 à 6089 (32 pb)

Intron-4 71.87 de 8394 à 8425 (31 pb) de 10497 à 10528 (31 pb)

55

En revanche, l' étude de la longueur des régions semblables entre ces régions montre que la

région similaire la plus longue correspond à la région 5' -UTR des deux gènes (285 pb). Ceci

confirme nos résultats trouvés avec les introns, puisque la région 5' -UTR des gènes est la région la

plus importante dans la régulation de l' expression des gènes. Ces résultats suggèrent qu ' il ya une

forte relation entre les régions régulatrices des gènes SOD 1 et SOD2 ce qui en résulte des

correspondances dans les niveaux d ~ expressions de ces deux gènes.

Les résultats de comparaison des séquences peptidiques de SOD 1 et SOD2 (Tableau-12) ont

montré un pourcentage de ressemblance de 50% entre ces deux gènes. Ceci est un résultat qui n 'est

pas prévu vu que les deux enzymes de SODI et SOD2 accomplissent presque la même fonction.

Pour ceci on a fait une comparaison de chacun de ces deux gènes avec des banques de données par

le moyen du programme BLAST Les résultats de BLAST ont donné une e-value (valeur

d' expectation) > e-40 ce qui veut dire que ces deux protéines sont pas mal proche.

Les résultats donnés par Gap pour la comparaison des deux gènes SODI et SOD2

(TableauxI3-16) ont confirmé les résultats donnés pas Bestfit. On remarque que les pourcentages

de ressemblances baissent avec le programme Gap par rapport aux pourcentages données par

Bestfit, ceci est dû au fait que les deux programmes sont différents un qui est local (Bestfit) et

l' autre est global (Gap). Ce dernier donne des pourcentages dépendamment de la longueur des

régions semblables. Puisque la plupart des régions trouvées sont des petites régions ceci explique

les bas pourcentages donnés par Gap. Dans ces tableaux (de 13 à 16) on remarque qu ' avec le

progr~mme Gap on a pu confirmer les résultats qu'on a trouvé avec Bestfit concernant les intronsl

et 2 et la région 5 'UTR des deux gènes SOD 1 et SOD2. En effet, les pourcentages de

ressemblance donnés par Gap à ces régions sont comme suit 46~97%, 49.62% et 46.180/0 pour

lntronl , Intron2 et la région 5' -UTR du gène respectivement. Ces pourcentages représentent les

56

pourcentages les plus élevés parmi touts les pourcentages données par Gap (le pourcentage de 650/0

pour l' ex on 1 n ' est pas significatif vu que la longueur de la région similaire pour cet exon est très

petite (10 pb) par rapport aux autre régions).

Ainsi, les résultats donnés par nos deux programmes de comparaison, Bestfit et Gap, pour les

deux gènes SODI et SOD2 ont bien montré qu ' il ya une très bonne ressemblance entre les régions

régulatrices de nos deux gènes. Ces ressemblances sont montrées soit par le pourcentage de

ressemblance et par la longueur des régions similaires. Ceci nous confirme qu' il ya une relation

entre les niveaux d ' expression de ces deux gènes.

57

Tableau-Il. Identification des régions similaires entre les séquences 5' -UTR et 3' -UTR des gènes SODI et SOD2 (Variant!) et de leurs ARNms ainsi que le pourcentage de ressemblance

entre ces régions (Bestfit)

Pourcentage de Régions d ' identité au niveau des régions 5' -UTR et ressemblance entre les 3'-UTR des gènes SODI et SOD2 et de leurs ARNm régions similaires dans les régions 5' -UTR et

3 ' -UTR des gènes SODI SOD2 SODI et SOD2 et de

leurs ARNm(%) 5' -UTR de 80 à 95 (15 pb) de 96 à 1] ]

ARNm 75.00 3'-UTR de 9144 à 9207 (64 pb) de 1] 342 à 11408 (66 pb)

76.36 5'-UTR de -924 à -1214 (290 pb) de -555 à -840 (285 pb)

Gène 81.47 3 ' -UTR de + 1788 à + 1811 de +8] 1 à +834 (23 pb)

83.33 (23 pb)

58

Tableau-I2. Identification d~s régions d ' identité entre les séquences peptidiques de SODI et SOD2 (Isoforme A) ainsi que le pourcentage d ' identité entre ces

séquences (Bestfit)

Pourcentage de Régions d'identité au niveau des séquences peptidiques de ressemblance entre SODI et SOD2 (acides aminés)

les séquences peptidiques de SOD'I

SODI SOD2 et SOD2 (%)

de Ala5 à Cys7 de A]a5 à Cys7 de G ]n23 à Lys24 de Gln23 à Lys24

50.00 Ser26 Ser26 de Ala2 à Lys4 (codon) de Leu2 à Arg4 (codon) de Val8 à Glu22 (codon) de G ly8 à Arg23 (codon)

Glu25 (codon) His26 (codon)

59

Tableau-13. Comparaisons des exons de SODI et SOD2 (variantl) par la méthode Gap.

Pourcentage de ressemblance

entre les séquences des

exons de SOD 1 et SOD2 (0/0)

'----

Exon-1

65.21

Exon-2

43.29

Gène SODI/SOD2

Exon-3 Exon-4 Exon-5

39.13 33.89 37.03

60

Tableau-14. Comparaisons des introns de SODI et SOD2(Variantl) par la méthode Gap


entre les 1 séquences des introns de SOD 1

et SOD2 (0/0)

Intron-l

46.97

Gène SOD/SOD2

Intron-2 Intron-3 Intron-4

49.62 39.64 4].00

61

Tableau-1S. Comparaison des régions 5' -UTR et 3'-UTR des gènes SODI et SOD2 (variantI) et de leurs ARNms selon le programme Gap. ·

ARNm (SOD1/S0D2) Gène (SOD1/S0D2)

5' -UTR 3'-UTR 5' -UTR 3' -UTR


entre les régions 40.41 44.07 46.18 35.26 5' -UTR et 3'UTR des gènes SOD 1

et SOD2 et de leurs ARN ln (0/0)

62

Tableau-16. Comparaisons des séquences peptidiques de SOOI et S002 (Isoforme A) par la méthode Gap. L' isoforme A est la protéine résultante du Variantl de S002.

Séquences peptidique de SODl/S0D2

Pourcentage de 50.00 ressernblance(~o)

63

3-2-2-2. Résultats des comparaisons des différentes composantes des gènes GPxl et CAT:

Les tableaux17-24 résument les résultats des comparaisons des régions qui composent les

gènes GPx 1 et CA T. Pour la comparaison de ces deux gènes on a procédé de la même façon que

pour SOD1 et SOD2 en utilisant les mêmes programmes: Bestfit (Tableaux 17-20) et Gap

(Tableaux 21-24).

Dans les tableaux 17-20, qui résument les comparaisons faites par le programme Bestfit, on

remarque que les pourcentages de ressemblance sont élevés pour toutes les régions: Exons

(Tableau-17), lntrons (Tableau-18), les régions 5'-UTRet 3'-UTR des gènes et des 'ARNm

(Tableau-19) et pour les séquences peptidiques des deux enzymes (Tableau-20). Par contre, on

remarque que la longueur des régions similaires est très petite (entre Il et 39 pb pour toutes ces

régions). Ceci montre que les résultats des pourcentages ne sont pas significatifs ce qui signifie qu'il

n'ya pas de ressenlblance significative entre les deux gènes GPx 1 et CAT selon le programme

Bestfit.

Au niveau des régions régulatrices (5 'UTR et lntrons) les longueurs des régions similaires

sont très basses.c entre 7 et 35 pb) ce qui suggère qu'il ya pas de relation importante entre les régions

régulatrices de ces deux gènes et donc il ya pas de relation entre les niveaux d'expression de GPx 1 et

CAT.

Les résultats donnés par le programme Gap pour les gènes GPx 1 et CA T (Tableaux 21-24)

ont bien confirmé, encore une fois, les résultats donnés par le programme Bestfit. En effet, les

pourcentages de ' ressemblance donnés par ce programme sont très basse ceci est expliqué par les

petites régions similaires entre les régions composantes de nos deux gènes (exons, introns, 5' -UTR et

3'-UTR des gènes et des ARNms).

64

Tableau-17. Identification des régions d ' identité entre les séquences codantes (exons) des gènes GPx 1 (Variantl) et CAT ainsi que le pourcentage d ' identité entre ces régions (Bestfit)

Pourcentage de ressemblance entre les Régions de ressemblance au niveau des régions

Liste des exons régions similaires dans codantes (exons) pour GPx 1 et CA T les exons des gènes GPx1 et CAT (0/0)

GPx] GPx]

Exon-l 83.33 de 260 à 271 (] ] pb) de 1 ] 3" à ] 24 (] ] pb)

Exon-2 65.00 de 672 à 711 (39 pb) de 10299 à 10338(39 pb)

65

Tableau-18. Identification des régions d' identité entre les séquences non codantes (introns) des gènes GPx 1 (Variant 1) et CA T ainsi que le pourcentage d' identité entre ces régions

(Bestfit).

Pourcentage de Régions d ' identité au niveau des régions non codantes Liste des ressemblance entre les (introns) pour GPxl et CAT introns régions similaires dans les

introns des gènes GPxl et CAT (0/0) GPx1 CAT

1ntron-1 76.00 de 545 à 569 (24 pb) de 9449 à 9473 (24 pb)

66

Tableau-19. Identification des régions d' identité entre les séquences 5' -UTR et 3' -UTR des gènes GPxl(Variantl) et CAT et de leurs ARNms ainsi que le pourcentage d' identité entre

ces régions (Bestfit).

Pourcentage de Régions d ' identité au niveau des régions 5' -UTR et resselnblance entre 3 ' -UTR des gènes GPx1 et CAT de leurs ARNm

les régions simi laires dans les régions 5' -UTR et 3 ' -UTR des gènes GPx1 et CAT GPx1 CAT

de leurs ARNln(%) 5' -UTR de16à23(7pb) de 17 à 24 (7 pb)

ARNm 100 3 ' -UTR de 171 à 182 (11 pb) de 260 il 271 (]] pb)

91.66 5' -UTR de -56 à -91 (35 pb) de -]562 à -1597 (35 pb)

Gène 7] .43

3 ' -UTR de +251 à +272 de +761 à +782 (21 pb) 81.8 ] (21 pb)

67

Tableau-20. Identification des régions d' identité entre les séquences peptidiques de GPx l (Isoforme A) et CAT ainsi que le pourcentage d' identité entre ces séquences (Bestfit)

Pourcentage de Régions d ' identité au niveau des séquences peptidiques entre les ressemblance entre gènes de GPx 1 et CA T (acides aminés)

les séquences peptidiques de GPxl

GPxl CAT et CAT (0/0)

Pro136 Prol5.1 Phe138 Phe153 Leu145 Leu160 Pro149 Pro162

76.92 Ser150 Ser163 Leu 137 (codon) IIe152 (codon)

de Ala139 à A1a 144 (codon) de Phe154 à Ile 159 (codon) Ala147 (codon) Phe161 (codon)

68

Tableau 21. Comparaisons des exons de GPx 1 (Variant 1 ) et CAT par la méthode Gap.

Gène GPxl/CAT

Exon-l Exon-2

Pourcentage de ressemblance entre les 45.55 39.53

exons des gènes GPx 1 et CAT (0/0)

69

Tableau-22. Comparaisons des introns de GPxI (Variantl) et CAT par la méthode Gap.

Gène GPxI/CAT 1ntron-l

Pourcentage de ressemblance entre les 39.14

introns des gènes GPx 1 et CAT (0/0)

70

Tableau-23. Comparaison des régions 5' -UTR et 3' -UTR des gènes GPx1 (Variant1) et CAT et de leurs ARNm selon le programme Gap.

ARNm (GPxl/CAT) Gène (GPx l/CAT) .

5' -UTR 3'-UTR 5' -UTR 3' -UTR


entre les régions 5'-UTR et 3'- 35.44 35.44 37.70 40.48

UTR des gènes GPxlet CAT et de leurs ARNm (%)

71

Pour les régions régulatrices soit les introns et la région 5' -UTR des gènes (Tableau-22 et

Tableau-23 respectivement) les pourcentages de ressemblance (selon Gap) sont très basse (ils ne

dépassent pas les 40 0/0), ceci confirme que ces deux gènes n'ont pas de mécanismes de régulation

d' expression génique commun c'est-à-dire chacun des deux gènes a un mécanisme de régulation

d' expression génique indépendant de l' autre.

Les résultats de comparaison des séquences peptidique de GPx 1 et CA T selon le programme

Gap (Tableau-24) montrent un très bas pourcentage de ressemblance (28.57%) ce qui montre encore

une fois la grande différence entre les protéines résultantes de ces deux gènes malgré qu' ils

accomplissent des fonctions assez similaires. Pour confirmer nos résultats on a comparé ces deux

gènes (GPxI et CAT) avec des banques de données nucléotidiques en utilisant le BLAST. Le résultat

de ce dernier a bien montré que ces deux gènes sont très différents (e-value < e-40).

Ces résultats nous montrent qu ' il n ' ya pas de ressemblance significative entre les deux gènes

GPx 1 et CA T ni au niveau des régions régulatrices ni au niveau des régions codantes.

72

Tableau-24. Comparaisons des séquences peptidiques de GPxl et CAT par la méthode Gap

Séquences peptidiques GPxl/CAT

Pourcentage de ressemblance 28.57

(0/0)

73

Après qu 'on a comparé les quatre gènes deux par deux (SODI et SOD2 d'une part et GPXI

et CA T d'une autre part) on a essayé de faire une comparaison multiple des quatre gènes pour voir la

relation entre les quatre gènes en utilisant un programme de comparaison multiple Clusta W. Ce

programme permet de comparer les quatre gènes ensemble. Les résultats de cette comparaison qu ' il

ya pas beaucoup de régions commune entre les quatre gènes, ce qui montre qu' il ya pas de relation

importante entre les quatre gènes au niveau de leurs structures nucléotidiques. Pour finir cette partie

de notre projet, on a établit l'arbre phylogénique de nos quatre gènes en se servant de l' alignement

multiple par ClustaW et d'un logiciel de phylogénie appelé MEGA4 (www.mega4software.net).

L'arbre phylogénique de nos quatre gènes est représenté à la Figure-13. Cette Arbre

phylogénique confirme touts les résultats trouvés dans notre étude en montrant, d'une part, la grande

ressemblance entre les deux genes SODI et SOD2 et les différences significatives entre les deux

gènes GPXI et CAT, d'une autre part.

3-2-3. Facteurs de transcription et régulation de l'expression génique:

Dans cette dernière partie de notre projet on a cherché un grand nombre de facteurs de

transcription (100 facteurs) qui sont regroupés dans une banque de donnés des facteurs de

transcriptions (TFD). On a donc utilisé les séquences consensus des facteurs de transcription

trouvés dans cette banque de donnés et on a vérifié l' existence de ces séquences consensus sur nos

quatre gènes.

Les résultats de cette étape ont montré que les facteurs de transcription sont plus abondants sur

SOD2 et CAT que les deux autres gènes SODI et GPxI.

74

Une liste de facteu!s de transcriptions (Tâbleau-25) a été déterminée durant cette partie de

notre étude. Quelques un de ces facteurs identifiés (AP2, SPI , NF-KB) ont été déjà trouvés sur nos

gènes dans d' autres études (128).

Mais on vient ajouter une nouvelle liste de facteurs de transcription assez importants dans la

régulation de nos quatre gènes comme: PEA3, CTF/CBP, EFII, B-factor, TF2D/TBP. On a aussi

trouvé que la plupart des facteurs de transcription (surtout PEA3 et CTF /CBP) trouvés sur les deux

gènes SODI et SOD2 sont localisés dans la région 5' -UTR commune entre les deux gènes (Tableau:

Il). En effet, on a calculé le nombre de facteurs de transcription qu'on trouve sur la région 5' -UTR

commune entre ces deux gènes et on a trouvé que parmi les six séquences consensus de PEA3 trouvé

sur SOD 1 il ya quatre qui se trouve dans la région 5 'UTR commune entre ce gène et celle de SOD2,

et parmi les onze séquences consensus de PEA3 trouvé sur SOD2 il y'en a 7 qui sont sur la région

5 'UTR commune entre SOD2 et SOD 1. Ceci nous donne un pourcentage de 65% des sites de liaison

de PEA3 trouvés sur les deux gènes SODI et SOD2 sont localisé sur la région 5' -UTR commune

entre ces deux gènes. Pour CTF/CBP, 63.33% des sites de liaison de ce facteur de transcription sont

localisés dans la région 5' -UTR en question.

75

Figure-Il. Arbre phylogénique des quatre gènes SODI , SOD2, GPxI et CAT

\ H.Sapiens SOD2

H.Sapiens SODI

H.Sapiens GPxI

H.Sapiens CAT

0.2

Cette figure montre la relation phylogénique entre nos quatre gènes. On peut remarquer facilement l' approchelnent qui se troue entre les gènes SODI et SOD2. Ce rapprochement suggère qu ' il ya un ancêtre commun entre ces deux gènes. Au niveau des gènes GPx 1 et CA T, on remarque qu ' il ya une certaine distance entre ces deux gènes et l'arbre ne Inontre pas de relation ancestrale entre ces deux gènes ce qui montre encore une fois la grande différence qui se trouve entre GPxl et CAT.

76

Les résultats trouvés dans cette partie de notre projet montrent aussi qu'il ya une certaine

relation évidente entre les mécanismes de régulations des deux gènes SOD 1 et SOD2, ce qui

suggère que les facteurs de transcription cités plus haut jouent un rôle important dans la régulation

de l' expression de ces deux gènes en stimulant l' un et en inhibant l ' autre ce qui explique les

résultats qu'on a déjà trouvé dans des études antérieurs faites par notre équipe de recherche.

Au niveau des gènes GPxl et CAT, on n' a pas trouvé de correspondance importante dans la

localisation des facteurs de transcription sur ces deux gènes. Le tableau-25 montre le faible nombre

de facteurs de transcription trouvés sur le gène GPxI alors qu'un grand nombre de facteurs de

transcription est trouvé sur le gène de la Catalase. Les facteurs de ~ranscription trouvés sur ces

deux gènes sont localisés sur des régions différentes et non sur les régions communes entre ces

deux gènes. Ainsi, l ' étude des facteurs de transcription a aussi montré une autre différence au

niveau de ces deux gènes et vient confirmer l'indépendance qui se trouve au niveau de la

régulation de l' expression des deux gènes GPxl et CAT.

En vérifiant les fonctions des deux facteurs de transcription trouvés dans notre étude: PEA3

et CTF /CBP, on trouve que PEA3 est un oncogène qui Appartient à la famille des Ets et ça a été

déjà montré qu' il intervient dans la régulation de l' expression du gène BRCA2 (129) ce qui pourra

nous confirmer l ' importance de ce facteur de transcription dans la régulation de nos deux gènes

SODI et SOD2. Pour CTF/CBP, c'est un facteur de transcription qui a plusieurs fonctions au

niveau du cerveau et surtout on le trouve en abondance au niveau des neurones en jouant un rôle

dans l' amélioration de la mémoire à long terme (130). Ceci nous explique les résultats qu'on a déjà

trouvés dans notre laboratoire (8) et qui montre une dépendance entre les niveaux d' expression de

SODI et SOD2 aux niveaux des neurones

77

Tableau-25. Liste des facteurs de transcription trouvés en abondance sur nos quatre, gènes ainsi que le nombre de fois qu'on a trouvé ces facteurs de transcription sur chacun des gènes indiqués.

Facteur de SOD] SOD2 GPx 1 CAT transcription

AP-2 7 13 0 9

SPl 3 9 1 4

NFKB 2 5 0 7

PEA3 6 Il 2 14

CTF/CBP 3 8 1 Il

EFII 2 1 0 5

B-factor 1 5 2 5

TF2D/TBP 7 10 0 20

78

CHAPITRE~4

CONCLUSION

79

Au niveau d 'une cellule, le désordre dans la régulation de la prolifération et dans l ' apoptose

sont des facteurs majeurs et responsables de l ' initiation et la naissance des tumeurs. En effet, les

ROS (radicaux libres) ont été reconnues capables de dégrader et d' inactiver des molécules

importantes et des structures biologiques critiques dans la prolifération des cellules ce qui explique

leurs implications, directes ou indirectes, dans plusieurs maladies humaines y inclus le cancer.

Pour ceci l ' organisme humain a développé un système de défense contre ces agents agressifs :

les enzymes antioxydantes. Par conséquent, le rôle des enzymes antioxydants est crucial dans la

régulation du métabolisme. Notre étude est faite sur l~s enzymes antioxydantes les plus importantes,

des enzymes qui agissent directement sur des radicaux libres spécifiques et les dégradent en des

produits moins agressifs. Ces enzymes sont: SODI, SOD2, GPxl et CAT. Des études antérieurs

dans notre laboratoire ont été effectuées sur ces quatre gènes et ont montré que, en absence

d'œstradiol-~17 , l ' expression de SOD2 diminue dans les cellules du cancer du sein (ER positive) par

rapport aux cellules cancéreuses (ER négative), alors que celle de SOD 1 augmente. En présence de

l ' œstradiol-~17 , le niveau d'expression de SOD2 augmente beaucoup dans les cellules cancéreuses,

ER positive, par rapport aux cellules ER négative et celle de SOD 1 diminue. Donc les différences

dans les niveaux d'expression dans chacun des pairs des gènes correspondants (SODl/S0D2 et

GPxl/CAT) suggèrent qu'il existe probablement un mécanisme de dialogue entre les gènes membres

de chaque pair aussi bien qu'entre les quatre gènes antioxydants.

L 'objectif principal de notre étude était de comprendre les mécanismes de régulations de

l ' expression des quatre gènes antioxydants : SOD l , SOD2, GPx 1 et CA T ainsi que de déterminer par

quel moyen ils communiquent entre eux. Pour ce faire on a utilisé un ensemble de programme bio-

80

informatique parmi ces programmes on a des programmes de comparaIsons et d' alignement des

séquences nucléotidiques et peptidiques (BLAST, Bestfit, Gap .. ) ainsi que d 'autre programme de

recherche de séquence dans des banques de données (Findpatterns dans Genbank, TFD ... ).

La première étape de notre projet était d'identifier le quel des trois variants de SOD2 et le quel

des deux variants de GPx 1 qui ont été sur-exprimés dans -notre étude antérieurs cité plus haut. Nos

analyses nous ont permis de montrer l ' implication des Variants 1 de SOD2 et GPx 1 dans notre étude

sur le cancer du sein.

Notre deuxième objectif pour cette étude était de chercher des régions de similarité entre tous

les composants de nos quatre gènes. Les résultats de cette partie ont révélé qu' il y a une très bonne

ressemblance entre le duo SOD 1 /SOD2 surtout au niveau des introns 1 et2 et de la région 5 'UTR de

ces deux gènes. Pour le Duo GPx l/CAT, notre étude a montré qu' il ya pas de régions similaires

significatives entre ces deux gènes.

Les résultats de notre dernière partie, qui était sur la recherche des sites de transcription

impliqués dans l ' expression de nos gènes, ont montré l'importance de quelques facteurs de

transcription dans la régulation de l'expression génique de nos gènes notamment AP2, SP 1, NFKB,

PEA3 et CTF/CBP.

En guise de copclusion, on peut déduire que les gènes SODI et SOD2 ont un mécanisme de

régulation de l ' expression dépendant par le moyen d'un certain nombre de facteurs de transcription qui

servent à stimuler un gène et à inhiber l'autre ce qui explique les différences dans le niveau

d' expression de ces gènes. Dans la liste de facteurs de transcription cités plus haut, on indique que

c ' est la première fois qu ' on démontre l'importance des deux facteurs PEA3 et CTF /CBP dans la

régulation de l ' expression des gènes antioxydants. Pour les genes G Px 1 et CA T, nos résultats n ' ont pas

montré de ressemblances significatives au niveau des composants de ces deux gènes ni au niveau des

81

régions régulatrices ni au niveau des régions codantes, ce qui nous montre que se sont deux gènes très

indépendant l'un de l'autre.

Comme on a indiqué en plusieurs reprises, durant notre étude on a utilisé des outils purement

bio-informatiques, donc des études plus approfondis au laboratoire seront très intéressantes pour

mieux comprendre cette relation qu'on a déterminé entre les gènes antioxydants et le cancer du sein.

82

- ------- - -------- - --- - --- ----- - -------

ANNEXE 1: Les séquences nucléiques des gènes SOD1. SOD2. GPxl et CAT:

Séquence nucléotidique du brin codant de SODI :

5'-UTR DU GENE

-1981 CAGGACAGCC-TCCACAGCAA-AGAACTGTCT -GGCCCAAAAT -GTCCA T AGTG -1931 CCCACATTCG-ATGCCCTGCA-TTAGGAAGAT-ATAAATACTC-TTAAATATCA -1881 CAGAGTT AAA-TTCCTTACCC-CTGTTCT AGC-AGAGA TGA TA-TTCTTGCGGG -1831 GGGAGCA TCT -TCTTGGCTTC-AACACA TTCT -TTTCTCCA TG-GGAGA TGA TG -1781 CCAGAAGAGG-GACAGAACAG-GGCCCAGT AA-AGCA TGGGGC-CTGGGGCCAG -1731 GGACCCCCTT -GTTCAGGTGT -GACGACCA TC-CTACGAAGGC-ACCACCCAGG -1681 CA TCA TT AGA-CCGTCTCAAA-AGAAGAGT AA-TTCACTGTCC-CAAAGCAGCT ' -163] CTCTCGTGTC-TGTGGGCGGA-TCCCTTGGCA-AGTTTACAA T -GAACTGAAA T -1581 CTGCCGAACT -TCCTGGAACC-CAAAGAAACT-TT AGCCTTGG-GCAAAGGCCC -1531 TTTGGCCAGC-ATTTGCACTG-TTTATGCAAC-CGTTTAGAAT-ATACGAATTA -1481 TCTGGAGACT -ACT ACCAAA T -ACAACAGGCA-AAACTGCAAA-T ATGT AT ACT -1431 TCCT AGAGGA-TGA T AAAAAA-A TGTGAA TTG-TA TTTCTCTG-AT AGAGGA TG -138] CATTAGAGTC-TGAGGGTCTA-AATAGCGTAA-ATAATAAATA-AGTAAATAAA -1331 TCGA T AGT AG-TGT ACTCCAA-ACGAGGCTGG-AA T AGCTTCT -A TTGTTGTTT -1281 CACACTGGAC-TTCAATTAAG-TCTCAGTATT-TTGCCATACT-CAATATTAAG -123] T ACTAGGCTG-GACGTGGTGG-CTCA TGTCTG-T AA TCCCAGC-ACTTTGGGA T -118] TGGGAGGTGG-GT AGA TGGCT -GGCTTGAGCT -CAGGAGTTTG-AAACCAGCCT -1131 GGGCAACA TG-GT AAAACCCC-A TCTGT ACCC-AAAA TACAAA-AA TCAGCCAG -1081 GAAGGGTGGC-ACA TGCCTGT -GGTCCCAGGT -ACTTGGGA TT -GGGAGGCAGG -] 031 AAGATGGCTT-GAACCCAGGA-GGTGGAGGCT-GCAGTGAGCT-ATGATGGCGA -981 TTGGGCACTC-CAGCCTGGGT -GACA GAGGAA -GA CCCTGTCT -CAAAAAGGAA -931 GCAAACAACC-CCCTCGCCCC-GGACAAAAGT-AGTTTGCACT-ATTTTCTCAT -881 TTCACAATAT-GTTTTTGAAA-ATTTCCCTT-GAAAGGTAAG-TCATATTTAT -831 CATTCCTGTT-GTATGGAGGC-ATCATAAATT-ATTTCACCAT-TCTACCCTCC -781 TTGAGTGTTG-TGGCCTTT AG-GCCAGACAAA-AACGCAGGTG-ATGCCT AGAA -731 GCCAACT AGT -TGCCGTTTGG-TT A TCTGT AG-GGTTGTGGCC-TTGCCAAACA -681 GGAAAAATAT-AAAAAGAATA-CCGAATTCTG-CCAACCAAAT-AAGAAACTCT -631 AT ACT AAGGA-CT AAGAAAA T -TGCAGGGGAA-GAAAAGGTAA-GTCCCGGGA T -581 TGAGGTGT AG-CGACTTTCT A-T ACCCTCAGA-AAACT AAAAA-ACAAGACAAA -531 AAAA TGAAAA-CT ACAAAAGC-A TCCA TCTTG-GGGCGTCCCA-A TTGCTGAGT -481 AACAAA TGAG-ACGCTGTGGC-CAAACTCAGT -CA T AACT AA T -GACA TTTCT A -431 GACAAAGTGA-CTTCAGA TTT -TCAAAGCGT A-CCCTGTTT AC-A TCA TTTTGC

- 381 CAA TTTCGCG-T ACTGCAACC-GGCGGGCCAC-GCCCCCGTGA-AAAGAAGGTT

-331 GTTTTCTCCA-CA TTTCGGGG-TTCTGGACGT -TTCCCGGCTG-CGGGGCGGGG ':281 GGAGTCTCCG-GCGCACGCGG-CCCCTTGGCC-CCGCCCCCAG-TCA TTCCCGG -231 CCACTCGCGA-CCCGAGGCTG-CCGCAGGGGG-CGGGCTGAGC-GCGTGCGAGG -181 CGA TTGGTTT -GGGGCCAGAG-TGGGCGAGGC-GCGGAGGTCT-GGCCT A T AAA

83

-131 GT AGTCGCGG-AGACGGGGTG-CTGGTTTGCG-TCGT AGTCTC-CTGCAGCGTC - 81 TGGGGTTTCC-GTTGCAGTCC-TCGGAACCAG-GACCTCGGCG-TGGCCT AGCG -31 AGTT A TGGCG-ACGAAGGCCG-TGTGCGTGCT

5'-UTR de l'ARN messager

1 GTTTGGGGCC-AGAGTGGGCG-AGGCGCGGAG-GTCTGGCCT A-T AAAGT AGTC 51 GCGGAGACGG-GGTGCTGGTT -TGCGTCGTAG-TCTCCTGCAG-CGTCTGGGGT

10] TTCCGTTGCA-GTCCTCGGAA-CCAGGACCTC-GGCGTGGCCT-AGCGAGTT-l48

EXON-l

149- AT I5I-GGCGACG AA G-GCCGTGTGCG-TGCTGAA GGG-CGACGGCCCA-GTGCA GGG T A-

201 TCA TCAATTT -CGAGCAGAAG-220

INTRON-l

221 -GCAA GGGCTG-GGA CGGA GGC-TTGTTTGCGA 251 GGCCGCTCCC-A CCCGCTCGT-CCCCCCGCGC-A CC TTTGCTA -GGA GCGGGTC 301 GCCCGCCAGG-CCTCGGGGCC-GCCCTGGTCC-AGCGCCCGGT-CCCGGCCCGT 351 GCCGCCCGGT-CGGTGCCTTC-GCCCCCAGCG-GTGCGGTGCC-CAAGTGCTGA 401 GTCACCGGGC-GGGCCCGGGC-GCGGGGCGTG-GGACCGAGGC-CGCCGCGGGG 451 CTGGGCCTGC-GCGTGGCGGG-A GCGCGGGGA -GGGA TTGCCG-CGGGCCGGGG 50] AGGGGCGGGG-GCGGGCGTGC-TGCCCTCTGT-GGTCCTTGGG-CCGCCGCCGC 551 GGGTCTGTCG-TGGTGCCTGG-AGCGGCTGTG-CTCGTCCCTT-GCTTGGCCGT 601 GTTCTCGTTC-CTGA GGGTCC-CGCGGA CA CC-GA GTGGCGCA -GTGCCA GGCC 651 CAGCCCGGGG-ATGGCGACTG-CGCCTGGGCC-CGCCTGGTGT-CTTCGCATCC 701 CTCTCCGCTT- TCCGGCTTCA -GCGCTCTA GG-TCA GGGA GTC-TTCGCTTTTG 751 TACAGCTCTA-AGGCTAGGAA-TGGTTTTTAT-ATTTTTAAAA-GGCTTTGGAA 801 AACAAAAATA-CGCAACAGAG-ACCGTTTGTG-TGACACTTTG-CAGGGAAGTT 851 TGCTGGCCTC- TG TTC TA GGT-CA TGATTGGG~CTGCAA GGGC-A GA GAA GGTA 901 GCCTTGAACA-GAGGTCCTTT-TCCTCCTCCT-AAGCTCCGGG-AGCCAGAGGT 951 TTAACTGACC-CTTTTGGGGA-TTTTTGAGGG-CAGTGATCTT-AACTTTGGGT

1001 GCACAGTTAG-CTTATTTGAA-GATCTTACTA-AAAATACACC-AGAGCCCAAC 1051 CTCCGACCAA-TTACATCAAA-ACCTGTCCTA-GTGCAGGGTG-AGTATTGCTG 1101 TTTTTTGAAA-GTTTCCAAAA-GTGATTTTGA-TGTGCACCTA-CGATTGAGAA ]] 51 CTGTCGTTTG-AGGACAGTGG-GTGGAGTTTC-GTATTTGGAA-ATTAGAAGAC 1201 CTGGAGTTTC-CATTACACCG-AATTGGCACT-TAATAACTGT-TGTCGGAGCA 1251 TTTCTTAAGC-CACATTTTCG-TAAAGTGGCT-TTAAAATTGC-TCTGCCAGTA 1301 GGCA GGTTGC- TAA GA TGGTC-A GA GA CAAA C-TTCTGAA CGA -CTCTTGT AAA 1351 ATATACAGAA-ATA TTTTCAG-AACTTTTATC-AGTAAAATTA-CAAAACGTGT ]401 TGCAAGGAAG-GTGCTTGTGA-TAACACTGTC-CCCAGAACCT-TAGTGAAGTT 1451 ACCAACTGGT-GGAAAATTTT-CTCTTGCACT-CGGCTTAAAA-ATCATGAGGG 150] AATATTTACT-ATACGAATGA-GATTCAGTCT-TTAAAGGGGT-TTACAGAAAC 1551 GTGA GA GGA C-A GGAA CA GTT-A GTCTGTGTA -AA TG TCTGA A -A TA TA TGTGA 1601 GGGAGATAAT-GAGTTTAGCC-TTTTTCTTTA-ATAGGTCTCC-AGATTTTCTG 1651 GAAAAGGTTC-TTTGGCATTT-GACTCCATTT-TGCTGTTTCA-TTTGTCAGAC 1701 TTCTTTTTGT-CCCTCTTTAC-TTCTCCCCAC-ATAATTCACC-AGTACTAGTG 1751 TTTTGTTTTT-CA GA CCAA GT-CTCGCTCTGT-CGCCCA GGCT-GGA GTGCA GT 1801 GGCGCGA TCT-CA GCTCA CTG-CAA CCTCCGC-CTCCCA GGTT-CAA GCAA TTC

84

1851 TCCTGCCTCA -GCCTCCCGGG-TA GCTGGGA C- TA CA GGCGCG-CGCCGCCA CG 1901 CCTGGCTAAT-TTTTTATATT-TTAGTAGAGA-CGGCGTTTCA-CCATGTTGGC 1951 CA GGA TGGTC-TCGA TC TG TT-GA CG TCGTGA -TCCA CCCGCC- TCGGCCTCCC 2001 AAA GTGCTGG-GA TT A CA GGC-GTGA GCCA CC-CCGCCCGGCC-A CCA GTGCTA 2051 TTCTTAA GA C-GCCTCTGA GG-AA TCCCTTCT-CCCTGGCCAT-TGA GAATCCA 2101 TGCA TGAA CC-CA GGTTTTCC-A CCTTCCCTG-A GCA GCTTGC-A TA GTTCCTT . 2151 CTTTTAA GCG-CCTGA CTTCG- TTTTGTTTGG- TGCCCGTTGT-ACCTGAGAAT

·2201 GAGCCTTGGA-TAGTGGAGCA-TTCCAGCTTT-CCAGATATGC-AGAGATAATA 2251 CATTGGCTA T-CA GCTA CTTG-GCTTGGCCTA -TTCCGTGTTT-AAAA TCTTGG 2301 ACTCTTTGCT-AGTTTTTACA-GATCAGAATT-TTTCACGTAT-TAATCCAGTT 2351 TTCCTA GCTT-C TC TTGA A GA -A TTTTTGGA G-A TCTCTTCAT-A CTGA GCCTT 2401 CATTAGCCCA-GGACAGTACT-GCTGTAGCAG-TTCATATATT-TTTTCGCTTC 2451 CCAGGCCTGT-GTTATTCACT-TAAGTTCATA-GCCTGGTCCC-TGCAGGGTTG 2501 TACCCGAGCA-CAGCTACTTA-GATGTCCTGA-ATGTATTACC-GGTTAAATGG 2551 AGGTTTCAAA-GAACCTGCTG-TTTTTGGCCC-TGTGCTCTTG-ATAACAGAGT 2601 GTTTGA GGGA -CAA CTTTCA C-ATTTGA GTTT-TTCCAAAA TT-AAA GGTTGT A

2651 GAAGAGTCAC-AGTATCTATT-GTCAAAAAGA-AAAGAATTTA-AAAAGGCAGC 2701 AATTGCCAGG-ATACTTCATT-TGAGCAATGA-TATTTTCCAG-TGGAAAGTCA 2751 CATCTTAAGG-GTTAATGCCC-CTTAACTGTT-GGCCGTATTT-GAAAACAAAC 2801 CAAGCTAAAA-ACAAGAGACA-CTGACATGTT-GTATGACGGT-GTGGTGTGGA 2851 TGTTGTGTTT-ATTTTAGTCC-TGAGATCTAG-TTGTAACTTC-CTTGATTTCT 2901 GTATGTAGCC-ACGGAGCACC-ATTACCTGTC-ACCATTACCT-GAATGGCTAT 2951 ACTGCTTGCT-TTCATTTTGG-TAGAGTGGAA-AGGTTACCTA-GGTTTCAGTG 3001 CTTGAAAAGA-TTTCAGAAAG-CAGTAGTACG-TCTGGTTAGA-CTAGAATCAG 3051 TCCTCTCCTG-GGGGCAGTG-AATATAATAT-TTTCTGACTG-CTAATTAAAA 3101 ATACCTGTGA-TA GCCGGGCG-TGGTGGCTTA-CGCCTGTAAT-CCCAGCACTT 3151 TGGGA GGCCG A GA CGGGTGG-A TCA CGA GGT-CA GCA GA TGG-A GA CCATCCT

3201 GGCTAACACG-GTGAAACCCC-GTCTCTACTA-AAAATGCAAA-AAAATTAGCC 3251 GGGTGTGGTG-GTGGGCGCCT-GTAGTCCCAG-CTACTCAGGA-GGCTGAGGCA 3301 GGA GAATGGC-A TGAA CCTGG-GA GGCGGA GC- TTGCA GTGA G-CCGA GA TCA T 3351 GTCA CTGCA C-TCCA GCCTGG-GCGA CA GA GC-GA GA CTCGTC- TCAAAAAAAA 3401 AAAGAAAAAA-ACTTATGATG-GACACTTAAA-AACACTCACT-GAGTGGGGAG 3451 TGGA GA GCA G-GGGTCCCA GG-GTA GCCTGTT-GGA CA TTTCC-A GGGCGA CTT 3501 TTTCTTTTTT-TTTTTTTAAA-GTCAAGTGAG-TATGCCATAT-GGAAAAGGGT 3551 GTGCGTGGAG-AAAAAGCAAG-GGGCTCCAGA-GTGTAGGATG-AGACATACAC 3601 CTTTTGGGTT-AAAAAGGCTG-AGGCAGGAGA-ATGGCGTGAA-CCCGGGAGGC 3651 GGAGCTTGCA-GTGAGCTGAG-ATCATGCCAC-TGCACTCCAG-CCTGGGCGAC 3701 AGAGCGAGAC-TCTTGTCTCA-AAATAAAAAA-CGTTTACATG-TACATGTATA 3751 TTCAACATGT-ACAAATATAA-CCTATTCAAA-AGTATTTACT-ACATAAATAG 3801 GTACTTACAT-TACCTATTTA-CTGTAATAGT-CAAAGCCTAT-GAAGTATCTA 3851 ACACTGATGT-GTAGGTACTC-ACTTTGCTTG-CCACTCTATTAGGTGCTTTT 3901 TATGTTATTT-AATCATGAAG-CCTGGCCACA-GGGTGCTTGT-GCATTGAGTG 3951 TGGGAACAAG-ATTACCATCT-CCCTTTTGAG-GACACAGGCC-TAGAGCAGTT 4001 AA GCA GCTTG-CTGGA GGTTC-A CTGGCTA GA -AA GTGGTCA G-CCTGGGA TTT 4051 GGACACAGAT-TTTTCCACTC-CCAAGTCTGG-CTGCTTTTTA-CTTCACTGTG 4101 AGGGGTAAAG-GTAAATCAGC-TGTTTTCTTT-GTTCAGAAAC-TCTCTCCAAC 4151 TTTGCACTTT-TCTTAAAGG-4169

EXON-2

85

4170 A-AAGTAATGGA-CCAGTGAAGG-TGTGGGGAAG 4201 CA TT AAAGGA-CTGACTGAAG-GCCTGCA TGG-A TTCCA TGTT -CA TGAGTTTG 4251 GAGA T AA T AC-AGCAG-4265

INTRON-2

4266 G TGGG- TGTTGTGCTG- TGCTGGTGA C-CCATA CTTGT 430] TCACCCTAGT-TAGATAAACA-GTAGAGTAGC-CCCTAAACGT-TAAAACCCCT 4351 CAACTTGTTT-TTGTTTTTGA-GAAAGGGTCT-TGCTCTGTCG-CTCAGGCTGG

440] A GTGCA GTGG-CGCTGTGCGA _ TCA TGGCTGA -CCTTA GCCTT-GA CCTCCCA G 4451 GCTCCATTGA-TCCTCATGCC-TTGGCCCGTA-GCTGGGACTA-CAGGTACACA 4501 CCACCACGCC-TGGCTAATTT-TTGTATTTTT-TTCTAGAGGT-GGGGTTTCAT 4551 CATGTTGCCC-AGGCTGGTCT-TGAACTGCTG-GGCTCAAGTG-GTCTATCCTC 4601 CTCGA CCTCC-CAAA GTGCTG-GGA TT A CA TG- TGTGA GCCA C-TGTGCCTGGG 4651 AAAACCCTCA-ACTTTTCTTT-TAAAAAAGAG-GTCAACTTTA-TTGTATA TAA 4701 GCACTGTGCT-AAAATTGCAG-GAACTGGGAC-CATATCCTGA-TTTTTGTAAT 4751 AATGCCAGCA-GAGTACACAC-AAGAAAAGTA-ACTGCACTAG-ATTGTGAAGA 4801 CTGGGGTGGA -CCTGCTTCTG-AA GGTCCA G T-GCCCTTTG TC- TTAA GATTTG 4851 GTGTA GTGTG-TCTTTA GAAA -CCAAAAAAA G-A GAA GAA GA TC-AA CCTTAA GA 4901 TTAGCCACAA-AACTGGGCT-TTGATACCTA-GGTGTGGAAA-AGAAAGGGAA 4951 AGAGTTGATG-TTTTGTCTTA-CAGCATCATT-GTAGAAGAGG-GTGTTTTTTT 5001 GTTTGTTTGT-TTTTTGA GA C-GGA GTCTTA C-TCTGTGGCCC-A GGCTGGA GT

5051 GCA GTGGCGC-GA TCTCGGCT-CA CTGCAA GC-TCCGCCTCCC-GGGTTCA TGC 5] 0 1 CATTCTCCTG-CCTCAGCCCC-CTGAGTAGCT-GGGACTACAG-GTGCCCGCCA 5]51 CCCCGCCTGG-CTAATTTTTT-GTATTTTTAG-TAGAGACGGG-GTTTCACTGT 5201 GTTA GCCAA G-A TGGTCTCTC-TCCTGA CCTC-GTGATCCGCC-TG TCTCA GCC 5251 TCCCAAA G TG-CTGGGATT A C-A GGCATGA GC-CA CCGCA CCC-A GCCA GAA GA 530] GGGTGTTTTT-TAAAGAAGGC-AAATAGGAAA-TAAAAACTTG-GGCTCTTAAC 5351 TTTTGTAA TG-A TCCCA GGTG-TTTGA GCTGG-GGGTTGA GGG-TGGGTGCCTC 5401 GAGCAAAGGG-GCTGCATTTA-TTTGCATAAT-GCCATGTAAG-AGTAGCTCTA 5451 CACCCCAAAC-ACAGGCTTCT-TAGTGGGACC-AAAGTATGAT-ACAAACTGAA 5501 GATGGAATGC-AGAGGATTAT-TGGTACTTTG-GAATATGCTT-AAAAAAAATT 5551 TTTTTAAAGT-ATTTTTAAAA-AATCAGGCAA-CCCCTGAACC-AGAGTAGGTT 560] CA GA GAAA CT-GCCAAA TTTT-A TTTTC TT A A -TTTGGGATTG-GAA GCAA GTT 5651 AACAGAAGTT-TATGAGTTAA-GTTGCATTTA-GTGATCTTTT-GCCATATTTG

5701 AGTAATAATC-TGATTTTTTT-GTTTATAGAT-TTCTTCTTAA-ATTAACTTTA 5751 TTCATCTTGC-TAATTTAGTT-TCAAATAGTG-ATTTGTAATG-ATCAGATTTG 580] A TCCATTTCT-GTAA TTGCTG-AAA TTCCCCC-GA GTTGCTTT-TTGGCTTTA C 585] CGCCTCTGGT-CTGGGAGGTG-ATTGCTCTGC-TGCTTCCTGT-AACTTGCCTG 5901 CCTTTCTCCC- TG TG TGGGA C-TCCTGCGGGT-GA GA GCGTGG-CTGAA GA CA G 5951 CCGTGTTA TG-AAA GGGCCTC-CTGTGCTGTC-GA GGTTGTGC- TCTGTGAA TG 6001 TCATCCCCTG-GTGCACAGCA-GCACCTTCTA-CACAGGATAC-AGTTGGAATG 6051 CCGCCCCCTC-GA G TTGTG TA -A GGCA GCA GC-CTTGGCCCTT-GCA CATAA GA 6]01 TGCTGTTGAA-TATTCTGCCT-GCACCAAGTA-AAGGGCACAG-ATAGAACTGC 6151 TTGGCATATG-TTGCTGGGGA-GATGAGTTTT-TTGTAAAGTA-TACTACGTTC 6201 TTAAGAATTT-GGATCATAAC-CATGGGATTT-TAATAATAGA-AAAACTGTTG 6251 AAGATCAGTC-TGGTCCCTTA-TTTTTACAGT-GAAGAAGCCA-AAGCCCAGAG 630] AAGGGTGTTA-ACTTTACAAG-TGTCAGACAG-TAGTTAGAAC-TTGGTGGGGT 6351 TTTTTTTTTT- TTTTTTTTGA-GATGGAGTCT- TGCTCTGTTG-CCCAGGCTGG 640] A GTGCA GTGG-TGCGA TCTCA -GCTCA CTGCA -A CCTCTGCCT-CCCA GGTTCA 6451 AGCGATTCTC-CTGCCTCAGC-CTACTAAGTA-GCTGGGACTA-TAGGTGCGCA 6501 CCACCACGCC-TAGCTAATTT-TTGTATTTTT-TCAGTAGAGA-CAGGGTTTTG 655] CTATGCTGGC-CAGGCTGGTC-TCAAACTCCT-GACCTCAGAT-GATCCAGCCA 6601 CCTCAGCTTC-CCAAAGTGCT-GGGGTTCCAG-GTGTTAGCCA-CCATGCCTGG

86

6651 CCATA GA CTT-GTTTCTGTTC-CCTTCTCA CT-GTGGCTGTA C-CAA GGTGTTG 6701 CTTATCCCAG-AAGTCGTGAT-GCAGGTCAGC-ACTTTCTCCA-TGGGAAGTTT 6751 TAGCAGTGTT-TCTTTTTAGA-ATGTATTTGG-GAACTTTAAT-TCATAATTTA 6801 GCTTTTTTTT-CTTCTTCTTA-TAAATAGG-6828

EXON-3

6829 CT -GT ACCAGTGC-AGGTCCTCAC 6851 TT~~ AATCCTC-T ATCCAGAAA-ACACGGTGGG-CCAAAGGA TG-AAGAGAG-6897

INTRON-3

6898 GTA 6901 ACAAGATGCT-TAACTCTTGT-AATAATGGCG-ATAGCTTTCT-GGAGTTCATA 6951 TGGTATACTA-CTTGTAAATA-TGTGCTAAGA-TAATTCCGTG-TTTCCCCCAC 7001 CTTTGCTTTT-GAA CTTGCTG-A CTCATCTAA -A CCCCTGCTC-CCAAATGCTG 705] GAATGCTTTT-ACTTCCTGGG-CTTAAAGGAA-TTGACAAATG-GGGACACTTA 7101 AAACGATTTG-GTTTTGTAGC-ATTTATTGAA-TATAGAACTA-ATACAAGTGC 7]51 CAAAGGGGAA-CTAATACAGG-AAATGTCATG-AACAGTACTG-TCAACCACTA 720] GCAAAATCAA-TCATCATTGT-GAAACATAGG-AAGCTTCTGT-AGATAAAAAA 7251 AAAAATTGAT-ACTGAAAACT-AGTCGAGACT-CCATTTATAT-GTGTATGTTT

·7301 TCTGAAAGCC-TTTCAGAAAA-ATATTAAATT-TAAGGACAAG-ATTTTTATAT 735] CAGAGGCCTT-GGGACATAGC-TTTGTTAGCT-ATGCCAGTAA-TTAACAGGCA 7401 TAACTCAGTA-ACTGAGAGTT-TACCCTTTGG-TACTTCTGAA-ATCAGGTGCA 7451 GCCCCATCTT-TCTTCCCAGA-GCATTAGTGT-GTAGACGTGA-AGCCTTGTTT 7501 GAAGAGCTGT-ATTTAGAATG-CCTAGCTACT-TGTTTGCAAA-TTTGTGTCTA 7551 CTCAGTCAAG-TTTTAATTTA-GCTCATGAAC-TACCTTGATG-TTTAGTGGCA 760] TCAGCCCTAA-TCCATCTGAT-GCTTTTTCAT-TATTAGG-7637

EXON-4

7638-CAT-GTTGGAGACT 7651-TGGGCAA TGT -GACTGCTGAC-AAAGA TGGTG-TCGCCGATGT -GTCT A TTGAA 7701-GA TTCTGTGA-TCTCACTCTC-AGGAGACCAT -TGCA TCA TTG-GCCGCACACT 7751 -GCTG-7754

INTRON-4

7755 GTAAGT-TTTCATAAAA-GGATATGCAT-AAAACTTCTT-CTAACATACA 780] GTCATGTATC-TTTTCACTTT-GATTGTTAGT-CGCGGTTTCT-AAAGATCCAG 7851 ATAAACTGTA-CTTGCAGTTC-AAATTAGGAA-AAGCAATTTT-ATTGGACAAT 7901 TACGGTGAAA-ATGAATTATT-TTATCTAGGT-CAGTTAAGAA-CACTGTTCTG 7951 CTAAGATGCA-GTAAAAAGCA-GGTTACATTT-GACCATATTA-GATCTGAGTT 8001 TGGAAAACAG-AAGTAGTCTT-TAGTTTTAAA-ATGGCCAGAT-TTTCTTGCCA 8051 GGA TTGGGTT- TCTCA CTTGT- TAAA CA GAA C-A TTTTGTTAA -GTTTAAAA CC 8101 TGGGATGGAC-TTAAGTATTC-ATGTTCATTC-ATGTTCATTC-AGGACTGCAG 8151 GTTATCA rGA-CTTGTTTAAC-TTGTGGGAAG-CTGTTGTCCC-AAGTTATCCT 8201 GGGGAA CTGC-A TCTGGTTCT- TGCAAAA CA C-CAA GTA GA CA -GGCTCTCTTT 8251 TA CC TCCCCT- TGA GGGCA TT-AA CA TTCA GT-A GTCA CTTCC-A TTCA GTTAA 8301 CCCTTTATTT-TTATGGTTTT-TCTTGAGCCA-TAGTTGTAAA-GCAGAAAAAT 8351 CATTTATAAA-GGTTTGTTGA-ACAAAATTCA-AAATACTGTT-GCTTAAAGTA 8401 TTAAGATTTT-TTAGGATTAT-ACCTTACTTA-TAGGCÇCGTC-ATTCATTTGG 8451 CATGAAATTT-TGAGTTTTAT-TCACTTTCAC-TTTCCTTTTT-TTCCAAAGCA

87

8501 ATTAAAAAAA-CTGCCAAAGT-AAGAGTGACT-GCGGAACTAA-GGTTACTGTA 8551 ACTTACCATG-GAGGATTAAG-GGTAGCGTGT-GGTGGTCTAC-AACATAGTTA 8601 TTTGGGTTTT-AGTATTTCAT-TTAGACAGCA-ACACTTACCT-AATGTTTAAA 8651 GGTAATGTCT-TTGCAACACC-AAGAAAAAGC-TTTGAGTAGT-AGTTTCTACT 8701 TTTAAACTAC-TAAATATTAG-TATATCTCTC-TACTAGGATT-AATGTTATTT 8751 TTCTAATATT-ATGAGGTTCT-TAAACATCTT-TTGGGTATTG-TTGGGAGGAG 8801 GTAGTGATTA-CTTGACAGCC-CAAAGTTATC-TTCTTAAAAT-TTTTTACAGG -8850

EXON-5

8851 TCCATGAAAA-AGCAGATGAC-TTGGGCAAAG-GTGGAAATGA-AGAAAGTACA 8901 AAGACAGGAA-ACGCTGGAAG-TCGTTTGGCT -TGTGGTGTAA-TTGGGA TCGÇ 8951 CCAATAA- 8957

3'-UTR DE L'ARNm

8958 - ACA-TGT AGTCTGA-TTCCCTTGGA-GGCCCCTTAA-CTCATCTGTT 9001 A TCCTGCT AG-CTGT AGAAA T-GT A TCCTGA T -AAACA TT AAA -CACTGT AA TC 9051 TT AAAAGTGT -AA TTGTGTGA-CTTTTTCAGA-GTTGCTTTAA-AGT ACCTGT A 9101 GTGAGAAACT-GATTTATGAT-CACTTGGAAG-ATTTGTATAG-TTTTATAAAA 9151 CTCAGTT AAA -A TGTCTGTTT -CAA TGA CCTG-T A TTTTGCCA -GACTT AAA TC 9201 ACAGA TGGGT -A TT AAA CTTG-TCA GAA TTTC-TTTGTCA TTC-AAGCCTGTGA 9251 AT AAAAACCC-TGT A TGGCAC-TT A TT A TGAG-GCTA TT AAAA-GAATCCAAA T 9301 TCAAACT AAA-931 0

3'-UTR DU GÈNE

+1 CCAAATTCAA-ACTAAATTAG-CTCTGATACT-TATTTATATA-AACAGCTTCA +5] GTGGAACAGA-TTT AGT AA TA-CT AACAGTGA-T AGCA TTTTA-TTTTGAAAGT

+ 10] GTTTTGAGAC-CATCAAAATG-CATACTTTAA-AACAGCAGGT-CTTTTAGCTA + ] 51 AAACT AACAC-AACTCTGCTT -AGACAAA T AG-GCTGTCCTTT -GAAAGCTTT A +20] GGGAAATGTT-CCTGCTTAGT-CATTTTAGCA-TTTTGATTCA-TAAAGTACCT +25] CCTCATTTTA-AAAAGACATT-ATGATGTAAG-AGAGCCATTT-GATAACTTTT + 30] T AGTGAGCTT _ TGAAAGGCAA-GTT ACAGCCT -CAGCT AGCT A-GTAAGA TT AT + 35] CT ACCTGCCA-GAA TGGCACA-AA TTCT ACA TT-CAAGGGT AG-ACGCTGGCAC +401 AACCTACTT A-CAGA TT AGCC-CTTT AAAGCA-A TCTGT AG CA-TT AGAAGA TG +451 GAACCAAGGA-AA TGTTTGAC-TGTGGGTTCT-GGCTGTTGAG-AAA T AA TTT A +50] CACACCGAAT-TAGTGAAATG-AGTCACTTTC-TCTTAATGTA-TTTATGTACC +551 TGAGAGAA TG-CTTTTCAA TG-TT AACCT AAC-TCAGGTTTGA-CT AAA TT A TT +601 CAATTGGAAA-TTGTAGAATA-TTATTTCTGA-TAAACCAGAA-ATAAGTGAAA +65] TGCTGTTTGT-TCATAAATAT-GTACTTTATC-AAATGTAGGA-GAGATCATTT +70] AGGAGAGGAA-AAGCT AAATT -GGAAGACAAA-TCTèiT AGTGT _ TTCCAAAGTT + 751 TT AAAA TT AT -GGT AAACAAC-AGT A TGTTCA-CAGT AAGTGG-TT AAAACAAC +801 CA TTCTTT AA-ATCTCAGT AG-AGAA TTTTT A-AAAAGCAGT A-TTT AACACA T +851 TTCCCTAATG-TAGTTTGTTG-CCTATGTGGA-ATAACTCAAT-TAGAGACTCA +90] CTTATGCCTT-TTGAAACTTC-AAATATAATT-ACACTACCAG-TTTTTACATG +951 TGCATATAGG-ATGGTCCCAA-TACTTTAAAT-TGGAAATACA-GGCTGTAAGT

+ ] 00] CCTTCAAGTC-TGGATGTTGG-GTAATCACGT-TTTCTTCCAG-AAGCCATTTG + 1 051 TT AGGACTTT -AAAACTTCTC-AGTGGGCCAG-TGT AAAA TT A-AGGACAAGTT +1 ]0] TTATAATTTA-AATTTACAGA-TAAATATAAA-ACAATTTTCT-CTCATTTTCT + 1 ] 51 AAAGGCAGGA-A TA T AAGGAC-A TTGCCCT AG-A TA TA TTCTC-CCCA TCAAAC + 120 1 CAAAGGTCTT -GCTGCTGAGT -A TT A TTT AAA-AACCAGAGT A-A T AAAGCAGC + 1251 TTCGCCTGAG-GA TGAAGGCA-AAGACAAAGT -T AACTGCTCA-GCA T ACTGAA

88

+] 301 ACCAGGAGTT -TGAAAAAGT A-ATTCAAAACA-ACTTCAAGGC-CAT AAA TACT + 1351 TGGATAGTGT-GACATCAGGT-CTTGGCACTG-GATTTCCTGC-AATTTCAGAT + 140] GAAGGCTTGA-CTTGGCTTTA-GATGTTTTCA-TGTGATAATT-CTTGGATAAC + 145] CTACAACGAT-TTTTCCTATT-TAACCCACCA-ACTTTAAGCA-AAAGAAAGAA + 150 1 CGT AT A TGTGG-GGGAAAAGTT-CGTTT ACCTC-TGCCCCGCAG-GGGAA TT AAA + 1551 ACGCTGGTG-AAGAAAGGCA-ACAGGCAAGG-CTT AT AT AAG-GAAACAGT AG + 160 1 T AGGCTGCAC-TGAAGTCCTC-AAACACAACA-AAAAGCTCTT -AGGTTGCAAA + 1651 tGTT AACCTT -GA TTCTTTT A-CCCTTTTGAA-AAA TTCAATG-GGATGGTTGG + 170 1 AAAAAAAAAA-AACCACAGAC-ACACACACAC-ACACACGCAA-CCTTCT AACG + 1751 T AA T ACCCAG-GCAGTCCGA T -AA TTTA TAGT -ACAACGTGTA-ACACTGGGA T + 1801 CCAACTTTTC-ACCCAGCAAA-A TCTCCTT AC-AAA TT AGGGC-AACA TA T ACC + 1851 ACAAAGCCAA -TGGAAAAAAA -AA GAAAACCT -CGATTGAA TT -GCAAACACAG + 190 1 CTTTTCAA TT-GA CA TT AAAA -CAACT AACCT -TT ACCTT A TG-ACTGA GCA CT + 195] AAAAA TCAAA -AG TA TT ACA T -A TGAAAG TGA -GAA T AACT A C-A T AAAA TGTC-200 1

89

Séquence nucléotidique du brin codant de SOD2 (Variantl) :

5'-UTR DU GÈNE

-198] AGAACCTCA T -GTCCTGGGAC-TTCA TGGAGC-ACAAA TT AT A-GTGGGCAGAG -1931 AGGCAAACTT-GGAA TCACCG-TGACGCTGGG-CA TCGAGACT -ACTGGGTGCA -1881 ACAA TGGGAC-ACACTGAAAG-A TGACT AG CA-TGTCA T AGGA-ACTTGAAAGC -1831 A TTCGTGCTC-CTTCCTTTTC-ACAAACTGAG-AAA TCTT AAA-TTTTTTTT AA -1 781 CGTGTCCCA G-AA GCA TCTTG-ACAA CAGAA G-CACTCTCA TT -A CTGT AAA GC -1731 CCACAA TGAA-T AGCAGACAG-CA TGACTTCA-CCCT AGACAG-GTCA TGCCAA -1681 CTTCACATCCC-TTTCCAAATA-GTATGCCAGT-ACTATACCAA-ATAGTATAC -1631 CACTTT AGGA-AGAGTGGT AC-CAGGTGGT AA-GCTCCT AT AT -TCCAA TGACC -1581 AGAGTAAAAT-ATCACCAGAA-CTTTATGTAA-AATACATCTT-GTAAAAGTAT -1531 GATTACTTTA-TTTTTCAGAG-TTAAGGCAAT-AATCTGTGGT-TGGTTAATGT -1481 TCT AAGA TGT _ T ACAAGAACT-TT AAGAGACA-GGGTCTCACA-CTGTCACCCA -1431 GGCTGGAGTG-CAGT AGCACA-A TCA T AGCTC-ACT ACAGCTG-CAAACTCCTG -138] GGCCTGTGAT-CCTCCTGCCT-TAGCTTCTTA-GTAGCTGGGA-TGATAGGTGT -1331GAGTAACCAC-AACCAGCTAT-TATGAGAAAT-ATATAAAATA-CTATTTGTGA -1281 TCA TGTT A TT-TA T AAGAAA T -AT AT AT A TTG-TCTCAA TC CT -TGCTTGGTCT -1231 CTTGGCTCCT-AAACCCCTTG-AAGTATCTTT-GGTTTGCCAA-TGAAA TGATT -1181 GGTGGCTGGG.:AGCCTCT AGG-T AGCTTCAGG-ACGGGGGGCT -GCTT ACCAGA -1131 AAGACCAAGG-CAAGA TTGGA-GGGTTTGGAC-TCCCAGCCTC-AACCCCCAAC -1081 CTCCAGAAAG-GGGAGAGAGGC-TGAAGGTTGA-GTT AATCGCC-AA TTGCCAA T -1031 GGT AATGCT -GA CA T AA TGA-AGCCTCCGTA-AACCCCAAAG-GGTCGGGGTC -981 CAGA TGAGCT -TCTGGGT AG-CTGA TGACGT-GGAGAGAGCA-TGAAAGCTCC -931 AT ACCCCTTC-CCACA TGCCT -TGCCCTGTGC-A TCTCTTCCA-TCTGGCTGTT -881 CATCTGTATT-CTTTGAAATA-TCCTTTACAA-GCCAGAGGCA-ATGGCTCACA -831 GGAAGAA TCT -CAGCACTTTG-GGAGGCTGAG-GAAGGTGGA T -GACTTGAGGA -78] AGGGAGTTTG-AGACCAGCCT -GGCCAACAGA-GTGAAACCCC-A TCTCTACT A -731AGAATACAAA-AATTAGCTGG-GCATGGTGGT-GCACACTTGT-AATCCCGATT -68] GGTTGGGAGG-CTGAGGAAG-AGAA TCGCTT -GAACTCAGGA-GGTGGAGA TT -63] GGAGTGAGTT -GA TTGGGTGC-CACCGCACTC-CAGCCTGGGT -GACACAGTGA . -581 TTGGCCA TCT -CT AAA T AAAA -AAA T AAA T AA -A TGAAA TA TC-CTTT ACAA TA -531 AATTAGTATT-GTAACCAATA-TGTAGTTTTA-ATAAAGTAAT-AAAATTAAAA -481 A TGGGT AAAC-ATAAGT AGAG-TGTTTCTCTG-TGTTCTGGGA-GCTGCTCT AG -431 CAAA T AAA TC-AAAACCAAGG-AAAGGGTCAC-GGGAACCCCA-CTTT AT AGCC -381 AGTCAGAAGT -A T AGGGACTT -GCGA TTGGT A-TCTGGAGTGG-GGGCAGTCTT -331 GTGGGCTGAG-CCCTCCACCT-GTGGGATCTG-ACTCCAATTC-CAGGTAGACA -281 GTGTCAGAA T _ TGAA TT AT AG-GACA TCCAGC-TGGTGTCCAC-TGGACAACCT -231 GGTGT AAAAG-TA TTGAGTGG-T A TGTGACAA-CAGCAAAAAC-ACTTTGGTTT -181 TGTCGTATAT-CCCTAATACT-ATGCTTTTAG-GTTATCAGAT-GATGTTATTA -131 CAGA TA TGAC-TGGAGA T ACA-GGTCTTGGTC-TT AAGAGT AA-T A TTTCAACT

-81 ACCCATTATT-TACTATTCCT-TTCCCATGGA-AACTCAGTGA-AAATGACAGA

90

-31 AGA TTA T AGG-A TTTTT AAAG-TTTTTGACA T


1 GCGGTGCCCT-TGCGGCGCAG-CTGGGGTCGC-GGCCCTGCTC-CCCGCGCTTT 51 CTT AAGGCCC-GCGGGCGGCG-CAGGAGCGGC-ACTCGTGGCT -GTGGTGGCTT

101 CGGCAGCGGC-TTCAGCAGA T -CGGCGGCA TC-AGCGGT AGCA-CCAGCACT AG 151 CAGC- 154

EXON-l

-155 ATGTTG-AGCCGGGCAG-TGTGCGG-177

INTRON-l

178 GTG-AGAAGAAAGG-GGACCCGGTC 201 A CGGCCCCAA -GGGCGAA GGG-GCTCGCGGCG-GGCA GGGCCT-CCGCGGCAAT 251 GGCGA CA GTG-GCCGCA CCGG-GCCTGGCGGG-A CCGGGGCA C-CTGCAGGCGG 301 TTCTCCCGGG-A GTGCCCGGC-GCGGCGGCTG-GA GCGGGGAT-CCGCA GGGA G 351 GGA CGCGGG-GA CTCGGGGG-A CGCCGCGCG-CTGCCGTTCC-TCGGCA GCCC 401 AGCCTGCGTA-GACGGTCCCG-CGGCGCTGAC-TGACCGGGCT-GTGCTTTCTC 451 GTCTTCAGC- 459

EXON-2

460 A-CCAGCAGGCA-GCTGGCTCCG-GTTTTGGGGT -A TCTGGGCTC 501 CAGGCAGAAG-CACAGCCTCC-CCGACCTGCC-CT ACGACT AC-GGCGCCCTGG 551 AACCTCACA T -CAACGCGCAG-A TCA TGCAGC-TGCACCACAG-CAAGCACCAC 601 GCGGCCT ACG-TGAACAAÇCT -GAACGTCACC-GAGGAGAAGT -ACCAGGAGGC 651 GTTGGCCAAG-G- 661

INTRON-2

662 GTAGGTTCC-AGGCTGAGCG-GCGGGAGGCA-GTCCCCGGCA 701 GA GGCGA CCC-CA GGGA GCCA -GGCCCCA TA C-GGA CGGGCCT-CTCCGTGGA G 751GAGAACTCGC-TTCGTATTTG-TACCGGTTCC-GAGTTTTCCA-GGCACGATAG 801 TCTCTCTTTT-AAACACATGG-TCTACCTCAT-TGTAGAAGGA-GTGCCTCGAT 851 GGGTTTGAA C-A CA CTTCTG T-CA TCTCA GGG-AA CTTGGGGT-CCTGCGAA GG 901 A GCTTGCCTT-A CTGTTGTGA -GCCA CA TTCC-GTT A CA CATA"-TTGCCA GCA C 951 TGGTGAA TTG- TA GGGCCTGA -AAA GAAA GCT-CTA CTG TG TC-A CTCGTTTTT

1001 TTTGCAAA TT-GA A A TTGTTC- TTGTTGTA TA -A TGTGCTTTG-GGGAAA TG TT 1051 TGGTCTCTCA -GG TA GGTGTG-CCA GCCGTTT-GCA GGA GGGC-TGA GA GCGCC 1101 TG TC CA CTGG-TGGCCA GA CA -TCA TCGGGTC-CGCA GGTGTC-TCTGA GTG TC 1151 AGGGTCACCT-CCTGATAGAA-GTGGGAGTGG-TGTCTTACTG-CCAGGTCACA 1201 CTGAAGGTGG-GAGACAGGAG-GACACTACTC-CGTGCTAGGA-ACCATGGTCC 1251 TTGTCATCTT-CCTGAGAGCA-AACGGGGTCG-GGACTCCAGC-CTAGGACTTG 1301 GA GA CTCCCT-GCA TCCCCA G-CT A CCCTGCA -GGTGAAA CTT-CA CTGA GCCC 1351 A CTTGA CTTC-A GGTGGGA GA -GGA GGA GGCA -CA CCGTTGTG-G TG TGCG TT A 1401 CCAAAAAAGC-AGTAACCTAA-CTGTGGAACA-GTTCAGGATC-TTTAGACTTG

91

1451 ATACTTTTCT-TGATTTCCCT-TAGGGGTCAA-AGTTCACAAG-GAAAATAGCC 1501 CTTTAGTGGG-AAACTGAAAC-AGGCTTGTTT-TTATTTACTA-TTTACTCATA 1551 TTTGTAATGC-AATTAAAATA-TATGTTGTTA-ACTTTTTTTT-TTTTTCTCAA 1601 GA GCTCGGTT-GA TAAAA CCA -GGGCjTA TGTG-GA CTTTTTGA -GTCTGTGCCT 1651 TTTGGGGGTG-TGTATGGGAA-TGTTATGTTT-TAACGTTTTT-TACAAAATAG 1701 TATTGTCTTT-TTAATTTATT-CGTTAGTGGT-TTGCACAAGG-AAGATAATCG 1751 A TAGTCATGT-TTTTTAGA CT-CTCTGTATTG-CTTGGTAAGC-TA CG TA GTAA 1801 · AAAATGTTTA-CTTTTCCTTA-AA TGTTTTGA-ATTTCGGGGT-TATGAAA TTT 185] GTTGAGTAAT-TTTTAGACAG-TCACATCTTG-TTGACTGGAG-GCATCTAGTG 190] GAAAAA TG CA -GTA TTTCA GC-CTGA TTGTGT- TTGAA GTAAA -TGA TTAAAA G 1951 AGGAGGAAGT-TACCACATTC-TGGAAGATTT-ACTTGAGACA-GACGAACCTT 2001 GAATTACGGG-AAAAGGCCCC-GTGATTTAGG-AAATAACAAA-TTTGGGAAAC 2051 A TGTAATGGG-GA GA GA CTGG-GGAA TA CCCC-A GTTGTGAAA -GTA CTTCCTG 210] TAAGGCAACA-TCTGACACCA-GGAACCTTTC-TCTTCAGTAT-TTTAAAAACA 2151 ACTTAATTTC-AGTCCTTTAC-TTGTGGAATC-AGAGCCTTAC-TTATGTAATA 2201 CAACCCACTG-GAAAAAAGCT-TTTTATTGTA-TTGTACTATA-TTGTTTATAA 225IGTGATTGAGT-ACCTGCAGAG-CTTTCTTTTA-CTTAAACATA-TTTTAAAAAT 2301 TATTAAAAAG-ATTTTCATGT-TTGAAAACTT-GGGGAAAAAA-GATAAAACAA 2351 TGTCATAATC-TCATCACATT-TAACTGACTA-ATATGAATAT-TTTTCAACAA 2401 AAAGCATTTG-ACTTTTATTA-TTATTTGAGG-CAAAAACTAA-ACTGAAACCA 2451 AATAAAATGT-TGAATTTCAG-AAAAGTGTTC-TTAAAAGCAG-ATATTAAGCC 2501 CTCAATTTTT-ATTAATTTTA-AAATGAGTAA-GCAAACTGTA-AGATGTTAAG 2551 ATTATTAAAT-TATCTCTCAT-TAAGCATGTA-TCTTTCCCAT-TTTAAAAATT 260] CAGTTACTAT-TGATTTATTA-AAAAACAATA-GAAAAGTTAC-ATCTATTTTT 2651 AGAGTGACTC-TCAAGAAAAT-TTAATAAGGG-AAACACAGAT-CTATAAAAAA 2701 CTGTTTGTAA-ACCTAACAAA-GGAAAAAAAA-AGTTGGTGTC-TTTAAAAAAC 2751 CCTTTGAGAT-TAGCTGTGTA-TTCAGATATC-AGTTGGTTCT-CTCCTTTCTG 2801 AATCGCTAAA-CAACTGGAGC-TTGTTTCAGA-AAGCAGCATT-GTCTACGTAT 2851 GTTCCTTT1A-AAAATTTTTT-TTTTAATTCT-GTCTAAAAAA-AACAGACGGG 2901 GTCA CA CT A T-GTTGCCCA GG-CTGCTCTTGA -A TTCCTGGGC- TCCCCTA TCC 2951 ACGCACCTCG-GCCTTCCAGA-GTGCTGGGAT-TACAGGTGTG-AGCCACCGTG 3001 CCTAGTCAGA-CATACTTTTT-TTTTTTTTTT-TTTTTTTGAC-GGAATCTCAG 3051 TCTGTCCCGC-AGGTTGGAGT-GCAGTGATGT-GATCTCGGCT-CACTACAACC 3101 TCCGTCTCCT-GGGTTCAA GC-AA TTC TCCTG-CCTCA GCCTC-CTGA GTA GCT 3151 GGGA TT A CA G-GCGTA CGCCA -CCA CGCCTGG-CTA CTTTTTG-TGGGTTTTTT 3201 A GTA GA GA CA -GGGTTTTTCC-A TG TCGTCCA -GGCTGGTCTG-GAA CTCCTGA 3251 CC TCA A GTGA -TCCGCCCA TC- TCA GCCTCCC-AAA GTGCTGG-GA TT A CA GGC 3301 GTGAGCCACC-TCACCTGGCC-TTGTATGTAT-GTTTTTTTCT-TTCTCTTTCT 3351 TTTTTTTTTT-CTGTGACGGA-GTATTGCCCT-GTCGCCCAGG-CTGGAGTGCA 3401 GTGGCGTGTT-CTTGGTTCA C-TGCAA CCTCT-GCCTCCTGGG- TTCAA GCCA T 3451 TCTCCTGCCT-CA TGCTCCTG-A GTA GCTGGG-A TT A TA GGCA -CGCGCCA CCA 3501 TACCTGGCTA.;.ATTTCTGTAT-TTTTAGTGAA-GACAGGGTTT-CACCATGTTG 3551 GCCA GGCCGG-TC TTGAA A TC-CTGA CCTGAA -GA GA GCTGCC-CGCCTCGGCT 3601 TCCCAAA GTG-CTGA GA TT A C-A GGCGTGA GC-CA CCGCA CCC-GGCCCA GA CA 3651 TATGTTCTTA-ACGTACACTT-TCAGAACAGC-AGTTGAGAAC-TTTTTCCAAA 3701 ATGTAAGCTC-CTTGAGAGCA-AAGCTCTCAG-TGGGTCTCTG-TGTCCTTTAC 3751 TTTGCTTCTC-TTGGTATCTT-GTGGATAATA-TGCACAAAAT-ATTTATTAAA 3801 CAAGAGGATT-TCCATTTTTT-TCTAATATTA-ATAGTTCATT-TAGTCTGTAG 3851CTTCTTGAAG-GCATAGAAAA-GACTATTTTA-TTTTGCCTAC-TTATTTGGCA 3901 AGGTACCCAT-GCAGTATGCC-AGGAGTTACA-GGGCCTATTG-AGAAGGAGTA 3951 AA GGGTCTGG-GA GGGGTGGC-AGGGAGTTGC-TAATTCATGT-ATGGTGGCTA 4001 GAGAAGGCTT-CACTGATGGG-GTTGATGTTT-CAGTGGAGAC-TTGAAGGAGG 4051 AA CA GGAA CG-CA GCA TGA GA -CTGTCTTGGG-GAA GA GTGTT-CA GCA GA GGC 4101 AGCAGTGCTC-AGCTAGCCTT-GAGGGGAACA-TCCAAGTTGG-TCATGTGAGT

92

4] 51 GCAAAAA GGC-CA GTGA GGCT-GCA GCTGCG T-GA GCA CGTGC- TCAA TGA CGG 420] GGTCAAGTGC-AGCGCCTCTT-GGTAGTAAGA-GTAGCTGAGT-GTAAACACCT 4251 A GGGTTCGCT-CCA GTGA GAA -GGGGA GCCTT-TGGA GGGGGC-AA GGCCCA CC 4301 CCCA CCCCCC-AAAA CTGA GG-GGA TA GTGGC-A CCA G TG CA G-TGA GAAA TA C 4351 TGGTCCTCTG- TCCCAA TGA G-GTGGCA GTA G-A GTTA GGGA G-AA GGGA TT AG 4401 GTTCTGCTTG-TGTTTTATTT-TTTTCTTTTA-TTTTTCTCTG-TGTGCTTTTA 445] TA TA GA TTGG-A TG TA TTTTA-AA GGTAGA GC-TGGCTTTGCT-AA TG GA TA TG 4501 CTGGTGGATT-GGATGTGGGG-TGAAGGGAGA-GGAGTCAAAA-ATGACATCAG 4551 GTTCCCAA GG-A TG TCCTGA G-GGA CA GA GCT-GGCATTTA CT-GA GA CG TG GA 4601 GGACAATAGG-AGGAGTAAGT-TTGGGGTAGA-ACATCAGGAG-TTCAATTTTG 4651 A GTA TGTTGA -GTTTCTTGTT-AA TGTGA CTT-GGA GA TA TTT-CCCAA TGAAT 4701 CGTCGTCTGT-CTTGAAA GTG-A GA GTTGAA G-GTTTTCTGTA -CA G TC TG TA T 4751 GTTGAGCCAT-ACATTTTAGC-ATTCTATTAT-TTTGATTGTC-CTCTTTGGTG 4801 TTTCATTTCC-TAAAATCTCT-TCTATCTAAG-AGATCCCTGA-GCCTAGCAGC 4851 CAGGAGTGAA-TTTTCTAGCT-TTTCCACCTC-TGCTAGGTCC-TTCATCAGTT 4901 GTTCAGCATG-TCTGGGACAA-ATAATTTTGG-GGCGGGGGGG-TGCTGAATTT 4951 TAGGACAAAC-GGATGTTATA-GATAAGCTGG-TCCCATTATC-TAATAGCTTA 5001 CAAAGAAAAA-AATATAATGT-ATACAGTGGT-TGAAAAAGTA-GGAGTTACAA 5051 AAAAATGTGT-TTGCATTTTA-ACTTTTCAGG- 5080

EXON-3

5081 -AGATGTTACA-GCCCAGAT AG 5101 CTCTTCAGCC-TGCACTGAAG-TTCAA TGGTG-GTGGTCA TAT -CAA TCA T AGC 5151 A TTTTCTGGA-CAAACCTCAG-CCCT AACGGT -GGTGGAGAAC-CCAAAG- 5196

INTRON-3

5197 -GTTG 5201 GTATATATTG-GTGCACCCTT-ATCTACATTT-TGTGCACAGT-AGGAATCGAT 5251 TGTTGATTTA-CTGAAGTTAC-CTTATACTTG-TTTTTTGTTT-TTTTTGTTGT 5301 TGTTTTTTTG-AGACAAGAGT-TTTGCTCTTG-TTGCCCAGGC-TGGAGTACAG 5351 TGGCGCAGTC-TTGGCTCACT-GCAACCTCCG-CTTCCTGGGT-TCAAGTGATT 5401 CTCCTGCCTC-A GCCTCCCAA -GTA GCTGGGA _ TT A CA GGCGC-CCGCCA CCA C 5451 GCCTGGCTAA-TTTTTGCATT-TTTAGTAGAG-ATGAGGTTTC-ATTCACCATG 5501 TTGGCCAGGC-TGGTCTTGAA-CTCCTGACCT-CATGATCTGC-CCACCTTGGC 5551 CTCCCAAAGT-GCTGGGATTA-CAGGCATGAG-CCACCGTGCC-TGGCCTAAGT 5601 TACCTTATTC-TTACCAGAGG-TATCATAGTG-GCATATTTTT-CATAACAACG 5651 AGTATGATAA-AAGTTGTAAC-TTTCAAAAGG-ACACAAGTAG-GAATGGAGAA 5701 TGCTTTCATG-GGGTTATGTC-ATAAGATTTT-ATGTTCACGC-CAACATAGAA 5751 TATCACATCA-ACTCCACCTT-CTGGTTTCTG-GATGGTACTT-CATATTAGGG 5801 AAAGACTGAG-AGACTTCATT-TTATGAACTT-TTTTTTTTTG-AGACGGAGTC 5851 TTACAGTCGC-CCAGGCTGGA-GCGCAGTGGT-GCAATGTCGG-CTCATTGCAA 5901 CC TCCGCCTT- TCA GGTTCA T-GCAA TTCTTG- TG TCTCA GCC-ACCCAA GTA G 5951 CTGGGATTAC-AGGCATGTGG-CATCACTCCC-GGCTAATTTT-TATATTTTTG 6001 GTA GA GA CA G-GGTTTCA CCA -TGTTGGCGGG-GCTGG TC TCG-AA CTCCTGGC 6051 CTCAA GTGA T-CCA CCCA CCT- TGGCCTCCCA -AA GTGCTGTG-GTA TGGATGT 6101 GA GCCA CCGC-GCCA GTCTA G-AAAA GA TGAA -CTTTCTGTCT-A CTA GTTTCT 6151 AGGGCCTGGA-TTAGATAGTT-AACCGTCTGT-ACCTTTTTTC-ATCTATGTGA 6201 TACAGGGATA-ACAATGGTGT-TGTTTTGAGA-ATTAAATTAT-AGTGTCATTT 6251 GCTA TTTTTC-A CTCTTTCCT-AA CrGA T AAA -AA CTCA G TTG- TTCCA GGAAA 6301 rTAGGTTTTC-TGGGTATTTT-TAAAAAGTGT-TCAGGGAATG-AGGAGAGTAC

93

6351 AGGGCTAGAT-GGTCTTGTTC-GCTATCACTG-TTTCCTTGAC-TTCCTGTGTA 6401 GCTTGTGGAG-GCCCAGATGA-CTTTAATTAT-CTTCTTCACC-CAGGGAGGGC 6451 ATGAGGCGTA-AATGTAGTTC-TTGTCTCTTG-TTTCTGGGCT-CCGGATATGC 6501 ACCCTAAGTT-TCTGTGGTTT-TATTGTTCAT-TTTTAATCAG-TGTTATGGAA 6551 GGCAGCCTAT-CTTATGCACT-TGAAATAAGC-AATTTCATTT-TAAGGTAATG 6601 ATGAATGAGG-AGAGTAAGCT-TGGGAAACTG-GGCAACTTTT-TCTTTATTTT 6651 TGTTTTTATT-TATTATTATT-TTGGAGATGG-AGTTTAGCTC-TTTCGCCCAG 6701 GCTA CA GTGA -A GTGGCTTGA -TC TTGGCTCA -CTGCA GCCTC-TGCCCATCCC 6751 GGGTTCAAGT-GATTCTCTGC-CTCAGCCTCC~CGAGTAGCTG-GGATTATAGG

. 6801 TGCCTGCCAC-CATGCCCGGC-TAATTTTTTT-GTATTTTTAG-TAGAGAGGAG . 6851 TTTCTCCATG- TTGGTCA GGC-TGGTTTTGAA -CTCCTGACCT-CA GGTGA TCC 6901 ACCTGTCTCG-GCCTCCCAAA-GTACTAAGAT-TACAGGTGTG-AGCCACCGTG 695] CCTGGCCAAC-TTATTTTTTT-TCTGAGTTCA-GTCTTCTAGA-CTATCGGTTA 7001 ATACTTTTGA-AGTTTTGTCA-GTTACCAGAA-TATCAGATAT-ATTCATATGC 7051 AACCAGTGGT-TTTGGTATGC-TGCCATTTTT-GTTTAATCTG-TACCACATTC 7101 CATCATTTGT-GCTTATAAAG-ATGATTACTT-TTAAACCCGT-AGAATAAGAG 7151 AAGTGA GA TT- TTGA CCCA GT-TGA TTTAGTT-GATGTGACTA-A TCTAGAATT 7201 ATATTCTGTA-TTACTACAGA-ATAAAAGGAT-TACAGCTCTT-AAAGTATACC 7251 CTTAGTTCAG-TCGTAGAGAA-AACTGCCCAT-CAAGACAGGA-AGAGCTGGGC 7301 TGCCTTGGA G-AA GAA CAA TG-A CTTTA TTCC-CAAA TGGA GG-CGTA GAA GAA 7351 GGAGGGTAGA-AGTCAAAGGA-AAATTTTCTA-TTCAGGGAAA-AGAAAAAGCT 7401 AACAGAAAGT-AGTATTTCTT-TCCTAACAAA-GATAGTACAG-TGAGTGGGGA 7451 AATCCCTCTA-ACACGATTCA-TTAAAAAATG-TGAACTACGC-AGCTGGAGGC 7501 CATTATCCTA-AGCGAATTAA-CCCAGGAACA-GAAAACCAAA-TACCACATGT 7551 CTCACTTGCA-AGTGGAAGCT-AAACATGGAG-TACTTATGGA-TATAAAAATG 7601 GCAGCAACAG-ACACTGAGGA-CAGAGCAGGG-AGGGAGAAAG-AAGGGGACGG 7651 GGGGTGAAAA-CTGTTGTATA-CTAAGCTCGC-TACCTGGGTG-ATGGCATCAA 7701 TTGCACCCCA-GACCTCAGCA-TCATATGATA-CCCGTGTAAC-AAACCTGTGC 7751 GTGTA CCC TC- TGAATTTAAA -A TAAAATTTG-AA CCGGGCA C-GGTGGCTCA C 7801 GCCTGTA TTC-CCA GCA CTTT-GGGA GGCCAA -GGCGGGTGGA -TCA CCTGA GG 7851 TTGGGAGTTT-GAGACCAGCC-TGACCAACAT-GGAGAAACCÇ-TGTCTCTACT . 7901 AAAAACACAA-AATTAGCCGG-GCGTGATGGC-ACGTGCCTGT-AATCGCAGCT 7951 GCTCGGGAGG-CTAAGGCAGG-AGAATTGCTT-GAACCTGGGA-GGCAGAGGTT 8001 GCAGTGACCC-GAGATCATGG-CATTGCACTC-CAGCCTGGGC-AACAAGAGTG 8051 AAACTCCGTC-TCAAAAGGTA-AAAAATGAAA-AAAAAAAAAA-AAAAAAAAAA 8101 AAGTTGAAGT-TATAAAAAAC-AAAAACGTGA-ATTAAAATTG-TGAAACTTAG 8151 A TCCAGGTGT-CGCATTCTGA-TGTTGTCTAA-TTTCTTGGGC-CCTATGACAA 8201 AAATATTTTA-ATACATGTAA-TATAACATTT-TACTGTAATT-ATTGAAATCT 8251 GTTCATTTGT-GGGTGGTTTT-GGATTTTTTT-TTTAATAGG- 8289

EXON-4

8290 G-GAGTTGCTGG 8301 AAGCCATCAA-ACGTGACTTT-GGTTCCTTTG-ACAAGTTTAA-GGAGAAGCTG 8351 A CGGCTGCA T -CTG TTGG TGT -CCAA GGCTCA-GGTTGGGGTT -GGCTTGGTTT 8401 CAA T AAGGAA-CGGGGACACT -T ACAAA TTGC-TGCTTGTCCA-AATCAGGA TC 8451 CACTGCAAGG-AACAACAG- 8468

INTRON-4

8469 GT-TAGATTTAAA-AATTGTGATT-TCATTTGGGA

94

8501 GAGATGCTCT-ACTGTAAAGC-ATTCAACTAG-AAATAAGGAA-AACTAACAGT 8551 GTTTTAAGAA-CATGTAATAA-TTTGCAAATC-TTAACAGATA-ACACCCAGAG 8601 TCTTGTGTAA-GTAAAAATGT-TTTAGAAGTC-CTGATATTTC-ATAAAATTAA 8651 GTACACGTAA-TTTTATAGGT-ACATTAACAA-ACATGTTTTA-TTTTTATTTA 8701 TTTTTTTTGA -GA CA GA TCTC-A CTGTTGCCC-A GGCTGGA GT-GCA GTGGTGC 875] GA TC TCG G TT-CA CTGCAA CC- TCCGCCTCCT-GGGTTCAA GT-GA TTCTCCTG 8801 CCTCAGCCTC-CCAAATAGCT-GGGATTACAG-GCACATACCA-CCATGCCCAG 8851 CTAATTTTTG-TGTTTTTAGT-ACAGACAGGG-TTTCACCATG-TTGGCCAGGC 8901 TGGTCTTGAA -CTCCTGA CCT-CA GGTATCTG-CCTGCCTCGG-CCTCCTGAA G 8951 TGCTGGGATT-ACAGGCATGA-GCCACCATGC-CCAGCCAÂAT-GTTTTACTTA 9001 TTAACCCTGC-TTCATTCTAC-AGAGAATTAA-TATCAGCTTA-GATAATTATA 905] TGTACTAAAA-TAAAAAAAAA-ATTAGCTATA-GAACAAGAGT-GAGGAAAAGA 9101 AATACAAGCA-GAGACTGATT-TCAGAGCTTG-TACTGTTACC-TCCTCTGCTG 915] AGCATTTGAG-GTTAAA CTGG-GA CTA GA TCT-CAGGTTTCCA-GACCTTCTGC 9201 CTTTCTGGGG-CTCTTTGGTA-GAGTATATGA-AAATATTCGG-CTTGGAAGTG 925] CCA GGCTGGG-CTCA CCAAA T-A CTTTGCTGT-TGA GCCTAA T- TGGATTTAAA 9301 AAATGTCACT-GAAGAGTATG-GGAAATAGAG-CCATGAGTTG-TCTGGCAGAG 9351 GGTTGGGACT-TTGAACTTAA-AGTGATACCT-TCACATCAAC-AACAGTCATT 9401 CTCTGCCCCT- TCTTCTA CCC-CTGA CA TTGG-AATA CTCTTG-A TCTGTGGCT 9451 CA CTTCA CA G-GA TA GA CCCA-GA TTTTGGCA-GAA TCTGAAC-AGCTCT TTTG 9501 GGACAGTGAC-ATGGCATAAC-AATTTGTAAA-AGCCACAAAA-AATTTGTAAG 9551 CACCGATCTG-TAGAGTCAGG-TTATTTGTAG-AGCTGCATGA-CCAGAAAGGC 9601 TGATATTTGT-AAGTGAGTCC-CAGCTACACT-CCTTCCTCTC-CCTGTGGAAA 9651 GCACATTAGA-AGGAAAATGA-GGGAATGTCA-TGGCCTTTTG-TTTATAAAAA 9701 TCATTAATAA-ATTTTGCTAC-TTGAAATTAT-TAATAATAAA-TTACTAGTGA 9751 CCTCCCTCAC-AACTGATCAA-GACATACTGG-TTAAGAATTG-TTTTTGTAGA 9801 GAGAGCTATA-ATTTATTTTG-AGTGTTTTTÇJ-TGTGTGCGTG-ATGGAGTCTC 9851 A CTCTGTTGC-CCA GGCTGGA -GTGCA GTGGC-GCAATCTTGG-CTCA CTA CAA 9901 CTTCCGCCTC-CCA GGTTCAA -GCAATTCTCC-TGCGTCA GCT-TCCTGA GTA G 9951 CTGGGATTAC-AGGCGCCTGC-CACCTCGCCA-GGCTAATTTT-TTGTATTTTT

10001 A GTA GA GGCG-GGGTTTCA CC-ATGTTGGCCA -GGCTGGTCTC-GAA CGCCTGA ] 0051 CCTCAA GA GA -TCTGCCTGCC- TCGGCCTCCC-AAA GTGCTGG-GA TT A CA GGC ]0101 CTGAGCCACT-GCGCCCAGAC-CAAAAGTTTT-TTTAAATGGA-TGTTTTACAG 10151 ATAGAACTAA-ATTCTTCATT-TACCTCACTT-AATTTCTGAA-AACACTGTGT ]0201 CCTCCAACTG-CTCTGTATTC-CCAAAGATTA-AAATTAGCCT-TGGGGAGCAG 10251 A GCTGGTTCC':' TCG TAAA CCC-CTGTGA GTGC-CCA GA CCC TT- TG GA GGA GGT 10301 TCTCA GTGGG-CTTTTGCCTG-CTCCCA CA GA -TGTAA CCCA C-CCTTCCTGCT ] 0351 GCTCCTAAGA-CCA CCATGAG-GAAGGCTGGG-AATTGGCTCT-TGAATTAATT 10401 TGTTGGTATT-TTTAAGAATA-ATTGTTAGTA-TTTGTCACAT-TTTCTTTGTA 10451 AACAGTGAAT-GCTATTAAAG-TACTGTTGTT-AATTTTCCCA-AGTCTATTTT 10501 TAAAAATATT- TTATAGGAAT-ATTCATTCTT-ATCTAGATTT-CCTA CTTATA 10551 TAAAAAAACA-AGTGAATGAG-ATTGTTACAA-AGGGTAATTT-TGTGTGAGTA 10601 GAATAATAAA-AGTTGAAATT-GAGAAGATGC-AATGTTTTAG-ACTGAAACTG 10651 ATGGTTGGTT-TGTTTTCCCC-TTCTTTCTAA-CAGG- 10684

EXON-5

10685 CCTTAT-TCCACTGCTG 10701 GGGA TTGA TG-TGTGGGAGCA-CGCTT ACT AC-CTTCAGT AT A-AAAA TGTCAG 10751 GCCTGA TT AT-CT AAAAGCT A-TTTGGAA TGT -AA TCAACTGG-GAGAA TGT AA 10801 CTGAAAGA TA-CA TGGCTTGC-AAAAAGT AA- 108

3'-UTR DE L'ARNm

95

10830 A-CCACGATCGT-TATGCTGAGT 10851 ATGTTAAGCT-CTTTATGACT-GTTTTTGTAG-TGGTATAGAG-TACTGCAGAA 10901 T ACA GT AAGC-TGCTCT A TTG-T AGCA TTTCT -TGA TGTTGCT -T AGTCA CTT A ] 0951 TTTCA T AAAC-AA CTT AA TGT -TCTGAA T AA T -TTCTT ACT AA -ACA TTTTGTT 1 ] 00 1 A TTGGGCAAG-TGA TTGAAAA-T AGT AAA TGC-TTTGTGTGA T -TGAA TCTGA T 1 ]051 TGGACATTTT-CTTCAGAGAG-CTAAATTACA-ATTGTCATTT-ATAAAACCAT 11101 CAAAAATATT-CCATCCATAT-ACTTTGGGGA-CTTGTAGGGA-TGCCTTTCTA 11151 GTCCTATTCT-ATTGCAGTTA-TAGAAAATCT-AGTCTTTTGC-CCCAGTTACT 11201 T AAAAA T AAA-A TA TT AACAC-TTTCCCAAGG-GAAACACTCG-GCTTTCT AT A 11251 GAAAA TTGCA-CTTTTTGTCG-AGT AA TCCTC-TGCAGTGA T A-CTTCTGGT AG 11301 A TGTCACCCA-GTGGTTTTTG-TT AGGTCAAA-TGTTCCTGT A-T AGTTTTTGC 11351 AAA T AGAGCT -GT AT ACTGTT -TAAA TGT AGC-AGGTGAACTG-AACTGGGGTT ] 1401 TGCTCACCTG-CACAGT AAAG-GCAAACTTCA-ACAGCAAAAC-TGCAAAAAGG 11451 TGGTTTTTGC-AGT AGGAGAA-AGGAGGATGT -TT A TTTGCAG-GGCGCCAAGC 11501 AAGGAGAA TT -GGGCAGCTCA-TGCTTGAGAC-CCAA TCTCCA-TGA TGACCT A 11551 CAAGCTAGAG-TA TTT AAAGG-CAGTGGT AAA-TTTCAGGAAA-GCAGAAGTT A 11601 AAGGCAAAAT-TGTAAATCAG-TCGAGATCGG-GTGCCTTCAG-GGTGGTATGG 11651 CTGT AT ACCA-AAA TTGT AAA-TCACT ACA TG-AAGCTT A TA T -A TTGGTTTGG 11701 CCTGAAAGGT -GAAGTGGGGT -AGGCAGGGGG-CGGGCTT ACA-GGTT A TGGTG 11751 GA TTCAAAGA-CTCCCTGA TT -TGTGA TTGGT-T AAGGAAGCA-AAGCTTTGTC 11801 T AAAAACTTG-GGGTCCGCAG-AAAGGAACA T -T AAGGTCTGG-CCAGGCCCCT 11851 CAGGAAGAAA-CTGAGAGCAA-AGAA TGGAGG-TCAGAGTTTA-GTCCCTGGTG 11901 TTCCCCCTT A-TCTGACGTCT -GTGTGAA TCC-A TTTGGTGGG-GGTCTGGGTT 11951 TCTGAAAAGT-AGCTCAGGGG-CACGTGTTAA-GGATGTCTCT-AGGTGACTCT 12001 AACTTCCCTG-GCT A TTGTTT -GAAACTGTT A-TGACCTTCTT -GCTTA TCAGC 12051 TTGCTGGTTT -CCTTCTCGGG-GCGAGCTGGG-TGCCTGGAGT -TTTCGGTGAA 12] 0 1 GGAAACTCAA-GATTCTCCTT -TA TTTCTGTG-CTTGTGGGAA-TCCCCCTG'GC 12151 ACACCCCAAA-GAGGGGTCCC-TGCTCCGTCT-CACAGGGATC-TTTTTGTATA 12201 TTTGGCTTAG-CATCATACAT-TTGCCATGTT-GTTTCATCAT-CTGCCTAAATT 12251TACTGTTTTT-GAATATTTCA-TTTGTTTCTA-ATTGTTACTA-CAGATAATGC 12301 TGGGGTGAGC-AACTCTGTGT-ACATAGGTTT-ATCTCCTATT-GGAA TATTTT 12351 CTTTATATAG-GCGTTTTTTT-TTTTTCTTTT-TTTTTGGAGA-CAGAGTCTTG 12401 CTCTGTTGCC-CA GGCTGGAG-TGCAGTGGCG-CGACCGGA GC-TCACTGCAA C 12451 CTCCACTTCC-CGGGTTCAAG-TGA TTGTCCC-ACCTCAGCCT -CCTGAA TAGC 12501 TGGGATTACA-GGTGCATGCT-ACCATGCCTG-GCTACTTTTT-GTATTTTTAG 12551 CAGAGACAGG-GTTTCACCA T -GTTGGCCAGG-GTGGTCTCGA-ACTCCTGACC 12601 TCAAGTGA TC-CGTCTGGCTC-AGCCTCCCAA-AGTGCTGGGA-TT ACAGGTGT 12651 GAGCCACTGC-ACCTGGCCTA-TATAGGCTTT-TTTCTTAAAC-CTATTTAGTA 12701 ATGTTTTCCC-AAGTTTATTT-TTTATTTTTA-ATTTTTTCCC-CAAGTTTATT 12751 TTTCTATTTT-TTTTTCATGG-AAAAATGGGG-TAACTTAGCA-GTTTCAATAT 12801 TGAAGACTGA-AGTTT AAAAA-AAA TTT AAA T _ TCAAGGT ACT _ TTT AAAA TTC 12851 AGTT AGAAAA-GT AGGCTTTA-AAAA TT A TT A-GAGACAAGAG-T ACCAAAGCG 12901 GTGTGTGTAT-GTGTGTGTGT-GTATGCATGC-TTGTGGATTG-GAAAAACTTT 1295] GGAGACTGAT-TACTTTTCAT-TATATATGTG-TCACAGTGAA-ACAGCTTTTA ] 3001 TGTGTCA TGT -AAGA TT ACTG-CTTGCCTÇTC-T AAGGAAGGT -CGTGACTGTT 13051 T AAA T AGACG-GGCAAGGTGG-AACCTTTTGA-AAGA TGAGCT -TTTGAA TA TA 1310] AGTTGTCTGC-T AGA TCA TGG-TTTGT A TTGA-ACT AACAAGG-TTTGCAGA TC 13151 TGCTGACTTA-T ATAAAGCTT-TTTGATTCCT-ACTAAGCTTT-AAGATTTAAA 13201 AAA TGTTCAA-TGTTGAAA TT -TCTGTGGGGC-TCT A TTTTTG-CTTTGGCTTT 13251 CTGGTGAGAG-AGTGAGGAAG-CA TTCTTTCC-TTCACT AAGT -TTGTCTTTCT 13301 TGTCTTCTGG-ATAGATTGAT-TTTAAGAGAC-TAAGGGAATT-TACAAACTAA 13351 AGA TTTT AGT -CA TCTGGTGG-AAAAGGAGAC-TTT AAGA TTG-TTT AGGGCTG 13401 GGCGGGGTGA-CTCACA TCTG-T AA TCCCAGC-ACTTTGGGAG-GCCAAGGCAG

96

13451 GCAGAACACT -TGAAGGAGTT -CAAGACCAGC-GTGGCCAACG-TGGTGAAACC 13501 CTGTCTCTAC-TAAAAATACA-AAAATTGTTT-AGCTCTGTTT-TTCATAATAG 13551 AAA T AGAAAA-GGT AAAA TTG-CTTTTCTTCT -GAAAAGAACA-AGT ATTGTTC 13601 A TCCAAGAAG-GGTTTTTGTG-ACTGAA TCAG-CAGTGCCTGC-CCT AGTCAT A ] 3651 GCTGTGCTTC-AAAAACCTCA-GCA TGA TT AG-TGTTGGAGCA-AAACAAGGAA ] 3701 GCAAAGCAAA -T ACTGTTTTT -GAAA TTCT AT -CTGTTGCTTG-AACT A TTTTG ]3751 TAATAATTAA-ACTTTGATGT-TGAGAAATCA-CAACTTTATT-GTACACTTCA 13801 TTGCAACTTG-AAATTCATGG-TCTTAAAGTG-AGATTTGAAT-TTCTATTGAG ] 3851 CGCCTTT AAA-AAAGT AA T AC-CAAACCA T AA-AGTT AAAATC-TA TGT AT A TT 13901 GAGTCATATC-TAAAACCACG-TATAAACATA-AATTGTATTT-CCTGTTTTAA ] 3951 TTCCAGGGGA-AGT ACTGTTT -GGGAAAGCT A-TT A TT AGGT A-AA TGTTTT AC 14001 AAA TT ACTG T -TTCTCA CTTT -CAG TCA T ACC-CT AA TGA TCC-CA GCAA GA TA 14051 A TGTCCTGTC-TTCT AAGA TG-TGCA TCAAGC-CTGGT ACA TA-CTGAAAACCC ] 410 1 TA T AAGGTCC-TGGA T AA TTT -TTGTTTGA TT -A TTCA TTGAA -G AAACA TTT A 14151 TTTTCCAATT-GTGTGAAGTT-TTTGACTGTT-AATAAAAGAA-TCTGTCAACC 14201 ATCAAA- 14206

3'-UTR DU GÈNE

+ 1 CCGCCCCGCC-CCCCCCCCCC-GCGGGCCCCG-CCCCGCGCCC-GCCGCGCCCA +51 ACCCCGGGGG-TGCCCTGCG T -GCCTG TCCCG-CCCGCCCGCG-CTTGCCGT AC

+ 101 ACCCCGCGCC-CAGGGCACGG-GAGAAAGGAG-GCTGCAGGCT-AGCCTCGGCC + 151 TCGGCAACCT -CGCTGCCTGT -CTGCCGT ACT _ TGAGTGGCGC-GCGGCCGAAG

. +201 GGAGGCGGCC-CCTGCCCCCG-TGGAGTTGGT-ACGGCCCGAA-GGCCCTGCCT +251 CCGGCTCCGC-CCCTGAGGGT-GCCGGCGGGG-A TCTGGCTGC-ACT AGGCGGC + 301 TGCGGCGCCT-GCCCCTGAG T -TTTGGTTGCG-CTGCCGGGGG-GCCGCGGGGT + 351 CCAGAGGCCT -CACTGCAAAA-AGACA TTCA T -ACCCTCCCAG-GGCCCCCGTG +401 GCCGTTCCT A -GGGAAGA CGG-GGCCT A GCTG-CTGGTCAGCG-CCGCCCAGCC +451 GGCCTA TGAG-CTGAGGGT AG-AGCCAGCGCC-CTTCCAACCC-GT A TTCAGT A +501 CTCTTGCGCC-GT ACCCTTGC-TTTGCAAGT A-AGCCGACCTT -GGGACCT ATT +551 CCAGGA CAGG-A GGCA CACA G-ACTTTGTCCC-CACCGGCTGC-CT AAGAA CA G +601 TTCTTGGACA-CCCACGACGT-GCCCGAGACT-GCAGGCAGGA-TTTGCACACA +651 TTTATCTTTA-TTTTTACCCC-TAGGGTTGGT-ATTATTGATT-CTAGTAATAG +701 TGAAATCCTT-TGAGGTTAAG-CAGCTTCTCC-TGGGCACAGT-TAACTGAGTC + 751 AGGACT AGTT -CCCACCTTCC-TCACT ACT AA-GCCCTGGCAG-TCATGTTTTG +801 TGTGTTT ACA-GT AACTCTGT -GAACCAACTG-TTCAGGA T AA-CA T AAAAGGA +851 CAACAGAGGA-TTCTTTCCTG-CGCTGTCTTG-T AGCCT AGT A-AGCTGTT AAG +90 1 TA TCAAGTGC-TCTCTCAACA-GTT AAACAAC-AA TCCTGAA T -GGTGTGAA TC +951 TTCCA TGTGT -AGAGGTT AGG-AAA TCT ACAC-TGCCATTGGC-GGGAGTTGCC

+] 001 CCTTTATTGA-AAAGAATATG-ATGGAAGGTA-GCAGGTGCTG-AACCGTTTCC + 105] GTTGCTTCTT -GCAACCCCCG-T ACAGCCCTC-CGAAGGA TGA-CT AGGCTTCC + 1101 GGT AAGTGGA-A TGGGAAAAC-AGTCAGGCGA-AGAGGAACCA-CCTGAACTTG +] ] 51 GCTTCACAAC-AGGAAGGGCT -GGGCTTGTTT -ACAGACGTCA-GAAGAATGT A + 1201 ACTAGGGCT A-CGTGTTGGGG-TGAAAAAGGA-AA TTCAGGCT -GGGACCAGGT + 1251 TA T AGA TACT -CTT A TTTTTT -T AA TTT A TT A-TTT A TTT A TT -TTTGAGACAC +] 301 AGCCTCGCTC-TGTCGCTCAG-GCTGGAGT AC-TGTGTCGCGA-TGTCGGCTCA + 1351 CTGGAACCTC-TGCCTCCCGG-GTTCAAGCGA-TTCTCCTGCC-TCAGCCTCCC + 140 1 GAGT AGCTGG-AA TT ACAGGC-GTGCACCTCC-ACGCCCCACT-A TTTTTTTTT +] 451 TTTTTGT A TT -TTTGGT AGAG-ACGGGGTTTC-ACT A TGTTGG-TCAGGA TGGT + 150 1 CTCGAACGCC-TGACCTCAAG-TGA TCTGCCC-GCCTCGGCCT -TCCAAAACAA +2001

97

Séquence nucléotidique du brin codant de GPxl (Variantl) :

5'-UTR DU GÈNE

-1001 TGGTCCA TTG-GTGCCCGAGA-AGCAGCAGCT -GGCTTCAAAG-CAAGCCCTT A -951 A TCCTGGGCC-TGAA TGTGCA-ATT AA TTGCA-CGTT AAGTGT -TGGGCAGGGC -901 ATAGTCAGAA-GGGCCAGTTA-AATTATAGTT-TTCTCACTCT-TGAATATATG -851 AGGCAGAAAC-TTGT AAGA TC-ATCGTCACAG-CAGA T ACAGG-CACTTGGT AG -80] CAACA TGGAA-AGATCT AG CC-AGA T AACAGA-A TTT AT AACA-TTGCA TGAGC -75] TTCCGTGT AA-AA TGGGA TTG-TGTGGACCT A-ACAA TTGGAG-AGGCCA TGAC -70] TCCAAA TGTG-AGTGGGGGCT -CA TGTT A TTT-TGTGACAGTC-A TTTCAGCGT -651 GCAGCAAGT A-GTCAGAAGTC-T A TCA TTTGA-GTT AGGCAGT-CAACCA TTGC -60] CTTGTGTCTT-TTTTGAAGTA-AGGACTTTGT-TGTAACTGGG-TCTTGAGATG -55] GCCCTTTGCA-TGTTCTGGTG-AAGGCAGAAA-TGCAGGCCAG-GAGCCAGACT -501 TCCCACAAAG-GAAAGAGTGG-ATCCTACACG-CTGCAGACAA-AAGGACAGAA -451 AGTTCAGACT _ TGGCT AGGA T -AAGGGAAGGA-GGA TT AAGTT -CCCACCACT A -40] TGACAA TGAG-GTT AGAAAAA-GT ATCGCCAG-GCCGGGTGCG-GTGGCTCA TA -351 CCTGT AA TCC-CAGCACTTTG-GGAGGCCGAG-GCGGGTGGA T -CACGAGGTCA -301 GGAGA TCGA T -ACCA TCCTGG-CT AACACGGT-GAAACCCTGT -CTCT ACT AAA -251 AA T ACAAAAA A TTAGCCGGG-CGTGGTGGCA-GGCACCTGT A-GTCCCAGCT A -201 CTCA GGAGG T -TGA GGCA GGA-GAA TGGCGTG-AACCCGGGA G-GCGGAGCTTG -15] CAGTGAGCCT-AGATTGCGCC-ACTGCACTCC-AGCCTGGGCA-ATAGAGCAAA -101 AAACTCCG TC-TCAAAAAAAA -AAAAAAAAAA -AGAAAAGAAA -AA GAA TTCCC

-51 AAA TGACAA T -GACACAGGAC-A T ACACACAG-TT AGGCGATT -A TGCGGAGG


1 CAGTTAAAAG GAGGCGCCTG CTGGCCTCCC CTTACAGTGC TTGTTCGGGG 51 CGCTCCGCTG GCTTCTTGGA CAA TTGCGCC- 80

EXON-l

81 A TGTGTGCTG CTCGGCT AGC 101 GGCGGCGGCG GCGGCGGCCC AGTCGGTGTA TGCCTTCTCG GCGCGCCCGC 151 TGGCCGGCGG GGAGCCTGTG AGCCTGGGCT CCCTGCGGGG CAAGGTACTA 201 CTT A TCGAGA A TGTGGCGTC CCTCTGAGGC ACCACGGTCC GGGACT ACAC 251 CCAGATGAAC GAGCTGCAGC GGCGCCTCGG ACCCCGGGGC CTGGTGGTGC 301 TCGGCTTCCC GTGCAACCAG TTTGGGCATC AG-332

INTRON-l

332 GTGCGCCG GGCGGAGCGG 351 GGCGGGGCGG GGGCGGACGT GCAGTAGTGG CTGGGGGCGC CGGCGGTGTG

98

401 CTGGTGGGTG CCGTCGGCTC CATGCGCGGA GAGTCTGGCT ACTCTCTCGT 451 TTCCTTTCTG TTGCTCGTA G CTGCTGAAA T TCCTCTCCCC CCTTGGGA TT 501 GCGCATGGAG GGCAAAA TCC CGGTGACTCA TAGAAAA TCT CCCTTGTTTG 551 TCCTTAGAAC GTTTCTCTCC TCCTCTTCAC CCCGCGTTCT A GCTGCCCTT 601 CTCTCCTGTA GG- 61 2

EXON-2

613 AGAACGCC AAGAACGAAG AGATTCTGAA TTCCCTCAAG 651 T ACGTCCGGC CTGGTGGTGG GTTCGAGCCC AACTTCATGC TCTTCGAGAA 701 GTGCGAGGTG AACGGTGCGG GGGCGCACCC TCTCTTCGCC TTCCTGCGGG 751 AGGCCCTGCC AGCTCCCAGC GACGACGCCA CCGCGCTTAT GACCGACCCC 801 AAGCTCATCA CCTGGTCTCC GGTGTGTCGC AACGATGTTG CCTGGAACTT 851 TGAGAAGTTC CTGGTGGGCC CTGACGGTGT GCCCCTACGC AGGTACAGCC 901 GCCGCTTCCA GACCATTGAC ATCGAGCCTG ACATCGAAGC CCTGCTGTCT 951CAAGGGCCCA GCTGTGCCTA G- 971

3'-UTR DE L'ARNm

972 GGCGCCCCT CCT ACCCCGG CTGCTTGGCA 1001 GTTGCAGTGC TGCTGTCTCG GGGGGGTTTT CA TCT A TGAG GGTGTTTCCT I051 CT AAACCT AC GAGGGAGGAA CACCTGATCT T ACAGAAAA T ACCACCTCGA Il 0 1 GA TGGGTGCT GGTCCTGTTG ATCCCAGTCT CTGCCAGACC AAGGCGAGTT 1 ] 51 TCCCCACT AA T AAAGTGCCG GGTGTCAGCA GAA- 1183

3'-UTR DU GÈNE

+ 1 GGCCGGCGGC GGGTCACGTG GCACAGGCAG TTTTCCGGGC CTGAGGGTCC +51 CGCCTCATCC GGCCCCCGCC CTACCCGGAG GGCTCGGCCC CTCCTCAGCC

+ ] 0 I AGGAAAAGGC TGGAGAGTGC GCCCGAGCGG GACGCGTGCT CCTCCT AAGC + 15] CGGAAGGAGC AGCAGGCA TG TCTGGTCTGG CCCAGGCAAC CAGGCGGCAG +201 CGGTCCAGGT TACCCTTCCA AGGGCTGGGG CCCTCGAGGG CTCCGTTTTT +251 TCTCAGAGGT TCCTGAGTTA GGATGTGGGG TTTGGCATAG GAGGCTGGTG +301 GGCGACGGCA GCAGCTGCAG GAGCTGCCCG TGCACAAACA GCCCTCCTCT +351 CCTGTGCCAT GTTACCGGCA GTGCAGGGGA CAGCCAGAGG GATCTAGGCT +401 TCCGGTCTCC CTCCTCCCTG TCTCCAAAGC GGCACCGCCC TCGTGCGGGT +451 TTTCTAACCG GGCAGAGTCC TGGAAGCTCT GCCCCAGCCT CCTTAAGTGG +501 AGCCCAGTAG CTCGCCGAGG CCAAGGAAAC GCTGCCGGAG TCCTCCCTCC +551 CTGGCCTCCT CAGGCTGCAT TCACCCTACC CCCAAATCTG AACCAGAATG +601 CGGTACAGGG TAATCATTTC CATGTTGTTG GGAGGGACCA GATTAGCTGC +651 TGGGTGGGTG -GGAGGTGGGG CACAAGCTAG TCCTTTGCAC TCAACAAACC +701 TCTCCAGGGT GAGCTAGGCC AGGAAGTCCT TGCATCCTCC TACCCCCAGC +751 CCTGGAGAGA GCAACACAAA CAACAGGATA CAGGAAGTTT AGAAAACTGC +801 CTTTATTCTA TTAGTAGTTG GAAAAATTAA CTGGTACAGA AAAAAAGTTT +851 AGTCAGCTGG AGAGAAGAGA GACTGAGTGC CACCCATGAG AACTGGTGGC +901 TCCTCTGGGA GGGAACCTGG ATACAGTGAG GAGAAAAGAG CACTGTGAAT +951 T AGAGCCAGA TGCTT AAGTC CAGGTGAGAC AGGTT A TGCC A TCTTCCAAAG- + l 001

99

Séquence nucléotidique du brin codant de CAT:

5'-UTR DU GÈNE

-1981 CTCTCGCCTC-AGCCACCTGA-GT AGCTGAGA-CT ACAGGCGT -GTGCCACCAC -1931 GCCCAGCT AA-TTTTTGT A TT -TTT AGCAGAG-GTGGGGTTTT -ACCA TGTTGG -1881 CCAGACTGGT -CTCGAACTTC-TGGCCACAAG-TGA TCCGCCT-GCCTCGGCCT -1831 CCCAAGGTGC-TGGGA TT ACA-GGCGTGAGCC-CCCGCACCCA-GCCTCCT ATG -1781 TAACATTATA-AATTTATTGT-CATTACTTGT-AAGCCTGCCC-TTTATTTTAA _] 731 AATACAAGAT-ATGACAAGAT-CAGAAACCAG-TCTTGTTTCT-CCATTTCTTT -] 681 CTCT AGAAA T -AA TTCTTT AG-GAA TTCAAA T -CCA T AGT AA C-AAAAACAAA G -]631 GAAAAAAAAA-CATGCTTTTT-TTTATATAAT-GAATAAAGGT-TAAGAAATGA -158] CTCCAGGTCT-CTTATTTATT-TTGTTGATAT-TTGTGTTGGT-TAGTTAAGAA _] 531 GATGATTTGC-TCGATTATTT-CAACATTTAT-TTATTCAACA-AACTGTGGAC -1481 TTTGGAGA TG-AACAGCTGAA-GCT AGAA TCC-TGACT ATCCC-TT AA T AGCTG -143] TGTAACTTTG-GGCAAGTTAT-TTAACCTCCC-TATACCTCTG-TTTCCTAATC -1381 TGTAAAATGA-AGATAATATT-AGTATCTAAC-TCATAGGGTT~GTTGGGAGGG -1331 TT AACT AAGC-AAA TA T ACAA-AAAGCTGAGA-A T AGTCCCTG-GT AT AT AGT A -1281 AGTGCTCAA T -AAA TT A TGGA-TGGGAGGA TC-CTGACCCACA-TGGAGTTTAC -1231 AGTCTTGGCA-GT A TGGA TCG-GGCAGGT AGA-AAAAGACACC-AAATTACACA -1181 GCCAACAGCA-TCTTTATAAT-TGTTTTTAAT-ATAGGAAAAG-TATAGGGTGC -1131 T AAAGA TCAA-TTTGTGGCTT _ TCTTTTCCAA-TGAACTGCT A-AAGTTCCACT -1081 TTTATGCCCA-AGATTCTTAT-CATACTTTTG-TAAGATCAAG-AACAACATGT -1031 GAAGTTTCCA-CTATTATATA-TCCACCCATT-ATATGTAGTT-GTACTGGAAA

-98] AAATTAAAAG-CTGATAACTT-TTAATTTGAA-GATGATGGTA-TATACTATGT -931 AT AT AT ATT A-AGGTGCTT AA-AGA T AAA TCC-T AGCACCTGA-GGAGGTGT AG -881 AAA TCATTCA-AACTCTTTGA-TT ACAA TGAC-AAACT AGTCA-GT AACTT ACT -831 AAA T A TTGT A-CTA TA TA TT A-CT AAGT A TTT-T ACTCTTCAA-CAT AGCTTTT -781 T AAAGACACA-AAGCTTTTCA-AAA TTCCTGC-TT ACCTGGGG-GT AAAA TTTG -731 GGGAAGCAGA-TTTCTCCAGT -GTTT AAAGAA-GCCAA TTTGG-CAGTGTACCA -681 GAGTTGAA TA-CA TTTTTCCC-A TCACAAGGG-AA T ACATTTT -TCCCA TCT AA -631 GTT AAGTTGT -TTTTCTCTGG-T AAAGGAGGA-AATCAACACC-CA TCTGT ACG -581 GAGATAAACG-TTTCAGAGTG-TTTTTATATT-AAATAATTAG-TATACTAGTC -531 T AGT AAGTGA-T AA TCCACGA-A T AAGTT AAG-AAGAGCT AAG-AAAGAAAAAG -481 AAAAGCA TCC-A TCCA TCCTT -TGGTTGCAAA-TAAT ACTTAC-A TT AGCGT AT -431 GGCAAAATTT-AATTTTGTAC-AGAGTAATTT-AACCCAGGAT-TGCTGACTTT -381 TT AAGAGCTG-AGAAAGCA T A-GCT A TGGAGC-GCAAGGCCCC-ACCCAGCAGG -331 GTCT AAGT AT -TCCGTCTGCA-AAACTGGCAG-GCCACCAACG-GCCGCGTCCC -281 AGGGCGGCCT -GAAGGA TGCT -GA T AACCGGG-AGCCCCGCCC-TGGGTTCGGC -231 TA TCCCGGGC-ACCCCGGGCC-GGCGGGGCGA-GGCTCTCCAA-TTGCTGGGCC -181 AGAGCGGGAC-CCTTCCTTTC-CGCACCCTCC-TGGGT A TCTC-CGGTCTTCAG -131 GCCTCCTTCG-GAGAGCCCTG-CTCCGAGCCC-A TTGGGCTTC-CAA TCTTGGC

-81 CTGCCT AGCG-CCGAGCAGCC-AA TCAGAAGG-CAGTCCTCCC-GAGGGGGCGG -31 GACGAGGGGG-TGGTGCTGA T -TGGCTGAGCC

100


1 GGCAACAGGC-AGA TTTGCCT -GCTGAGGGTG-GAGACCCACG-AGCCGAGGCC 51 TCCTGCAGTG-TTCTGCACAG-CAAACCGCAC-GCT- 83

EXON~l

84 A TGGCTG-ACAGCCGGGA l 01 TCCCGCCAGC-CACCAGATGC-AGCACTGGAA-GGAGCAGCGG-GCCCCGCAG- 149

INTRON-l

150 -G 151 TACACTCTGT-GCTCCCCGAG-CGGGCCCGAA-GGTCCGTTTA-GAAAGCGGGG 20] GCGTCGOCAA -OTAAA GGcCC-OOCTTCCCCC-GGOGCOOCOC-TTGGA GGGA C 251 TG TA CCGCGG-CTCA CTGGGC-A GGGGGGATC-CCCTTCGGTG-CA GA CGGA CT 301 TTTA CATTCG-CCGAA GCA GG-GGA GGGGGGT-CCGGGTA GTG-GGGCGCGGGA 351 CTGCA GGCTT-TG TTGTCCGC-GACA GGCTCG-GGTGGTTGCT-TCA GAATTTT 401 GCA CTTTTGC-CAA CTGGGA C-A GA GGTCGCA -GCTTGA GGA C-A GA TTGA GGG 451 CTCATGGGGA-AAGAGGCAGA-GAGCTGCAGC-TGCAAGGAAG-TCAGTGAGGG 501 GA GAA GTGGA -A CCA GGCTCT-AATGGTGCCC-TTCTTGAAAT-A CTGTTTA CA 551 CGCTTTCA TA -GTTGTGGGGT-CCCA GCA GGG-CA GGGATTGT-GTTTTA CAA T 601 CTTGAGGTCT-CCAGCACCAG-TCACAGTGAC-TGGTACGTAC-TATGCACATT 651 ATTAAACGAC-TAAATAAAAG-AACTTTTACA-TTCATTGTCT-CATTTGCACT 701 TCAAAATGTC-AA GCCTA GCA-TTTTA GA GCT-GGGGGGTGA C-ATTA GGGA TT 751 GA TTAA TGCG- TTTATTCTA T- TCTTTGA GCA-CCTGTAGGTG-CTA GGCA CTG 801 TTCGGGGCAA-GGTGTACAAA-TTCCAGTGCG-GCAAGAACAA-CACCCTTGAG 851 AAGCTGAGAG-TCTAGTCTGG-GAGACGAGAC-ACATAAACAG-ATGATTACAC 901 TCCAGCGTGG-TGAGGGCTCT-AATAGAGGTT-ATCTGTAGAA-TGTAGAGGGA 951 GTGA CCA GGT-GGGCCGGA CA -AA GCA GGTGA -CATTTGAA CA -GGAA TTTTTT

1001 TAAATGAGTA-GGATTTTAAC-TTGGTGGTGG-GGGAGGCATT-CCTGGCCTGT 1051 GCCCACGGCT-GCAGAGTCTC-AGAGGGCATC-TATGAGGAGG-TTGGATTA GA 1101 TGAGACCACA-TCTGGTCTGA-GTCTACTGTT-GGCAGATTGG-CCCAGGGAGT 1151 CTAAAGGTCT- TGCCCTGTTC-CCTGGCTGCT-GGTTAATGGT-AGACAGAGGA 1201 CTGCAGCCCT-GTTTTCCCTA-TTCTGCCTAG-TGCTCTTGCT-CAAAACTCAG 1251 GTTCGTGAA C-TGGGGTATTA -A TGCTAÀ GTG-CTCA TGGA TT-GCTTTAA TGG 1301 TTCCC TG TTT-GGGAAA A GGC-TGCCA TTCTC-CTCCAAGGGC-CTGGAAAA TC 1351 TCCCCTCTTG-GCCCTGTTCT-TTGTTATA TA-CCATTAGGTT-GGTTCATGAG 1401 CTCTTAAAGT-AAACCAGAGA-GAGGTAGAGT-CTTAGTAAAG-GATGTGCCAC 1451 TA CTTA CTGG-CA GA GA CAA G-GTTA GAA TTC-A GCTTCTTGG-A CCCAA GA CT 1501 CTTTCCTTAC-CCAGTGGGTG-CAAATCCTGG-TTCACACTGA-AGTTTTCATG 1551 AATACTCGGT-GAATTGAGAA-AAGTGTGGAC-AAAGTAGTGA-GATTTTTACA 1601 AAA CAAAA TA _ TTTTCTTTTT-CTTTTTCTTT- TCTTTTCTTT- TTTTTTTTTT 1651 GAGACGGAGT-CTTGCTCTGT-TGCCCAGGCT-GGAGTGCAGT-GGTATGATCT 1701 CCA CTCA CTG-CAAA CTCCGC-CTCCCGGA TT-CA A GCAA TTC- TCCTGCCTCA 175] GCCTCCCGAG-TAGCTGGGAT-TACAGGTGTC-CACCA CCA CA-CCCA GCTAA T 1801 TTTTGTATTT-TTAGTAGAGA-TGGGGTTTCA-CCATGTTGGC-CAGGCTGGAC 1851 TGGAA CTCCT-GA CCTCA GGA -GA TCTGCCCG-CCTTGGCCTC-CCAAA GTA CC 1901 GAGATTACAG-GTGTAATATT-TTCATTTTTA-AAGGACTCCC-CTTTATTCTG 1951 AGACTAGCTG-CCTTCTTCCT-TGTTTGGGAG-AATCATGAAC-TGTTGAAGTC 2001 CCTGCTGTTG-ATTTACCTTA-CATAGTTGCC-CATGTGAGAA-ATGGCTGACT 2051 CCAAAACACA-TCTATAGTTG-GGAGGCTCTT-AATTGAAATA-CAGCCATCCC 210] CTTTGTCCAT-GACATCTCAG-GGCACTGTGT-ACATCGTCCT-GATTGGCAGT

101

2151 CACATTGATG-TCTTACTGTT-CCTCAGTTTT-AGCTGCTCTT-AGTAAAAACC 220] GCTTA CTTCT-TTTA GGCA CT-TC TCCCTCCA -CCCA GGGCCC-TCCAAAA GGA 2251 ATTATGCATA-TGCCTTATAG-CCTATATAAT-TTTCAAACAC-TTTTTTTAAA 230] TGAAAAATTT-CAAATATTCA-GAAAAGTTGA-AAAAATTTTG-CAGTGTATAT 2351 CTATATATCT-GCCATCTAGA-TTCTACAAGG-AACATTTTGC-CCTGTGTCTT 240] TTATTACGTT-ACTCCATCTG-TCTGTCCATC-CTTTAATTCA-TTCAAGTTGT 2451 TTCATGTATT-AGCAGTTTGT-TCTTTTCATT-GCTGAGTAAG-ATTCCATTAT 2501 TTGAATATAC-CACCATTTGG-ATATCCTGTT-GCTGGACACC-TGGGCTATTT 2551 AATTTTTTTT-CTATTGTAAG-TAAAGCTGCT-GTGGCTGGGC-ATGAAGGCTT 2601 ATGCCTATAA-CCCTACCACT-TTTGGAGGCT-GAGGTGGGAG-GATAGTTTGA 2651 GCTCAGGAGT-TGAGACCAGC-CTAAGCAACA-TGGTGAAAAC-CCATCTCTAC 2701 AACAAATAAA-AGAAGTAGCC-AGACATGGTG-ACACATGCCT-GTAGTCCCAG 2751 CTA CTCGGGA -AGTTGA GTTG-GGA GGA TTGC- TTGA GCTTGG-GG TG TG GA GG 2801 CTGCAGTGAG-CCATGATTAC-ATGACTGCAC-TCTAGCCTGG-GTGACAGAGG 2851 GAGACCCTGT-CTTAAAAATT-AAAAATAAAT-AAAGCTGCTA-TAAAAATTCT 2901 TACATAAGTC-TTTTTGTGCA-CAGGTGGTTT-TATTTCTCTT-AGGAAATACC 295] TAGGAGTAGA-TTTATTGGGT-CATAAGGTAA-GTGAATGTGT-TATGAGAAAC 3001 TGCTGAGCCT-TTTTCCAAAG-TGGTTGTACC-ATTTTATACT-TCATCAGCAG 3051 TGTATGGGAG-TTCCAGTTGC-TCCACATCCT-ACCAACTTTT-GGTGTTGTCA 3101 GTCTTTTA CA-TTTAGTTGTT-GGGTGTGCAG- TGGTATCTCA- TTATGGTTTT 3151 AA TTTGCTTT-GCTCTGATGA -CT AA TGA TGC-AAA GCA TC TT-TTTA CATGCT 3201 TATTGACCAT-TGGTATATAT-TCCTTTGAAG-TATATGTTCA-AATTTTCTGT 3251 CTTTTTAAAA-ATTGAATTGC-TTTTAAATTA-TTAATTCATA-GCCCATATTT 3301 TAAGTTCAAT-CATGTGGAAT-CATGTGTAGG-CTAAGTGTTA-TAATAATAAA 3351 TCTCAACATG-TATCATGGTA-TAAACATATT-AGAAATTTAT-GGCCGGGTGC 3401 AGTGACTCAC-ACCTATAATC-CAGCACTTTG-GGAGGCTGAG-GTGGGCGGAT 3451 CACCTGAGGT-CAGGAGTTCA-AAACTAGCCT-GACCAATATG-GAGAAACCCT 350] GTCTCTACTA-AAAATACAAA-ATTAGCTGGG-CGTGGTGGCA-CATGCCTGTA 3551 ATCCCAGCTG-CTTGGGAGGC-TGAGGCAGGA-TAATCACTTG-AACCCTGGAG 3601 GCGGA GGTTG-CA GTAA GCCG-A GA TCCTGCC-A TTGCA CTCC-A GCCTGGGCA 3651 ACAAGAGTGA-AACTCCATCT-CAAAAAGAAA-AAAAAAGAAA-TGTATTCCTT 3701 TCCTACATGA-ATGGCCCAAA-GTGGTTTGAG-GTTGAAGGAG-GTGGGTGGGT 3751 GCTCTGCTTC-CCA CA GTTA T- TGA GGGCA CC-A GGCTGAA GG-AA GCTCCCCC 3801 TTGGTCAAA C-ATGGCTTTTA -TGGGCGTCA C-TG TCCA GCA C-A GAA GGCTCA 385] AGAGCGTGGA-GAAGGGTATA-TGAGTGTGGG-AAGGTTTAGG-GTCCAGGGTC 3901 ACTGCCACTT-ACATTCTGTT-GGCTAGAACT-CTGTTACAGG-CCACACCTGG 3951 GGTAGTCTAC-CCCCTGTCCA-GGAAGCTGAC-TCTACTATAT-TATCCAAAGC 4001 GTACATTTCA-TATTTGGTGA-AAATCTGTCC-AGCCATTTTC-TTGTGATGCG 4051 GCAATGGACA-TGCAACATAA-TTTCTTTTTA-AAGAATATGT-CATTTTTACT 4101 TTCTGACATT-AAGATATTCT-GTTAGAAAAT-TATGACAGTA-ACAGATGGTA 4151 TTAAAAAAAA-ATCTCCCCTT-GCTTGGTAAA-TGCTTTTATC-TAAGTGGGCA 4201 GCTTTGTGCT-AATATGATGT-CTTCCACTTC-CCAATTAGTT-GTGATGCTTT 4251 ACTGATCTAG-GAGAGCTTTA-TGGTTTGGGA-CTACTATAGG-CGAACACTCT 4301 GTTGCCTCCT-CTCTCAAGAA-TCAGAGTGTC-CTATTTTGGA-AACACAGTCA 4351 ACCATGTGAA-AGCAATTTAT-TGGGCGTATC-TTCTGTGGTC-AGATTTGGTT 4401 TGCTGA CA GG-TGAA TTGGGA -GTTTTGTAAA -CTTTAA TAA G-TGA GCA TTGA 4451 GTCAGATGTG-TTCATGAGTA-TGACCTCGAT-CCACTTAAAA-ATTCTTATTT 4501 CTTTTTCTCT-CTTGGCA GGA -GGGA GGTGGT-TG TG CA GGTA -TTCCCA GCCA 4551 CTTTGAA GGG-AA CTTAAA TG-GGAA CTTTA T- TGCTCA CTGC- TT A GAA TGCC 4601 A TGGGCTCTT-CTTTTGA GA T-A CTTA CCTTT-AA CCCA TTTC-CTTTTTTTTT 4651 TTTTAA GTGC-A GCTTGCTGC-CA GTGCTCTT-TTCTTGGGGG- TAAA TGGGAA 4701 ATGTTAATAA-GTAGCCTCTG-ATCCCTTTAA-AATGGGAGAA-TTTGAACATT 4751 TCAAACCTTA-CCTTTTTA.TA-CAGTTCTCTT-ATTACCTGGG-AGAGAGGTTA 4801 AGTCTTAGAC-TATCCATTTC-TGTCAGTGAG-TTGCCTATGC-ATTATAGCCT

102

4851 GTGA GGGTCT-A TA TTTTTTT-A GGGTAA TCC- TGGTAAT AA C-TGCATTGA TG 4901 TTACACTGCT-AACATTTGGG-ATGGAGAAGG-GGTGACTGAG-TGACTTAACC 4951 CTTGGTCCA C-A TGTGCTTTC-A TTTCTCCTG-AAATA TA CCT-A GGTA TGGAA 5001 TCGCTAAGTC-ATTATGTGCA-GTGGGAGAGA-CTATGGGAGA-TGGGACAGAA 5051 ATTTTTAAGG-TTTCATTTCT-TTTTTTTAGC-TTTTGCATGG-TGGGTAGGTC 5101 TATGCAAACC-TACCCCCAAA-GTCTGAGGAA-GCTGAGAGGC-CAAAGAAAGA 5151 GGCTGACAAA-TCAAGTTTCT-CAGAAAGAAA-TGTTTAGTAG-GGACTTAGGA 5201 CCAGAAACCA-TGTCTGTGTC-TTGCGTGTTG-GCGAGACAAG-ATGGTGGATC 5251 CCA TACCA TT-A CCCCTCA GA -CCCA GGGCTT-AA TA CCA TA G-GGAA GGGCGA 5301 TTCAGAAGGG-AGGTATGGCA-TGACTGAAGT-ATGATAATGT-CAAGGTTGTT 5351 TGACCTCAGG-GCAGGATTTA-TAGTAAATAG-GGGCTCTTTC-ACAAGGAATA 5401 ATAGATAAAC-TGGAAATCTT-AAAACTGGAG-TTAATCAGAA-GTCAGCATGG 5451 TGGATCAGTA-TCTAAGACGG-AATTGCTTTA-GCTTCCACAG-CAGTCAATAT 5501 CTAGACCACC-CTTATTATTT-TCCCACAGAC-CAAGAAATTT-GAAGGTCAGG 5551 ACAGTCTTTG-GTTTCCTGTA-CGTGGGTGTA-TACGTTGTAG-GCACTTGAAT 5601 CTTTGTTGAA-TAAATGGAGA-ATGTTAGGCA-GTTATTTGCT-AGAAAACGCT 5651 AGGCACATTC-TTTATCACAG-AATGAAAAGA-CGTCATTATG-ACTCCTCTGG 5701 GACTGATGGG-CAATTTGCAT-TAACCAATCT-TTTAATTAAA-AGTGGAAGAA 5751 TATGTTTAGG-TTCTTGAAAC-TTCTGTGAGT-GAAGGGAACT-ACTAAGTGGA 5801 AAGTGTAATA-TGTTGATAAA-ATATTTCACC-AGATGAAGCC-AACCTTACTC 5851 CTCCCAGGAA-AACTTCTTCA-TTTATGTATT-AGCTCTGGCC-AAAAGAAGCC 5901 TATAAAGGCA-GCAAAGTCAA-AATAGAATTT-TACTTTAAGT-CCCTACTTCT 5951 AATAATTGTG-CTAGTTTTTA-GCCAAGCTAA-TTTCTGTGGC-AGTTTTCATA 6001 ACAAGTGTGT-CTAAAGGTGT-TTGATCAGAA-TTTATAAATT-AAAATATTTC 6051 TCTCATTTTT-TGGAGGGGCG-ATGCAGGGAG-AGGGATAGAC-TGTTGCTGCT 6101 TCCTCCTGCT-TGTTAGAAAG-GCTCTTGGCC-ATATCATATT-GGTCCGTGGT 6151 TTAGTTTATT-TGCATGCTGA-ATCCA'CACAC-ATTTGTTTTA-TGTTTGTTA G 6201 TATATTGAGC-AGTGTATTAG-GGATCAGGTA-TATAGATGTA-AAAGGAGTAC 6251 ACAGTCTAGA-GAGGAAAAAT-AGTGACAGGC-TGGGCGCGGT-GGCTCACGCC 6301 TATAA TCCCA -GCA CTTTGGG-A GGCCAA GA T-GGGCGGATTT-CTTGA GGTCA 6351 GGAGTTTGAG-ATCATCAGCC-TGGCCAACAT-GATGGAACCC-TGTCTTTACT 6401 AAAAATACAA-AAATTAGCTG-GGTGTGGTGG-TGGTCGCCTG-TAATCCCAAC 6451 TA CTTGGGA G-GCTGA GA CGG-GA GAA TTGCT-TGAA CCCGGG-A GGA GGTGGA 6501 GGTTACAGTG-AGCTGAGACC-ATGCCACTGC-ACTCCAGCCT-GGGCAATAGA 6551 GCGAGACTCC-ATCTCAAAAA-AAAAAAAAAA-AAAAAAAAAA-AAGAAAAACA 6601 GTGACATAAA-CAGGCAATTA-CAATATTTTG-TTATATGGGG-CACAAGAAGA 6651 TGCCCTTGGC-CCTGCTTCAT-GAGTGGTGTG-GGGCAGGGTA-GAGAGAGCAG 6701 TTCA GGA GA G-GTA CGTATGG-A TGTCA TGGG-A GCTA GCA GC-CA GGAA GA TG 6751 TAAACATGTT-AACAAGGACC-TCTCCAGAGA-GAGGTCTTAA-AATTATCCAG

6801 CCATAGAGAA-GCTTTTCTCT-CTTTAAAAAT-ATTCTGGCTC-TAAAGTTATT 6851 CATTGAGTTA-AAAACAATAA-TTGCAAGTTG-GAGGAAATCT-CTTTGCCTGT . 6901 CCTTACGTGT-TACATGTAAC-AAGTAAACCT-GTGCCACAAC-ACTGACATCT 6951 CTGCAAAGTT-ACTTAAGTTT-TCTGAGTTTG-TAGTATCGCC-CATTAAATGG 7001 GATTAATAAT-ATTGATCTCT-GGATTATTGA-CAGGCTTAAG~TGAGATAACT 7051 TGCGTGGTCC-GTTTTCTA GC-CCCA CCCTCT-CATTTCATCT-A GTAAA TCTT 7101 CATTGCATTA-ATTATTTTCA-TCTTAAATAC-ACCGCATCCT-GCTCCTCACC 7151 TTCTAATATT-AATACTCTAT-CTTTCAGTTT-AGATCAGTTC-CTCTTATCCA 7201 A TGTTGCGCT-AAA CA TCCCC- TGAA GTTGGG-GGA TCTTTTC-CTTTCTA GTT 7251 TTTGCTCCCT-GGCTTCCCTT-TTCTGTTGCT-GACTGTTGAA-GCTTTCCTGC 7301 CCCACTGGCT-TTGAAGGTAA-ATTGTATATA-CATGAGCTTG-TGGGGAAAGC 7351 TGTTATATAA-ATGAGGACAA-TTGATCTAAC-TGTTAGAGTG-GGGAAATGGA 7401 AGAGATTCTG-AAGCCTCCAT-TTGTAACTTA-AAAACTCAGG-TTTCATTTCT 7451 TAA CA GGATT-GA TG TT A A GG-A GGGGA TTCC-TTCATTGGGC-A GGA GGGA GG . 7501 ACTGCCATAA-TTCCAGCATT-CCCACTCTTA-ATAGTCAGTG-TCATCAGGAA

103

7551 AGACCACCTC-AAGCTTTAGT-ACTTTATTCA-TTTATCCAAC-TCTGCACCTG 7601 CTGCCTTTGG-GTGTGGTATT-TATTCTTGAC-CATATCACCC-TGACCCGGTA 7651 A CCA GAA GGG-AA CA TGTGAT-GTGCTCTCA T-CTCTGCCTTA -GGGGCA GCTC 7701 CCTCCCCACG-TTAAGAATGC-TGGCATGTAA-ATAACACTCT-CATCTGTTTA 7751 GCGTTCCTTT-TACTGAGCTT-CTTGGTATCT-TTTCTCATAC-TTGTACCTTT 7801 TATGGGATGT-CCCCCCCTTT-TTTTTTTTGA-GACGGAGTTT-CGCTGCTGTT 7851 GCCCA GGCTG-GA GTGCAA TG-GCA CGA TC TC-A GCTCA CCGC-AA CCTCCGCC 7901 TGCTGGGTTC-AA GCGA TTCT-CCTGCCTCA G-CCTCCCGA GT-A GCTGGGA CT 7951 ACAGTCACCC-CTCCACTGCA-CCTGGTA CTA-A TTTTGTATT- TTTAGTAGAG 8001 ACAGGGTTTC-TCCATGTTGG-TCAGGCTGGT-CTCGAACTCC-TGATCTCAGG 8051 TGATCCA CCT-GCTGCA GCCT-CCCGAA GTGT-TGGGATTACA -GGTGTGA GCC 8101 A CCGCGCCCA -GCCTGGA TGT-CCCTTTATTT- TTT AAA GGCT-TCCTTAAA TA 8151 CCTTGTTTGT-AAGTTGAAAA-GAGCATTTAA-AGAGTGAACA-GATTTGGTTT 820] GCTCTGGCTC-TCTAATTATT-TTAACTTTGT-TATCACCCAA-TAGTTCTAGG 8251 TTAGTGGTTT-TCAATCCTAG-CTTGAACAGG-AGTCATTTAA-AAATAGCCCA 830] GGCCTCA CCC-A GGGCA CTTC- TATCA GA CAT-CTCTA GGGGG-GA TGGCCCA G 8351 GCATCAGGAG-GCTTTAAAAA-GCTCCTCAGG-TGATTTTAGT-GCATTGCCAA 8401 GGTTGAAAAC-CAAGGCTTTA-GGTTTAAACT-AAAGGTGAAA-TTGCTCTTTT 845] TCTGGTTCAT-TTTCTACTTT-AGAAAGTAGA-AATTTTTTTT-CTGGTTCATT 8501 TTCTACTTTA-AATTAAAAAT-AAACCTACAG-AGGGTAACAC-GTATTAGCAC 855] GTCACA GA GG-GTCACA CGTA-TTA GCAA CA T-A TG TA TCTTC-AAAA GA GTGA 8601 TGTGACTGGG-TGGTAAGTGT-TGATTGGACC-CTTAAACTGT-GACAGTTTAG 865] AAGGGGCTTT-GCTAGATGGG-TTTAGGGACA-GAGATGGTAG-AGTGAGAGAG 870] TGTGGATGGA-GGAGTATGCA-TCTGTCATGA-TTACTAGAAA-AATAAAACTT 8751 CAAATGCTTT-GCTCCTTCTG-CTGCGAGGTC-ATGTTCTCAC-AGCCAGTGAA 8801 GTGACAGCAT-ATATGTGTTG-AATGTGTGGC-TTGCATTTTA-CATTTAACTC 885] TTTTAATTCA-TGTGTTAACC-TTAGGAGGTA-CTTATTATTC-TATTTTGCAG 890] ATGAAAATGG-AGACTCATAA-ATAAGTAACT-TACCAGCAGC-TACATAGCTG 895] GTAATTGGTA-GAACTGGAAG-TTGGACCCAG-GCTCTAGTGC-TGGCACTCAT 900] AGTTTCTCCC-TGCTGCCA TG-TTGGCCTCTT-CCTA CTTGGA-TGAA GA TA TA 905] ACTCTAGTGG-CAAGGGCATT-TACTAGTGTG-TGAGAGGGTC-TTGTTTATTA 9101 GTTTTGCAAA-TTGCACGGTC-TCCTTTATTC-AATATCTTTT-TTCAAACAGC 9]51 TCACAGATCT-TTTGTGGTTT-TGTAAGTGCC-TACTCCCCAC-CGTATTGCCT 9201 TCTAGAGAAG-AGGCAGGAAT-TTATTTTAAT-GTACAGGACA-GACATGCATG 9251 GGGAGTAAAA-CTACAGACTC-CACTCTAGGT-GTGTGGAAAT-ACTAAAAATA 9301 GTGCTTTTCT-CTGTGTGTGA-AGTTGGTCTG-TTGAGTTTTG-TCATAGACAG 9351 CGTTGA GTTC-CTCTCCCA GG-TG GA GGTGGC-GTA GCTTTGC-GTCA CTTA CG 9401 TGTCTCTCCT-GATTTCCAGT-GACCCGGGGA-AGACACTGCA-GAGGCAGTTG 9451 TCTGTGGTCA-AAAGTATTCT-CTGACCATGG-AACTAGATGA-AGCTATGAGC 950] TTCCA GGA TC-A TGTGGGGCT-A GAA GAA TGC-CGCTC TAA CC-CT A GA GGA GG 9551 GACAGCTGAG-TGTCTTCTGA-TGTAA.CTGAA-ATTGGAGAAT-CAGGTGGATT 9601 AAAATTAATT-ATTTATTACA-GTAAAATAAC-CTATCCCATT-TCAGAGACAT 9651 TTGCTATCTT-TAAAACATTA-ATACTATAAT-CCACCTTACC-AGTAACAGTT 970] TACTTTTAGT-GACAGTGAAA-GCCATTGACT-TTTTTTTTTT-AATTGAAAAG 975] AGATGTTGCA-AATAGCTGGT-GTACATTTCT-TGAGATGCAC-TAAACAAGGT 9801 AGCGCACTTG-AAGATCGTGG-CAGTAATAAA-GCGTTTGTAA-GTTCTGAGTA 9851 AAGTATTGAC-CAGCACAGCT-TCCCTGGAGA-CCGTCTTCTC-ATTGCTGGAT 9901 TGGA CA TTTC-A CTGTTAA GC-TTGTA GGA CG-CTTTTGGGCA -CC TC TC TGA C 9951 TGGGA GCTTT-GCA GAA CCCA -GTGGCTTTCT-CTGGA GCA GG- TGCTGA GCA C

1000] ATTTTCAGGC-TCCAAAATCA-TCTTTCTGCT-CTTCAGAGCA-AGTTTCTTAG 1005] CAGATTAGTG-TTGAGATTTG-TCAAGGGTTT-CTGGGGCATC-ACTAAAAGTT 10]0] TCAGGCAATG-GCCCATCCTG-TCAGATTTTA-GTACTTTGGA-CACAGGAAAT 1015] TAAAAAAGAG-GGCAGATGGT-ATAAACATTG-CAAAGCTATG-TACCCGTGAC 10201. A GTGTAAA TG-AAA GGTTTGA _ TTGTGCTAA C-TC TCCTG CA C-TTTCTTTCTG

104

10251 TGTTCCTGTA-G 10261

EXON-2

10262 AAAGCTGA T -GTCCTGACCA-CTGGAGCTGG-T AACCCAGT A 10301 GGAGACAAAC-TT AATGTT AT -T ACAGT AGGG-CCCCGTGGGC-CCCTTCTTGT 10351 TCAGGA TGTG-GTTTTCACTG-A TGAAA TGGC-TCA TTTTGAC-CGAGAGAGAA 10401 TTCCTGAGAG-AGTTGTGCAT-GCTAAAGGAG-CAG-10433

INTRON-2

10434 GTAAGTG-CTGTGTTTAT 10451 TTGCTGTAAA-AAGATTGTTT-CACAGCACCT-GGGTCAAGTG-TTATTTCCCA 10501 AAGGATTGGA-AGACCTTTAA-CACAAGTGTC-AAATCTCCAT-TTGTGGGAGA 10551 AAGGAAAAAC-ATCCAGCAGT-AGGGAAATTA-GTAAATAAAT-GATGGTTATT 10601 TCCTCAGGTT-AAACATTATA-TATAAAATAG-TTTCTTTTAA-AAATAGCAGT ]0651 CTTCCATTTC-TCCCATCATT-GAAGGAATAA-AAATACAATA-AGTCCTCACT 10701 TAACATCAAT-AGGTTCTTGG-AAACTTTGACTTTAAACGAC-ATGTAATGAA 10751 ACCAATTTTA-TGATAGGCTA-ATTGACGTAA-GCAAGAGTTA-AGTTCCTATG 1080] GCATATTTCT-GATTGATAAA-ACATCATCAA-ACTTCTAAAT-AGAGACTCAA 10851 AATACCTCTT-ATATTAAACA-TTGAAATAAA-TGTGAGCCAT-ACATACCTTT 10901 AAGAAAGATT-AGTAAAATAA-GATAGTTATT-TACTAGCTTA-TTCCAGTTCA ] 095] A GGTGGTGGG-A GGCCA GA GC-CTGTCCTGGC-A GGTTGGGGT-A CAA GGCAA G ] ]00] AGCCAGCCCT-GGACAGGATG-CTGTCCATTG-CAGGGTGGAC-TCACACTGGG ] 105] A CCA TTCA GA -CA TGCCA GTT-CA CCT AA CA C-GCA CA TCTTT-GGGA TGTGGG ] 1 ]0] GGGAAGCTGG-AGTACCAGGA-GAAAACCTAT-CTAGACATGG-GGAGAACATG ] 1 ]51 CAGACTCCAC-ACAGATGGTG-GCCTCAGCTA-GGAATAGATT-TTTTTCTCAT ] 120] CAACGTTATA-ATGAAACAAC-GTTGAACAAA-ACAATGTTGT-TTGAGGACCT ] 1251 GCTGTACAGA-AATACAGACA-TAGACACATG-CACTGCAATT-GCAACTAAGT 11301 TTAAATGATG-TACTTACTGG-GTAATTACTG-GAATGAGCTG-CAAAATTTGG ] ] 35] GGTAGTTATG-TTA GGGTGGT-GGGTTTGTGA-TGATTTTTCC- TTTCCTTTTT 11401 TCCAACAATT-TCTGTAAAAC-TTTCTTTATC-GCTGTTATAT-CAGACACAAA 1 ] 45] AGATGGGGGT-GGTATTTGAA-AGAAAGTGAA-AAACTCAGTT-GGAAAAAGAG ] ] 501 CTCCACAGAA-AGGAAGTTTT-TCTCTTAGCT-TGCTGA CTTG-GACTTCCAGT 1155] TA GGA CTTCT-GCA, TTTCTTC-A TCTCTTCTT-CCTGGATAAG-GTTTCTCCC C 11601 ATCTTCTCCA-GTGGTTTGTG-TGTATTTTTC-CATCTTGACT-TGTTTAGTTT 11651 ATTGCTTGCT-TTGTA TCA TC-GTTGCTAA GT-GTTGAAAA GA-TTCTTTCTCT 11701 TATGTTTTCA-TCTCCTCTTC-TCTCTGTTCT-TCACTTTCTC-TCATAGGTCC 1 ] 75] TA CC TG TA CT-TCA GGCCCCT-CTGA GA CCCT-GTGTCCTTGG-GCCAA CCTTG 1 ] 80] A CGACTTCTA-GCCTCACTCA-CCTCCTTCTC-TTGGCTCCAG-CTATGTGGCA ] ]851 TTCGACTTAG-CACTGAATGA-TAGAATAGGG-CTTTGCATTT-CACCCTCTTT 11901 A TTTTGTGTT- TGGGCA TTTC-CCCTTCCTCC-AA CA TA CTGG-AA GCTCCCA G 1195] AA GGCTGGTG-CTAA CCA TCA- TTTTCTC TTG- TCA CCCA GGT-GCCTGTTGA G 12001 GACCTGAATG-TCTGAGTAAT-GGTCTCATGG-TAAGGATTTC-TGTGTCTTTC 1205] TCGTTAGG- 12058

EXON-3

12059 GG-CCTTTGGCT A-CTTTGAGGTC-ACACA TGACA-TT ACCAAA TA 12101 CTCCAAGGCA-AAGGT ATTTG-AGCA TA TTGG-AAAGAAGACT -CCCA TCGCAG 12151 TTCGGTTCTC-CACTGTTG- 12168

105

INTRON-3

12169 GT-AA GTTGGTTT-A TTGGCGTGA -TTGGTA TGGC· 12201 TTAACTCAAC-TTCACCTTTT-GGGGATGTTT-ATAACTTAAA-GAAAAAGTTA 12251 TTAGAAAATA-GGAAGCAAGC-ACTTCTCCAA-ATTATGTCAA-GGTTTTACAG 12301 TAGAAGACAT-ATTTGGAGAC-ACATAGGAAG-TTACTTGTAT-TTCTGTTTGT 12351 TGAGGTCTTA-GGAAATCACA-CTTACACAGA-GGCTACCTCT-GCAA TTCTGT 12401 GACA TTTGGA-AAGAGCTTTC-CTAAAAGTGG-TTGCCTCTAA-CAGAAGAATA 12451 GAGTGGAAAT-CTTATTTAAT-AACTATGCCT-ACAGCTGACC-TTTATTGAGA 12501 ATTAATTCTG-TGCCAACTGT-GGTTAGGTGC-TTTACAGATA-TAATCTCTGA 12551 TTTGTAGATC-TACTTTGCAG-AGTGGGATTC-TTTTTATTTT-TGAGAGGCTA 12601 AGTGATGTTT-CTCACGTTAC-AGAGATAGTA-TTAGATCTAT-CATACTATAT 12651TTCAACATAC-CTAGTGCTTC-ACTAGTTCCG-TTTCTGTGTC-AGTCTCTGCA 12701 TTTTAAAAAT-ACTGTGGAAT-GTAAAAATAA-ATGAAATTAA-GAACTAAGAA 12751 CCAATATTTT-AACTCATTTT-CTTAATGTTA-ACCTCATCAT-TTTGACAACT 12801 CACTTATTCT-GTTTGTCACT-ACTTTAAGCC-TCATAATTAT-TTTCTTCCCT 12851 TATTTTAATT-AAAAGTTCAA-TTACCTGTTT-GAACAAAGTT-ATCTTATTAT 12901 GGTAAATGAA-TGACATTGTC-AGCTGTTATT-ACATGTGTTC-TCTTATTGCT 12951 CTCAATTAAT-TATTTTGTTT-GATTTGTGGA-CTGAATTAGC-TGGTGGGTAG 13001 AAATAATAAC-CCGGGCACTT-AAATACCTAA-TTTAGTTCTT-GGAAGTGGAT 13051 TAGAAAGGAT-GGATCCAGGT-GCTTCTTTAT-GTCTCCAGGC-TTCTTGGATG 13101 CAAAGTGCTG-TGGCTTATGC-TTCCTGTTTC-CATTTGAATA-TTGTAGC- 13147

EXON-4

13148 TGG 13151 AGAA TCGGGT -TCAGCTGACA-CA GTTCGGGA-CCCTCGTGGG-TTTGCA GTGA 13201 AATTTT ACAC-AGAAGA TGGT -AACTGGGATC-TCGTTGGAAA-T AACACCCCC 13251 ATTTTCTTCA-TCAGGGATCC-CATATTG-13277

INTRON-4

13278 GTA-GGTAATAGAG-TATTTTGCAC 13301 TCAACAAATG-TTTGTTGACT-TAAATTGATT-TCAAATAGGT-TGGCATTTGA 13351 GGAGAAGCCG-TGGGAAAGGC-AGAAAGAAAA-GAATGCGAGT-TGTCTGGACT 13401 ACTTTTTTCA-ACA CATTTTT-CTGTATTT AA-TAA GATAAA G- 'fA A GAACAGT 13451 TACCATTGGT-CTTAGATTTG-TCATTTTAAG-ACAGATTGAC-TTAATGGGAA 13501 GTGAGTTTAG-TTTTCCTTGC-AGAGCATCGA-AGATTAGTAA-AAAGAGGGAC 13551 TTTACTTTGG-AAACAAGCAG-AGGGTGTCTC-TACATGCTCT-GAGTCAGCAG 1360 1 GAGGGGGTGT-GTGTGCGTGC-GCGCATGCGG-GAGGGTGGGT-ATATTTTTTC 13651 CGTGAAGAAA-TACTATAAAT-CCCAGCACTT-TGGGAGGCCA-AGGCAGGCAG ]3701 A TCACTGGAG-TCCA TGA GTT-CGA GA CCAGC-CTGGGCAA CA-TGGCAAAA CC 13751 ATATCTCTGC-AAAAAAATAC-AAAAATTAGC-CAAGTGTGGT-GGCTCATGCC 1380 1 TATAGTCCCA-GCTACTTGGG-AGGCTGAGGT-GGGAGATTTG-CTTGAGCCCA ]3851 GGAGGTCAAA-GCTGCAGTGA-GCTGTGATCA-TGCCATTGCA-ATCAGCCTGG 13901 GTGACAGAGT-GAGACCCTGT-CTTAAAAAAA-AAAAAAAAGA-AAAGACTATA 13951 GTTTTGAGTA-TATTTGAAAT-ACTTTAGGGT-ATCTTAGATG-CTAGTTGTCT 14001 ATGCTGAGTA-AATTTCATAT-TATGGTTTGG-CAGTTTAAAA-TTCTAGGATT 1405'1 GTATTTAGAA-TTA TAA TCCA- TAAACCTAGT-AATAGGCATA- TA TAATGAAA 14101 GACACCATAA-TTCCTGTAAA-CTTAGTTTTT-GGATTTTTTT-CTCTCTTTTT 14151 TCTATTTAG- ]4159

106

EXON-5

] 4160 T -TTC CA TCTTT -T ATCCACAGC-CAAAAGAGAA-A TCCTCAGAC ] 4201 ACA TCTGAAG-GA TCCGGACA-TGGTCTGGGA-CTTCTGGAGC-CT ACGTCCTG 14251 AGTCTCTGCA-TCAG- 14264 .

INTRON-5

14265 GTATGA-ACCCTTTTTT-GCCATTGTAT-TATATCACCT 14301 GGGATGCAGT-GTTTAATTAT-GCCTCTTCAT-AAAGTGTCTC-TCCAGTTTTG ]4351 GCTATTTTAT-TGGAATCAGC-TTCCTCAGAT-TTCTTGATCG-TGAAGAGTTT ]4401 TGTAGTAACT-GGCTTTACTA-ATCATCCCCC-ATTCATCGGC-CTTAAATGAT 14451 GATGATGATG-ATGATAGATA-GCTAGCAACA-TTGTCAGTTG-ATATTTAGCA 14501 GTAGTAAGGA-TGAAAGTCTG-TAGTGTAAGG-TAAAGCTCTG-TATTAAGGAA 14551 GTGGGGGGAA-AGTAGTACCA-AACAAATTTG-CTATGCAAAT-AAATTTTGAA 14601 TAACAAATTA-GGCCAGTTTT-CAGGTTGTTT-TGGCTTTCCT-TCATAGAATT 14651 TTGAGTCATA-GTATTAGTGA-TTTGCATATC-ATTTTGATTT-AAAATTTTTC ]4701 TGTTTGTTAT-TTTCTACAAG-TGAAATAATA-ATGGTAACCC-TTCCCATGGG 14751 AAATTGGCTA-GTATGTTTTA-TGTCATTAAG-GGACTTTCTG-GAAACTAAGG 14801 AATATCTTAA-AAATCAAGGA-TGTTTTGATT-TAAATGAAAA-CATTTTAGGC 14851 TTTATATTTC-TGTTCTTTAG-G- 14871

EXON-6

] 4872 TTTCTTTCT -TGTTCAGTGA-TCGGGGGATT ]4901 CCAGATGGAC-ATCGCCACAT-GAATGGATAT-GGATCACATA-CTTTCAAGCT 14951 GGTTAATGCA-AATGGGGAGG-CAGTTTATTG-CAAATTCCAT-TATAAG-14996

INTRON-6

]4997 GTAT 15001 GTGTTA CCTT- TGGGGCA GA G-GGTA CAA GGC-TCCTA CCGCA -TA CC TCC TT A ] 5051 TTTTTCCTGA-AGGATTGAGC-AAAGATTAAG-GCTTCTCCCA-CTTTTCCCTC 15101 ACCTCCATCC-CCAAAGTTGG-GAAGTATTGA-TCTCATTGAT-CAGTACTGAT 15]51 TTTGTTGGCT-ACCATCTGAG-GACCTTGGAG-CGTATCCCAA-TCTCATTATC 15201 ACTTCCAACA-TCCAATAGTG-TCTTTCCAAT-ATCATTTCTT-T!AACTTTTT 15251 AAGTCATCCA-TCTATTTACT-TAGCATTTAT-TGAGGTTTTA-TTATGAACAA 15301 GGCATATAAG-TAAAATCAAT-TACAAATGTC-AGAAAACAAA-ATTATACTGT 15351 TTTTAAAAAT-TTGCATTCAT-ATAGCCAGAT-CAAATCAGTT-ACATCTGGGG 15401 AGGGTTTTGA-GAATGTTTTA-ATCAACTGAA-ATATTATAAA-GGGCCCTCTT 15451 TTGGTATAAG-CATGGCATTT-GTTACAATGA-GCAATATTGC-CAGTGAACCC ]5501 TGGCATGTTA-GTGATATTCC-CAGAGAACTC-CCAAGGGCTA-GTCAGAAACA 15551 AGCCTGAGAA-CCTCTGTTTC-CAAATACTGC-TGCTAAGATA-AGCAGAAAGA 15601 AGTGGGCTCG-TGACCAGTAC-TGGATAATCT-CTCTCTTAGT-GACATCCAAA 15651 A GCCCTA TTT-TCTTCTA TCC-TGCTTTCTTC-TTTA TCTGAA-CAATTTAATG 15701 TAGGTATATC-AAACAGGAAA-ACTATCACCT-CTTTTTATAT-TCATAACTTG 15751 GATCTATAAT-ATTTGACAAG-GAAAAATTTT-ATGAAACAGT-TGACCCATTG 15801 GCTTGTAATT-GCCAAAAGGG-TCAATGTAGT-ATTACTTAGA-ATAAGACTAA 15851 GTGGTTGTAT-CTAGGACAGC-CAGTCTAGTT-GGTAGCCTTG-GAGTTATGCC

107

15901 AGCCTGAACT-CAAATTTCTA-CTCTCCTAGA-TAATTGTGGC-CTTGGGCATA 15951 GTATTAAAAG-TTCTTTGAGC-TCCAGTTCTT-TTCACTGTGA-AGTTGGCATA 16001 ATATTACCAG-CTATACAAGT-CCTGGAAAGA-TTGGATTGCT-TGTGGGTCTT 16051 TTATCCTAGG-GCCCTAAGGT-AGCCTGAGAT-CTACATGGAT-TCATCAGTCT 16101 GGATTATTCT-GACCTAAGAT-TATTCTTTTC-TAAACCTAAA-GGATTCAGTT 16151 AAAATCAGAA-AGGTATTGCA-GTGTTATTGT-ACTACTTAAT-ATATTAGCTC 16201 TTTGGGCGAT-CTGTACATGG-TGACCTTCAT-TGTTTTAATC-CTGAAGGTGG 16251 CTTTACTTCT-TGTTCAGTAG-TAAGAGTTCA-AACCTTTTCA-CTGATGAGAC 16301 AGTTGGGATT-TCTGTGGTAG-AAATAGACCA-GCGTTCAGAG-,TTGATTTTTG 16351 CTAAGGAAAT-CTTTCTGCGG-CACTTGGCTT-GTTGGGAGGT-CTTTGAGAAT 16401 AAGATCACAT-GGTCAGTCCA-TCAAAGAACA-GTATGATATG-ATAACAGGAG 16451 CACTTATGAA-GTGACACAGC-TTCTCTGGGT-TTTAATGTCT-TGCTTGGAAA 16501 GTCAGAATAT-TAATTTTGCC-TGCTCATAGT-CAGAGAACTA-GTTCCAGGTG ]6551 GCTGTACTGA-AGTTCTTTTC-AACTCTATGA-GCTATGATTC-TATGATTTAT ]6601 TAAAAAAAAA-AAAAAAAGGA-ATAGGACAGG-GGTGAAGGGA-TACTGGCCGA ]6651 GCACAGTCTC-AGTAATTGAT-TTGAGCTGTC-ATGAAATGGA-ATTAAAACAT 16701 TACTTCATGA-TAAAAGGCAA-GTAGTCCTTT-AATTTTATTA-ATCTTTTGCC 16751 TACTTTTAAG-TATATTTTGA-TTTTTCTGAT-TTGGAAAGTA-ACATGAGTGT ]680] AAAAATTCAA-ATAATAGAAT-ACATAAAGGG-AAAGATAGGA-CTGATTTTAA 16851 ATATGAAATG-TGTAGATGGG-ATTCCCTTGA-CATTTAAAAG-TATTGGGATA ]690] A TCAAGTA GA-A TTTCTTGTT-GA TAAA TTCA-TTAGTA TCAG-ATTTGAACAA 1695] TAGAAGTATT-GTTGTAAAGA-AAGTTCATTC-TTTGGGCAG1-GTTACTCATA 1700] ATCCTTCAAT-GAATTACTGA-TGAAATTTTG-ATAACTTTGA-CAATAAGTTT 1705] CCATTGGAGC-TTCTTTCTTT-CATTTTGTAG- 17080

EXON-7

17081 ACTGACCAGG-GCA TCAAAAA 1710] CCTTTCTGTT -GAAGATGCGG-CGAGACTTTC-CCAGGAAGA T -CCTGACT A TG 17151 GCATCCGGGA-TCTTTTTAAC-GCCA TTGCCA-CAGGAAAGT A-CCCCTCCTGG 1720] ACTTTTTACA-TCCAGGTCAT-GACATTTAAT-CAGGCAGAAA-CTTTTCCATT 17251 TAATCCATTC-GATCTCACCA-AG-17272

INTRON-7

17273 GTGAGTCA-GTAAACAACTATATTGTTTT 1730] CTTTTTTAAG-TCTCTTCTTA-CCTAATTAGA-AAAAAAATCT-AGTCAAACAA 17351 TTATAATAAT-GGGGAAGTCA-TATACAAAAT-ACAGAGGGTA-CCACTTCAGA 17401 GTGTCCTAAG-CTGTGAATGA-GTGCTTACCA-GCATCTTACT-TCCACGTTCC 1745] TGTTTGTCAT-TTCATTGAGT-ATGTGTATGT-GGCTTCATAT-ATTGTTATTA 17501 ACAGGGAACA-GATTATGAAA-AGCTGATGTA-CTTTTTCCTG-GGGAAACTGT 1755] CAGTATTTAC-CACTTACTAT-TGTGAAAGAT-TTAACTAAGG-CACTCATCTT 1760] AAATTCTTAT-GTTTTATTGG-A TTTAAAAA T- TA TTTTCATT-GGCTTGA TTG 17651 TATTTGAAAT-CTGGTATTTT-TGTGGGTAGC-TTTGATTTCC-TTCAGTTGAT 17701 TGCCTGGTAA _ TTGTGAA TA T-GACA TCA TTT- TCA GG- ] 7735

EXON-8

17736 TTTGG-CCTCACAAGG 1775] ACT ACCCTCT -CATCCCAGTT -GGT AAACTGG-TCTT AAACCG-GAA TCCAGTT 17801 AA TT ACTTTG-CTGAGGTTGA-ACAGA T AGCC-TTCGACCCAA-GCAACATGCC 1785] ACCTGGCA TT -GAGGCCAGTC-CTGACAAAA T -GCTTCAG- 17887

108

INTRON-8

17888 GTG-AGCCTGGTGG 17901 ATTGAGATGT-TCTGAGGCAG-GTGTCCATGT-GAGCATGCAC-ACACAAAATA . 17951 TGCAGCTTGG-CATGATCTTT-ATGTGAGGAA-TTAACAAGAA-CATTACTTAA 18001 ACTTTAATCT-GGGTGCTTGG-TTACCTTGTG-GGATTCACTG-AGGTGAACTA 18051 TTCTTCAATG-AGCATTCCTT-GAGTAAACCA-AGTATAAACA-AAAGTCCATG 18101 GTAAGATCCC-TACATATGTG-AAGACAAGAA-TACTTACTCT-CTTAATTAAA 18151 AAAAAAAGAC-ATAATAGAAA-TACCTTAAGT-ATTGATAGAG-TGAAGCATGG 18201 TTTGTTCTGT-CTGTAGCTGA-AGTATGGTTA-ATTAATTATA-ATACCTTGGT ]825] AAGCCTAACT-TTATTTTCTT-GTTCTTTTTT-TTTTTTTTTT-TTTTTTTTTT 18301 GTGA CA GA GT-CTTGCTCTGT-CGCCCA GGCT-GGA GTGCA GT-GGCATGA TCT 18351 CGGCTCA CTG-CAA CCTCCGC-CTCCCA GGTT-CAA GCGATCC-TCCTGCCTCA 18401 GCCTCTTGAT-TAGCTACAGG-CGCCCGCCAC-CATGCCCAGC-TAATTTTTGT 18451 ATTTTTAGTA-GAGACGGGGT-TTCACCCTGT-TGGCCAGGCT-GGTCTCAAAC 18501 .TCCTGA CCTC-AA GTGATCTG-CCTGCCTCCG-CCTCCCAAA G-TGCTGGATTA 18551 TA GGCGTGA G-CCA CCGTGGC-TGGCCTCA TT- TTCTGTTTCA -TGGTGA TGCT 18601 TGAATTTTTC-CATTTGTAAA-AAGAGATCTA-GGGATGATCT-TTATGAACTA 18651 CATGTATGCT-GCCAGTGATA-AAAGCAGTGG-ATTAACCATT-CACCTTGCTA ]8701 A TGTTAAGCC-ATCAGTATGT-TTTACATCAC-TTTTTAATA T-CTCTTTCAAG ]8751 AGTACCAAGA-GTGAAAAATT-GTACTTTGGA-TCAGAATCAG-TAAGAAAATA 18801 ATTGGCTTAA-TAATTACTGT-ATAAATCAAT-CTTTTGTGGT-TTTAGACTGT 18851 GACCTTGAAA-CAAAGGTTAA-AGATTGTACC-CTAAATCAGA-CCACAGCGAC 1890] TGAAGGTTAC-TTCTTATGTA-AGTATCTGAT-TCCAGTTCAG-GTTTCAGTCT 1895] GCATGGAGGA-CAAGCTAAGA-TTCCGTTTTT-AAAAAATAAC-TTTTTTGCTT ]900] ATGACATTGG-GGAACATCTG-AGGCTTTTAT-AGAAAGTAAG-TTTTTCATTA 1905] GTTTTTAGTC-CAATTCAACT-GTTACAAATT-GAGTACCTGT-CTGTTGTGTA 19]01 TGGTGGACTG-TCTTGGGTGC-CATAATGTAA-GGCAGAATGC-CATGGTGATC ]9151 CAGAAAGCAA-AATTTTGTCT-GATAGGAGGT-CAGCCACGAA-GTTTCATGAA 1920] CGAGGTAGCA-TTTGAGATTG-TTTTGAAGAA-TAGATAGGAT-TTTGATTTTT ]9251 AGTAGGTAAA-ATGCGGCAGG-AGAAGGACAT-GAGTATAGGC-ACAAAGGTGG ]9301 GACATGTTAG-GTGTGTTGAA-ACTATAAACA-GTCACTCTCT-CCTGAATGAG . 19351 AAGAATAGAG-TTTGGGTAGG-TTCATTGAGT-ATATGTCAGA-GGGGACCTTA ] 940] AA TGCTTGA G-TA GGA GTGAA -AA GCTTTCTT-CA GTTTTGA G-AA GTGTGGTC 19451 TGGGATATAT-TGAGTAGAAT-CACTCCTCTT-GGTGATAAAT-AGAAAAAGCG 1950] ACAACTAGGG-ATTGGGAATA-GCAAAAGGAA-AGTCAGGCAG-TTCTCAGAGG 19551 AAAAGCAGAA-GTTTGCATTG-AAACCAGGGA-GTAGAGGAAG-CCAAAACAAG ] 9601 GTAA TCCTGG-GCCCT AAAA C-TCCCTA CCTG-GTGGCTGAA C-TGTGA GA GGA 19651 TGA GGCT AA T-GGGA TTTGCC-AA GGCATGAA -ATTGTCA TGG-GCA GA GCA GA 19701 GGCTGCATAA-CCCTGGTTAC-CCAGGGAGGG-AACGGATTGA-GGAATACAAG 19751 GTTACCTAAA-CTCTTTTCAC-AAGAATCCAA-GTCACCATGG-GTCTCTGGAA 19801 CCA CA GTGGG-A CCGTGA GGC-AGTCA GCA GC-A CTGA GTCA T-A TAA TTTGAA 19851 GAACAATGAA-GATTTGAATG-GAGAACTAGG-CCCCCGGGAA-AAGGACTGCA 19901 AAGCAAATAC-GTATTCTCTA-CATTCCTAAG-AAAGCAAATG-TCTAAGGCAG 1995] CTATTCAAAC-AGTGGGGAAG-AGAGTTCTGA-AAAAGGATGA-CAAGTAGAAA 20001 GTAATATAAT-TTCTGTTAGT-ATTAATTTTA-GTTCTGGCAA-ATATA TCTAT 20051 TTTAAATTCA-GTGTACTCTT-TATAGGTTGT-TTTTTTTTTA-AATGAGTTTT 20101 AGAAACTGTT-CGAAAGAGCT-TTCATAAGTT-TGTCGAGTTA-TTGTTTCTAG 20151 CCTAGCTTTC-CCCCATCCTT-CTTAGGTCAT-TTAGCTATCA-GTTCCAATAC

. 20201 CATGGAGCCT-GTGAGGAGCC-ATACAGTTGG-GGAAGGACTG-TTGTACTCAT 20251 TTAGCCATTT-GGTGACCATT-AAGGAATGAT-TTGAGATTTT-TTGAGTAGGT 20301 GAGTAGGGAA-TATGTAGATT-GTCTTGTTGG-ACAGGAAGTG-GAAAGCCAGT

109

20351 TAGGGGGGCT-TTGGGGTTAT-TCCTGCTGAG-AGCTCATGAG-TATTGTAGCC 20401 TAGGCAGTGG-CGGTTGATAT-ATTAATGGGC-AGTGTTTACA-GGTGCCTTTT 20451 AACAAGGTCA-TGTTATTAAG-TTTTATAACT-TTATCCAAAG-TGGTGAGCCA 20501 CACCATGGTG-AAATGGACAA-ATAATATAAT-ACAAGTCATA-GAGAGACTGT 20551 CCTGTCCCCT-GA GTA CCTGA -GGA CA CA GGT-GCA GCCTTTC-TTGCTCTCAT 20601 TCTCTGCA TT- TTGCCAA GA G-TTGGA GAA GT-TGGGCCGGTT-GCTTGGGTGG 20651 GAAA GGCTTT-CCCA CTCA CG-CA GGTCCA GC-AA GGGA G TTC-A GGCA CA GGG 20701 CCTTGGGGAA:..GGCCTAGATT-CAAGCTGGTG-TCAGGGTATG-GCCTCACTGT 20751 GCCCA TTTCC-CAA CCTTTGT-TGGTCTCCA C-CCA TA GGTGG-GGTAA GGTTG 20801 CCTGATAAAC-ACAGGGTGAC-ACAAAATCAG-AATTAGGTGA-TAGAGGCTAC 20851 A TCCA GGA GC-TGCCCATGGC-A GGA TTGTA T-CTCCTA TCCT-GTTGATGGA G 20901 TCAAGAGCAC-AACTTTTTGA-GCCAAAGGAG-ACAACCAGCT-TCCAACCTAT 2095] AGCTGAGTTT-TGGTCATGGC-CGCATGGCTA-GTCATCTAAA-TATGACCTTA 2]001 GGCTATTTGA-AATGATGATA-AGAGGGAGTC-ATTCAGCCAA-AAGCAAAATA 21051 TTGACAGAAC-ACTGGGACTG-GATTAAGTCT-GTTGGTATCA-GTGATTTGGA 2] 101 ACAAAGTTAT-TGCTTAAGTT-GCCCTATTCA-ATTTGGTTTT-TATTTTGCCT 21151 CATAGAATTA-GGGATATAAA-AATACTTTTA-AGGTTCAAGG-CCAATGATAA 21201 ATTCAATGGA-AGAAAAATTG-CTCATAGAAA-AGGAGTATGA-ATAATGAGAA 21251 TAGTTCAATA-ATTAGATATT-AAGATTAATG-CAGAATTTAT-CATAAAGCTT 21301 TTGTTTGAGC-ATTAACTGAA-AGAAATTTCA-AGATGCTTGC-CATCTTTGCC 21351 TTGATTAACA-TGGAACATAA-TTTAATCTTA-GATTGATTAC-CTTTGGCATT 21401 GTAGGGCTTT-CATTTTGAAC-CACAGATTTT-TTGTTATTGT-TGTTTATATC 21451 TAGAAAGTCT-CAGAGCTCAA-AGTGTTTCTG-AGATAATTCA-GAAGGCAGCA 21501 TGGGAGTGGG-CGGTACTTTT-TTTTTTTTTT-TTTTTTTTTT-TCTGATCTTG 21551 CTTTGTTGCC-CAGGCTGGAT-TGCAGTGACA-CGATTGCAGC-TCACTGCTGC 21601 CTCAATCCCC-TGGGCCAA GC-A GTCCTCCCA -CTTCA GCCTG-TTGGA GTA GC 2165] TGGGACTACA-GGCACATGCC-ACCATGCTCG-GCTAATGTTT-TAATTTTTTT 2] 70 1 TTTTGTAGAG-ACAGGTCTCG-CTGTGTTGCC .. CAGGCTGGTC-TCAAACTCCT 21751 GGGCCCAAGC-GATCCTCTCA-CCTTGGCCTT-CCAGAGTGCT-GGGATTATAA 21801 TAGGCATGGG-CCACTGTGCC-CAGTTGGAAG-TGCTTATTTG-AAGAATTTCC 21851 CATGCTGTTG-GTTTTGTAGA-AATGTGTTGC-TTTTTGTAAA-GAGCAAATGA 21901 TTGGTTCCTT-CCCTGGAGTG-GGGGAATGAG-GAGGAATAGA-ATTAATTCAA 21951 TATTTCAGTT-AGTTAACGTT-CTAGCACATT-TATTTTATAA-TGCAATACTT 22001 CCTTGGGAAT-AGGAAGTAAT-ACTGTATAAG-ACAAGACACT-AACTTGTTAT 22051 GCA GAA GGAA -AAAAAAAA GA _ TA TT A TT A CC-AAAAA CA GAT-GTGAA GATTT 22101 ATGGTTGGCC-AGAGGGCCTG-GGAAATTCAG-AACTGTTCAG-TTAGGGAGAA 22151 CTCGTTTCAT-AAGAGTAGAG-GCTTCACTCT-TAAGTAGCGG-GAAAGGCAGA 22201 ATTTTGTGGT-AACCATGTAC-AGAGTGCTTT-GTACTTCAAA-TTTCAGAATG 22251 AAGTTTACAG-CCCATTCCTA-TGTTATATGT-TACTGCCCCT-AGTCAGTGTC 22301 TA TTGTA TTT-ATTACTGCAG- 22320

EXON-9

22321 GGCCGCCTTT -TTGCCT A TCC-TGACACTCAC 22351 CGCCA TCGCC-TGGGACCCAA-TT A TCTTCA T -AT ACCTGTGA-ACTGTCCCT A 22401 CCGTGCTCGA-GTGGCCAACT -ACCAGCGTGA-CGGCCCGA TG-TGCA TGCAGG 22451 ACAA TCAGG- 22459

INTRON-9

22460 G-TAGGCCTAAA-GACGTTGGGC-TCCCCCTGCG-TGGGCAGAGG 22501 GCA CG TG GA G-CA GA TGGGCG-GGA GGCCA GG-CCA GTGGCTC-TCAA GCTGGC 22551 CCCGCA GGA C-CTCCTGCTTG-GTAAA GGTGC-TCCCCA GGTG-CTGCTAA CTG

110

22601 GGCGCTTTTT-TGCCCAGCAG-TGAAGATTTA-GGCTGCCTGA-GGACTCTCCA .22651 TGCTTTTTAT-CTATTTTATA-TATTTTATTG-AGCATTTCCA-CCTCAGATGT 22701 TACTTGTATC-CAGTAGTTAA-AAGCAGGGAG-AAAGATCTTT-CACACTGGCT 22751 AGAGTACAGT-AACATCCAGC-TTGGGAGTTA-GGTTTTGAAG-ACACTTCACC 22801 AAAATGGACA-ATTCCTTAAC-TCACTGTGAA-ATCACCAAGA-CTTAGACCCT 22851 TGGAA GTGCG-AAA GCCAA GA -GTTGGA GTCT-TCTGTTTCTC- TTTGCA GTTC 22901 TGCTGTGGCC-CTGGA GGA GC-A GGTCTA GCT-A GAA TTTGGA -GGGGA GCTA G 22951 AATTAGCAGG-GAAGGCTGGG-GAGAAGAGAG-TAGGGGAGGC-AGAGCAAGTC 23001 AAAGGATTCC-CCTCCCTTCA-TTTTTTCCTA-AGTGAATAAA-GTTAGGTGAA 23051 TCAACTTACC-ACTTTTTGTT-TTTTGGAACT-CATTTATCAA-ACTTAGGATC 23101 TTTTTCTTTT-AACTACTTTT- TTTTTGGTGT-CGTATACAAA-CAGCCTCTGG 23151 TTCTAATTAC- TTTTTCTAAT-AAGTCAAGCA-GAATGCTTGA-TTAAAGTTTT 23201 TTCCTTTTAC-TATTCCACAG-TTTAATATAG-ATCTTAGTTA-TTTTCTTTTC 23251 CCATTTAGGA-CACGTGTTTT-AGTAATATAG-ACTGCATGCA-TTGATCCCTT 23301 TAGAAATTTT-ACTGATGATT-TATATTTATA-GCCACAGATG-TCTATATTCA 23351 AACAAAGTTT-ATTTTTCTAT-GATAAAAATA-ATACAAGTGT-CCTAAAGAAA 23401 A TTTGGAATA-TA TAGGAAAA-AGAAGAAAAA-AGAAAAATTC-CCATA TAGTC 23451 CCAACACCCA-AAGGTCATAG-CTATTACATT-TTGCTATATT-TATTTATCTA 23501 TTTATTTATT-TTTTAGACAG-AGTCTCACTC-TGTTGCCCAG-GCTGGAGTGC 23551 AGTGCATGAT-CTTGGCTCAC-TGCAGCCTCT-GCCTCTGGGT-TCAAGAGATT 23601 CTCATGCCTC-A GCCTCCCGA -GTA GCTGGAA -GTA TA GGA GT-GTGCCA CCA C 23651 GCCAGCTAAT-TTTTGTATTT-TTAGTAGAGA-CAGGGTTTCA-TTGGCCAGGC 23701 TGGTCCTGAA -CTCTTGA CCT-CAGGTGA CCC-A CCCA CTTTG-GCCCCCCAAA 23751 GTGCTGA GAT-TA CA GGCATG-A GCCA CCG·CG-CCTGGCTTGA -TTGTAAAA GT 23801 AGAGCATTTG-GGCTGTGACC-CTGAAGCTCA-GTGAAAGAGC-TTAATTGTTC 23851 CTGTGGTCA G-TGCTTTAAA G-A CAA CT A CCA -CTTTGA GT AA -A GGTCA GGGC 23901 TCATTTGGAA-GTAGGATTTT-AAAAATTAAC-TAGGCACATT-TCAAAGAGCT 23951 AGTTCTTAAT-GAAGAAAACA-CTGTGATGGC-TGGTTTTTGG-AGCATTTTGC 24001 TTTTCATGTA-GATGTGACTG-ATCTGTTGAA-TTTGTTGAGT-GAATAATTGG 24051 GCTCTATAAT-AGTATGGTGT-TCTTCCTTCC-CCTACACACA-CACTTGGTGT 24101 CTTGATGAAT-GTCATACATA-GGCACCTCTT-GATTATCCAC-TGTGGATAAT 24] 51 CTA TTA CGGC-A GTGA GCTGG-CTAAAA TTCC-AA CCCCA GA T- TGGTTTGCTC 2420] AAA CCA CTTA -A TA TG TT TCT-GGGCCA CTCC- TGTTTA GGCA -GTGTGTGCTC 2425] GGGTAATGAA-AGCTTCTGCT-AATGTCAGCC-AAAGCATAGT-TGAGAAAATA 24301 AATATGCTAA-AACGAAAAAA-AAGCCTTATA-ATTTATTTCA-AAAGTCATAG 24351 AAAATATTTT-GATTGTATTT-GTCACTGTTT-CTTATAAGTC-CAGATAAGTA 2440] AGTGCTGATA-TACAATTACC-ACATTTTAAA-AAATTCTTTG-TTTATTGGTC 24451 TG TG GA GGGT-ATGAAA GTGA -A GCTA CAATG-GAA CAAA GTC-A TCATTGTCA 24501 GTAAAGGAGA-GATACCCTGA-GAATCCTAAA-AACACTTTAC-GGAATAGCAA 2455] AGTAGAGTTC-TGTAATGGAA-ATACTGTATA-TGCTGGGCTG-GAGGAGACAA 24601 AAAACCCAGA-GTTCCAACCC-CATATCTACC~ACTGGCTACC-GTGTGACCTT 24651 GCAGCAGTCA-GGTCCCATCA-CAGAGCTCCA-TGCTTGTGTC-TGTAGATTCA 24701 AGGAGCAGAA-CCAGAACTTT-CAGATTTCCC-TCAAGAATTT-TGTGATGCAG 24751 TGTTTGAATT-GAGCCCAAGT-CCAAATGACA-CAATTTTTCA-AGTCAATTTT 24801 GAAA TG TG TC- TTTGA GCCTC-A TCCCT A TA T-GGTGGCCAAA _ TCAA GCCTGT 24851 A TAAA CTTCT-A CATGTGCTG- TA CCCCTCA G-AA GA CTTGA T-A GATGA GA CC 24901 CTTTGAA GTG-TCAAAA GGGA -CTTTGA GA TT-CA TTCA T AAA -GTGCGGCA GC 2495] CTGTGCAAGC-ATTTAGCAGA-TGGCAGCGTT-CCCTAAGAAT-CTTCATACTA 25001 CCTGTAGCTA-AATGCGGGAA-ATTAAAAATA-ATATGTGTGC-GTTGTGTTTA 25051 TATCTGTGTA-TGTGTACGTG-TGTATTTGAT-TACCACTTGA-ATTTATTTCT 25]01 CATCACAGTG-ATTATTTGCA-GACTTACTTG-ACTTTTCTTA-TTCCTAAGTG 25151 CA TCTGGGTG-GTTTTGTTTT-GAA- 25173

111

EXON-IO

25174 GGTGGTG-CTCCAAATT A-CT ACCCCAAC 25201 AGCTTTGGTG-CTCCGGAACA-ACAGCCTTCT -GCCCTGGAGC-ACAGCA TCCA 25251 ATATTCTGGA-GAAGTGCGGA-GATTCAACAC-TGCCAATGAT-GATAACGTTA 25301 CTCAG-25305

INTRON-IO

25306 GTAA T-GACTTCTCTT-TA TCTGCTA T-GGAAGTCACC-TGCTAA TTCT 25351 CCTTGTCAA T-GCCTGCATAA -TCCCCCTCCC- TGCAAA TGCC-CCAA CTGTCT 25401 GATGTATCTT-AAATTGAATT-CAAGGAAGAC-TCATCTGTAA-TAGTAAATTG 25451 GGCCCCTTAC-TGGGTGGAGT-TGAAGGGTTA-TATTACTCTG-GTCTTTTGCC 25501 TCAAAGCATG-CAGACTCCGT-CTCAGTTTCT-TCAAACTTTA-TTGAAGGGAT 25551 ATGGGGAGGG-GGCATTGGGG-AAACAGTTAT-CTCATGGGAA-TTTAAGAAAT 25601 GAGCATGTAC-AGCTTACGTG-GAGACAAATC-TAAGAATCTG-GGCAGGACAG 25651 TCCAGGTTCA -A GGA CTA GAA -CT A GA GA TCC-AAAA TA GCTC-CA GGA GCCTC 25701 GGCCA CAA GA -GTGTGGGCGT-TTCCACTGCA -GGGCTCGTCC-TTCA CGTGGC 25751 TTATTCTCCA-TCTGTCTGCT-TCTGCTTGCC-AATGCTAATT-GATTATTTTT 25801 ACCACAGCTT-CCTGTTTTCT-CCTATCTGCG-TCAGAGCTTC-TGTTTTATCA 25851 TGGTTGTGGC- TCTTCCA CAA -CAATGGAAAA -CTCTCCTTTA _ TGGCGTCTTT 25901 CTCCATTATT-ACTTTTTTTT-TTTGGACCAC-CTTTTACTCC-TTCTCTCAAC 25951 A TG TCTA TCT-CTAGATTCTA-GAGAGATGGA-ATCCTATTGA-CTTGGCTAAT 26001 CTTTTCA CCC-CA GGTTGCA C-CA TTGGCCTT-GGTCA GGCTC- TA GTTAA CCG 26051 CCCCAGGGCA -AATGCTCA TC-CTCTTTCCA G-TTGCCTATGG-CTGCCCT AA G 26101 AGCTGTTTCA-GCACATGCTA-TGAAGGAGGC-CCTTGGACTT-GGAAGGGCTG 26151 TA GGTGGGCA -GCTGCCTCCT-TAA TG TG TCC-A GTGCAA CTT-A TA CCA CA CA 26201 CAATAAAATA-ATAAAGTTAA-AGGTATAGTT-GTTCTAGAGC-TCTGTTTGAG 26251 CAGTTAGTGT-TAAACTTAGT-ATTTAAATTA-GATTAGAACC-TATTTCTAGT 26301 TTCTCAGTTT-GTGAATGTGG-GTTCCAAGTA-AAAAATACTT-ATACATGAAT 26351 TAATTCGCTG-TGAGGATATC-TTTGCTTGAA-AAGCATTTAC-GTATATACAT 26401ATATACGTAT-ATATAAAAAA-GAAATTACAT-TATTGTGGGA-TATAAACCAT 26451 TTTTAGATGA-GCTTAAAACA-TTTCCTGCAT-ACCTTTTATG-TAACTGCATT 26501 ATTTTTGGTG-ATGCAGATGA-CACCAAGTAT-ATTACAGTAC-ATTCCCTGCC 26551 TCTCAAAGAA-TTTTGCCTAT-GTGAGGTCAA-TACAGGTATT-AAACCAGCTC 26601 ATACAACCCC-TGCAAAAATT-AATGAGGCTA-TTGCTTACAC-ATGAAAATTT 26651 A TTA TG TG CT-CA TTCTTA TT-GAGAGAA TTT-CTTA TCACTA-TA TAGGATAT 26701 AGTGTGGTTT-TTAAGTAATC-ACAATACTAT-TGTTATAGAT-TCATAGCATA 26751 ATTCTGTGAT-GATGTATCAC-ATGGGAAATA-CATAAGAAGG-TCCAGATTTA 26801 TTCTCTTAAA-AATGATTCAC-TTGGGCTTGC-ATCTGTCTAT-GGCAGACTAG 26851 CTTGTATCTT-ACTTACCGTT-TCATGGAGAA-CATTGAAAAG-GTAGGTAAAA 26901 TACATAAAGC-ACTTGTTTGA-AGGCTTTGGA-GAGCTAACAA-AGCAACAAGG 26951 A TTTAA GGGA -CCAA GA TCAA -A GA TGGAAAA -GAA GTGCA GG-AAAAAAAA GT 27001 GCAGTGAAGT-AAGCTTGACA-TTTGGTTTCC-TTTCCTCTTA-AGGTATTTGT 27051 TAATTTGTAA-GCACTGGTCC-AGAAGCTGAG-TGGTGTTTAC-AGCAGTCTCA 27101 TGAGTCTGAA-GGGACAAAAA-TTGGAATTCA-AGGTCTGCTA-AGAAGCAGAG 27151 CCTCTAGTTA-TACTCAAGGC-TTTCAGTTGA-AATCCTTAAA-GGGCCATGCC 27201 TAGGAATAAG-GGCÂAACATG-AAATAAACTT-GCTTTCACAA-TACAGGAAAC

. 27251 ATAACTTTGC-CTCTGCTCAG-TCTCAGATTG-GATTAAGGTG-ATCTCTTTCT 27301 ACGCCATCTG-TCAGAAGCAA-ACAAAATTTT-CTTTGGTGGA-AAATAGAAAC 27351 TCAAATGATT-CTAGACCTTT-TTATATGGAA-ATGTTCAGCA-TTCAACAATA 27401 AATGACCAGG-CACCTAACAC-ATTAAGACCT-TATGACTGAA-AATCAAGAGG

112

27451 GAGAAAAAAC-CCCCTACAAA-CTGACAGTAG-AAACAAACCT-AATGGAGGCT 27501 TAAATAATGG-AACTGTCAGA-TACAGGTTTT-AAAATGACTG-ATTAATAGGT 27551 TTGA GAAAAT-A GATGGGCTG-GGCGCGGTGG-CTCA CGCCTG-T AATCCCA GC 27601 A CTTTGGGA G-GCTGA GGTGG-GCGGA TCA CG-A GGTCA GGA G-ATCAA GA CCA 27651 TCCTGGCTAA-CACGGTGAAA-CCCCGTCTCT-ACTAAAAATA-CAAAAAAAAA 27701 ATTAGCCGGG-CGTGGTGGCG-GGCGCCTGTA-GTCCCAGCTA-CTCAGGAGGC 27751 TGA GGCA GGA -GAATGGCGTG-AA CCCGGGA G-GCGGA GCTTG-CA GTGA GCCG 27801 A GA TCGCGCC-A CTGCA CTCC-A GCCTGGGCG-A CA GA GCGA G-A CTCCGTCTC 27851 AAAAAAAAAA -AAAAAAAAAA -AAAA GAAAA T-A GA TGA CTGC-TTGAA GAA TT 27901 TAGTAAGAGA-ACTTTAAGCT-ATAGAAAAAG-AGTTGAATGG-ACATAACTAG 2795] AAAATGTAAC-AACTGAAATT-AGAATTTAAT-AGATGGCTTT-TAAAGGAGGT 2800] TAACATGGCT-GAAGAGAAGA-TTAGTGAATT-GGAAGATAGA-ACAATAGATG 28051 TTATCAAGAC-TACTTCATCT-GATGAGTCAT-AGTGAAAAAT-TAGAATACAT 28]01 ACAAGGAAAT-CCAATGAGAA-ATTACACATG-CAATAATAGA-TGGAAGAATC 28]5] ATAGACATGA-TAATTGGAAA-GAGGCTTTAA-AATAAACATA-CATATTTAAA 28201 GAGATGCAAA-AAAGGAATA'T-TATTAAGACA-ATAGGATATG-AGGAGAAAAA 28251 CAGGTAGATT-TGAAAAATAA-CCAAATAATA-TTTTCTAGAA-ACAAAAATTA 28301 CAATCTGTGA-AATAAAAAGT-CAACAGATAT-AGTGACCCAG-TCGATGTTTT 28351 CACGCAATAT-GTCAAATACA-GCTGAAGAGA-GAATTAGTGA-ATTGGAGATA 28401 GGTCTGAGGA-AATCCCCAGG-ATATAGTACT-TTGATTAGAT-TGTGTTAATC 2845] GAAAATGTCT-GATTAACTTT-GGTATCAGGT-TTAAACTTTA-CTCAAAAATT 28501 TAAAAACATA-ATTATAGCCT-GATATTTGAT-GACTTATGGA-AATGATGCAT 28551 CTCTTAATAT-TTTATGAAGT-TGATACTTTG-GATAATTGGA-TATTATTGGA 28601 CTTCATAAAC-ATTAATAGAA-CAGCACGTAG-AACAGAGTCT-CGCACATTAT 28651 AGATACTCAA-TATTTGTTGA-ATGAGTGGAA-TGAATGAATG-AAATGTAAGA 28701 A TAAAA TCAT-A GCTA CAA CC-TTTTGATTTC-A GAA TGGGGC-A GA GGCTGCT 2875] CGGATTCACA-TATCTGATAC-TAAGCTCCTA-TTTTTCATTT-TAATTTATGG 28801 ATATTTATTT-TAGAGGTCAA-CCCAATAATC-TAGCAAAATA-TCACTATTAA 28851 TATGTCTTGC-TTAAGAAATA-TTGGCTTCTG-AATAACTACA-GATACACATG 28901 TATAAATGAG-GTAGTTTTTT-AGATGTCTAT-ATATAGATAT-AATTATCTAT 2895] A TA TCAAA TT-A TA TCTCTAG-CTAAATTAGT-TAATTTTCCT-CCATGGTTCT 29001 GGGAGAATTG-AACAAAGGTA-TTGTGCTAAG-TTTACATTCA-AAGGCAGCTT 29051 GCACATTTTA-GACTTGTCAG-TATTAAGAAT-GTGGTGAGGT-TTTAAATTGT 2910] AGATCTATTT-ATAAGAGATT-TATAGCAGTT-ACTATAAAGG-ATATTATTAG 2915] AAAGCAGGTA-TGAGCTATTA-ACAAATGAAT-TTTACTTATT-TTGCTTAAAA 2920] CAAAAAGTGA-AGGACACAAC-CCAAATTTAA-AATTTAAAAT-TATTCTTAAC 2925] TTCTAAAGTT-TTTTTTATCA-TTGATTTCCT-AAGTGTTGTA-GTAGGTGAAT 29301 TTTGTTGGTG-ATAAA CTGGT-GA TTCAA TTC- TC TG CA CTTG-CTCTTTTCTC 2935] TGAGCAGG- 29358

EXON-ll

29359 TG-CGGGCA TTCT -ATGTGAACGT -GCTGAA TGAG-GAACAGAGGA 29401 AACGTCTGTG-TGAGAACA TT -GCCGGCCACC-TGAAGGA TGC-ACAAATTTTC 29451 A TCCAGAAGA-AAGCG-29465

INTRON-ll

29466 GTGAG-TCTTTGTAAG-CTGAAGGGTG-TCCTCTGCTG 2950] GCTAA GGAA G-A CA GTGCA GC-TGTGTGGGA G-AA CCCTAAAA -A GAAA GTGCC 29551 A TTTCTGTTT-TACTTGACTT-AAGAGAACTT-AAAAAAAAAA-AAATAAACTA

113

2960] GTAATCCCCA-ACCAACTTCT-GATTATTTTC-TTTCCATGTT-TTATCTGGTC 2965] TGGCA TA TCC-A TCGTCCTTA -GCTGTTTGTC-CA GTGTGTA C-TAA TTTA GTT 2970] GTGTTCAGAC-TGAATTTTGT-CCTATTCTGT-TTAATTCAGC-TGCAGCCAAG 2975] TTCTGTGCAA-GATAGTAAAT-GTGCAATATC-AAAATGTGAG-TCCTGCTGCA 2980] ATTCTACTTA-AACTTTGGAT-GATAATAAAT-ATATCAGCCG-GTGTGATGGC 29851 A TG CA CCTGT-A GTCCTA GCT-ACTTA GGAGG-TTGA GA TGGG-AGGA TCGCTT 29901 GA GCCCA GGA -A TA CA GGGCC-A GCCTGGA CA -A CA TA GGGA G-A CCCTGTCTC 29951 TAAAATCAGT-CAATCAGTCA-ATCAGTCTGT-CTTTCTTTTT-TGCATTTTTA 30001 TGGTTTAAAA-CCTGCCTAAA-GGCTTAATGT-CATAATACCT-CGATCCTCCT 30051 TCAGATGCAG-ACTAGAAATT-TGCATGATTT-CTGGAATAAG-AACTGCAATG 30101 CTTCCAAAA G-GCA GGCTA GA -CTTTCA TGCT-AA GGTGCTGG~GGTA TTTCTG 30151 ATGGCCGCTC-A TCGA GCTGA -GTGAA GCCCT-CTCA CTTCTG-GTTTCCTGGC 30201 CTGTCCCA GA -GCTAA GCTTT-TTGCAAATCT-A GAAA TCCCC-CTTTTTCCTT 3025] GGCCCCTA GT-TGCTGCTTCT-CA GTTCCTA G-GGGCA GCTGG-GCTA GCA GCT 30301 GTCTGGGCTG-TG TCCCA GA G-CCTGGGTTCC-A GTA TCA GCA -GA GA GCTTGA 30351 CAGGCGCTCT-GTGTGGTAGG-CAGGGCAGGA-TTTATCTCCT-TTTACTGGAG 30401 AGAATGGATA-CGACAGCTTG-TAAATAGCAG-AACTGGGCTG-GAACCCTTGG 30451 CA TTC TCCTT- TCA CATATGC-TGAAA CTGTA -A GGCTTTTA T-GGGTTCCCAA 30501 TGCCCTGCCT-CCTCTTGCTG- TCCA CTGGGG-AA TTCC TG CC-TGAAGTGTGT 30551 GGAGTTGTGC-TGCATGTACC-AGTGTTCTTG-TATCCTTCAC-ATTAACTTTA 30601 GGCTGTGTCT-GGGCCCGTTT-CTCAATGTAA-ATCACTGTAA-TTTGTTAAGC 30651 GCTTACTCTG-AGGTCAGCTC-TTTTCATGCA-GTAAATGCAC-CTCACTTCTC 30701 A GCATTTTTC-TCA CA GCA TC-CTGTGA GGTA -GGTTGTGTGG-GTTTTTTTTT 30751 TTT AA GA TGG-A GTCTTGTTC-TGTCA CCC A G-GCTGGA CTGC-A GTGGCATGA 30801 TCTCGGCTCA -CTGCAA CCTC- TGCCTCCTGG-GTTCAA GA GA -TTTTCCTGCC 30851 TCA GCCTCCC-CA GTA GCTTG-GA CTA CA GGC-A TGCCCCA CC-A TGCCCGA CT 30901 AATTTTTGTG-TTTTTAGTAG-AGATGGGGTT-TTGCCATGTT-AACCAGGCTG 30951 GTCTTGAA CT-A CTGA CCTCA -GGTGATCCA C-CCATCTTGGC-CTCCCAAA GT 31001 GCTGGGA TTT-CGGGCGTGA G-CCA CTGCGCC- TGGCCTA GGT-TG TA TGGGTT 31051 TTTTTCCCCG-ACAATAAGCA-ATTCTGTAAT-TCTTTGACAG-TAACTGTGTG 31101 TCCTATAACT-CAA TTCAATT-CTAACAGTAG-CTCCTGGAGC-TAGAGTCAGA 31151 ACCCAAAGAT-TTAGGGGTCA-TTTCCCACTT-TAGATAACAA-ATGAGGTACC 31201 CTGGCTA TGC-A CA CTTCTGC-A GA TTCTGA C-TGCAAA TCAA -A CCCTTTCCT 31251 CA GGTTTGAT-AATTTGCTGG-AAA GA CTCA T-A GAA CTCA GG-AAAA TGA TTT 31301 ACTTATGATT-ACCAATTTAT-TATAAAGAAT-ACAACTCAGG-AATAGACAAA 31351 TGGAAGAGGG-GCATGGGGGA-AGGCCTCGGA-GCTTCTGTGC-CTCCCTGAGT 31401 GGA CCA CCCT-TC TA GCTCCT-GGA TG TG TGC-A CT AA TCCA G-A CA CTCCCTG 31451 ACCTTGCCAG-TTGTGGGTTT-TTCTGGAGGT-TTTATGACAT-AGGCATGATT 31501 GATGAAATTA-TTGGCTATGG-GTGATTGAAT-ACAATCTCCA-GCCCCTCTCC 31551 CATCCCTGGA-GGTTTGGGGG-TGGGGCTAGA-AGTTCT AA CC-TTCTGATCGC 31601 G TGCTTG TTC-TTCCTGGTGT-GAGCCTCCAT-CAGGAATCTA-TGTAGGCCCC 31651 CATGAATCAT-CTTAGTAGTA-TATAAAAGAC-AGTACATTCG-AAGGGTTTTA 31701 GATCTGTGTC-AGGAATGGGG-GACAAAGACC-AAATAGTATT-TTTAAAATTA 31751 TACTGATTAG-GTGTCATTTT-CTTGCGCATT-TCGGCAGAGG-GACATAAGCT 31801 CAGTAAGTTA-AGTGACCTAT-CCGAGGTTGC-TCAGCCAGTA-TATGTCAGAG 31851 TGTTCA CTGG-A CCTGCA TCT- TAA CTCTGA G-GCTGGCA TTG- TTAAA CA CCT 3190] GTAGTACTGC-CTCCTGCTGA-AACGTCTTTC-CTCCCCTATG-GAATAAACAC 31951 TGGGAAACCA-CAGTCCCTGG-GGAGTGATAT-AGTAGGGAGT-TAGAGTAATG 32001 CTTGCATTTA-TTTTCCTTTG-GCCTTAG-32027

EXON-12

32028 GTC-AAGAACTTCA-CTGAGGTCCA 32051 CCCTGACT AC-GGGAGCCACA-TCCAGGCTCT -TCTGGACAAG-T ACAATGCTG

114

32101 AGAAGCCTAA-G-32111

INTRON-12

32112 GTAAGCTGG-GAGCAGCCTG-GCCATGCAGA-GGCTGTGTGT 32151 GCTGGGTTGG-AGTAGGCATG-ACTTAGTTAC-CACTTAGCAT-TACAGTCTGC 32201 A GGGGCCATT-A CCTGCCA CT-GTTA GA TTTC- TT A GGCA GCT-GTGCA GAAAT 32251 TCATTTGAGA-GATAAAGAAT-TCACTGGCAA-AACACATACT-CTTCATTTTA 32301 GCGCTGGGCA-ATTTAAGACA-GTTAAAGTGA-ATGAATTCTG-AATTATTATT 32351 TTCATTTGCA-TACATATTAA-AACTGAGTAA-ATATCACGTT-GCTGCCCATG 32401 AGGTGA TTAA-CCTGCTCA TC-TTGTTCTTTT-AAAA CA GA- 32438

EXON-13

32439 AT-GCGATTCACA 32451 CCTTTGTGCA-GTCCGGATCT -CACTTGGCGG-CAAGGGAGAA GGCAAA TCTG 32501 TGA- 32503

3'-UTR DE L'ARNm

32504 GGCCGGG-GCCCTGCACC-TGTGCAGCGA-AGCTT AGCGT -TCA TCCGTGT 32551 AACCCGCTCA-TCACTGGA TG-AAGA TTCTCC-TGTGCT AGA T -GTGCAAA TGC 3260 l AAGCT AGTGG-CTTCAAAAT A-GAGAA TCCCA-CTTTCT AT AG-CAGATTGTGT 32651 AACAA TTTT A-A TGCTA TTTC-CCCAGGGGAA-AATGAAGGTT -AGGATTT AAC 32701 AGTCATTTAA-AAAAAAAATT-TGTTTTGACG-GATGATTGGA-TTATTCATTT 32751 AAAATGATTA-GAAGGCAAGT-TTCTAGCTAG-AAATATGATT-TTATTTGACA 32801 AAA TTTGTTG-AAA TT ATGTA-TGTTT ACA TA-TCACCTCA TG-GCCT ATTA T A 32851 TT AAAA TA TG-GCT AT AAAT A-TA T AAAAAGA-AAAGA TAAAG-ATGA TCT ACT 3290] CAGAAATTTT-TATTTTTCTA-AGGTTCTCAT-AGGAAAAGTA-CATTTAATAC 32951 AGCAGTGTCA-TCAGAAGA T A-ACTTGAGCAC-CGTCA TGGCT -T AA TGTTT AT 3300] TCCTGATAAT-AATTGATCAA-ATTCATTTTT-TTCACTGGAG-TTACATTAAT 3305] GTTAATTCAG-CACTGATTTC-ACAACAGATC-AATTTGTAAT-TGCTTACATT 33]01 TTTACAATAA-ATAATCTGTA-CGTAAGAACA- 33140

3'-UTR DU GÈNE

+] AGAGA TGGT A-TTTTCTTTCT -TTCGA CTCCA -TA TGT AA CTG-T AAACTGCT A +51 CCAGACTCTT-AATTTGAACA-TCATCATTTT-CAGATGTTTA-CCCTTAAAAA

+101 TGGAAATGCC-AGTATCTCGA-GGACTCCATG-TTATTTGTTT-AAATCTATAG + 151 CCTTTGGACA-GCCTTCTGAG-ACACTGATAA-AATAGCAAAT-GCCCCAACTT +201 TGAAAATTAC-TTAAATCTCTT-GTCCATTTGC-TCACTTACC-TGTGATTGAC +251 TTTTT AAAAC-AAGGGCTCAG-AACCACTGGT -CACTTTCCTC-TTCCTTCTTT + 301 TT AAAGCCCA-T A TTTGCCT A-TCA TGGTTGA-AAA TCACA TG-GAAGACTTT A +351 AAG·ATGAGTT-CTGAATACTA-AATGAAAATT-TGTTTTCCTT-GAAAATCTTT +40] A TTCCGTTCA-TA TTCAAAAC-CAGTTTGTGC-CGGGTGTGGT -GGCTCAT A TG +451 CCTGT AAA CC-CAGCACTTTG-GGAAGCCAA G-GCAGGAGGA T -CACTTGAA CT +501 CAGGAG TTTG-AGACCA GCCG-GGGCAA CA TG-GCGAAGCCCT -G TCTGT ACAA +551 AAAA T ACAAA-AA TT AGCCGA-GT A TGGT AAC-GCA TGCCTGT -AGTCCCAGTT +601 A CT A GGGAGG-CTGAGGCGGG-AGGA TCTCTT -GA GCCCAGGA -GG TTGAGGCT +65] GCAGTGAGTC-GTGA TTGCAC-CACTGCACTC-CAGTCTGGGC-AACAGAGTGA +701 GACCTTGTCT-GAAAACAACA-ACAA TAACAA-CTAAAAACAA-AAAACCAAAC + 751 CAGTTT AT AC-TTTCAGGAGT -TCCTGAGTT A-CGGGCTTCAG-GAAACAGACC +80] ACTAGCAGAC-AGATACAAAC-TCATTCTTGG-TCTTTTAGCT-CAAATTTCTT

115

+851 T ACTCCTCTG-TCAAACCCTC-CTGCCT AA TT -CCCCCCGT AT -TTGAGT A TGC , +901 TTTGAGACTG-TTATATTTGT-AGACATAGAA-AATAGATATA-TCGGGCTGGG +951 TGCAGTGGCT -CACGCCTGT A-AA CCCA GCAC-TTTGGGAGGC-CAAGGCGGG T

+ 1001 GGAACACCTG-AGGTCAGGAG-TTTGAGA TCA-GCCTGGCCAA-CGTGGTGAAA +1051 CCCCATTTCT-ACTAAAAATA~CAAAAATTAG-CTGGGTGTGG-GCTTGAACCC + Il 0 1 TGGCA TGTGC-GTGTAA TCCC-AGCT ACTCGT -GAGGCTGAGG-TGGGAGAA TC + 115] AGGAGGTGGA-GGTTGCAGTG-AGCCAAGATT-GCGCCACTGC-ACTTTTTATT + 1201 GGGAAAGGTG-AGAACTTCTG-GAGATGGTTG-GTGGTGA TGG-TTGCACAACA +125] GTGTGAATGT-ATTTAATGCT-ACTGAACTGT-ACACCTAAAA-ATGGCTAAAT + ]301 GGTAAGTTTT-GTGTATATTT-TACCCCACAA-AAAAATCCAA-TGGTCCATTC + 1351 TT AGTCCTTG-TCTTACA TGA-CCTCTCAGCG-GTGTTTGACA-CAGTTGGTCG + 140 1 TTCACACTGC-CTTCTTCA TT -GTTT A TTT AT -TTT AGAGACG-GCA T ATCA TT + 1451 A TGTTGCCCA-GGGTGGCCTC-TGCCTCCTGA-GT AACTGGGA-CTACAGGCAC + 150 1 ACA TCACCA T -GCCCAGCTTT -CCTCCTCGTC-CCTTTCTCCT -CCTCCTCA TT + 1551 TTTCTTCCTC-CTCCTCCTCT -CTCTTCTTCT -TGTCCTTGCC-CTCA TCCTCC + 160 1 TCCTTTTTTT -TTCTTCCTTC-TTCCTTTTTT -CTTCTCTCTC-TTTTTT AAAA +1651 TAAGAGCTTT-ATTGAGATAT-AATTCACATA-CCGTAAAAAC-CACCCATTTA + 1701 AAGTGTACGA-GTAAATTTTT-TTTGTATATT-CACAGAATTG-CGCAACCATC + 1751 ACCACAATCA-ATTTTGGAGC-A TTTTCA TCA-CCCCAAAGGG-AAACCTGT AC + 180 1 CT A TCAGCAG-CCACTCTCCA -TTTCTTTCTT -AACCT A GTCC-CCAGCCCT AG +1851 GCCATCATGA-ATCTAAGATT-TGCCTACTCT-GCATGTTTCA-TTTAAATGGA + 1901 ATAATATAGT-ATGTGGTCTT-TTGTGACTGG-CTTCTTTCAC-TTAGCATAAT +1951 ATTTTCAAGA-TTCTTACATA-TTGTAGCATC-TATGAGTGCT-TCATTTTTTTA

116

ANNEXE II: Les séquences peptidiques des quatre enzymes antioxvdantes SODi, SOD2, GPxi et CAT :

Séquence peptidique de SODI :

1 20 40 60 MA TKA VCVLK GDGPVQGIIN FEQKESNGPV KVWGSIKGLT EGLHGFHVHE FGDNT AGCTS AGPHFNPLSR KHGGPKDEER HYGDLGNYT A DKDGY ADYSI EDSYISLSGD HCIIGRTL VY HEKADDLGKG GNEESTKTGN AGSR LACGV IGIAQ*154

Séquences peptidique de SOD2 :

Séquence peptidique de SOD2 (variant 1 qui donne ]'isoformeB) IMLSRA YCGTS RQLAPVLGYL GSRQKHSLPD LPYDYGALEP HINAQIMQLH HSKHHAA YVN NLNVTEEKYQ EALAKGELLE AIKRDFGSFD KFKEKLTAAS VGVQGSGWGW LGFNKERGHL QIAACPNQDP LQGTTGLIPL LGIDVWEHA y YLQYKNYRPD YLKAIWNYIN WENVTERYMA CKK*183

Séquence peptidique de SOD2 (variant2 qui donne ]'isoforme A) IMLSRA V'CGTS RQLAPVLGYL GSRQKHSLPD LPYDYGALEP HINAQIMQLH HSKHHAA YVN NLNYTEEKYQ EALAKGDVTA QIALQPALKF NGGGHINHSI FWTNLSPNGG GEPKGELLEA IKRDFGSFDK FKEKLTAASV GVQGSGWGWL GFNKERGHLQ IAACPNQDPL QGTTGLIPLL GIDYWEHAYY LQYKNVRPD y LKAIWNVINW ENVTERYMAC KK*222

Séquence peptidique de SOD2 (Variant3 qui donne] 'isoformeA) IMLSRA VCGTS RQLAPVLGYL GSRQKHSLPD LPYDYGALEP HINAQIMQLH HSKHHAA YVN NLNVTEEKYQ EALAKGDVTA QIALQPALKF NGGGHINHSI FWTNLSPNGG GEPKGELLEA IKRDFGSFDK FKEKL T AASV GVQGSGWGWL GFNKERGHLQ IAACPNQDPL QGTTGLIPLL GIDVWEHAYY LQYKNVRPDY LKAIWNVINW ENVTERYMAC KK*222

Séquences peptidiques de GPxl:

Séquence peptidique de GPx 1 (variant 1 ): lMCAARLAAAA AAAQSVY AFS ARPLAGGEPV SLGSLRGKVL LfENVASL *G TTVRDYTQMN ELQRRLGPRG L VVLGFPCNQ FGHQENAKNE EILNSLKYVR PGGGFEPNFM LFEKCEVNGA GAHPLFAFLREALPAPSDDA TALMTDPKLI TWSPVCRNDV AWNFEKFLVG PDGVPLRRYS RRFQTIDIEP DIEALLSQGP SCA *203

117

Séquence peptidique de GPx 1 (variant 2): IMCAARLAAAA AAAQSVY AFS ARPLAGGEPV SLGSLRGKVL LIENV ASL *G TTVRDYTQMN ELQRRLGPRG L VVLGFPCNQ FGHQVRRAER GGAGADVQ*98

Séquences peptidiques de CAT :

lMADSRDPASD QMQHWKEQRA AQKADVLTTG AGNPVGDKLN VITVGPRGPL LVQDVVFTDE MAHFDRERlP ERVVHAKGAG AFGYFEVTHD ITKYSKAKVF EHIGKKTPIA VRFSTVAGES GSADTVRDPR GF A VKFYTED GNWDL VGNNT PIFFIRDPIL FPSFIHSQKR NPQTHLKDPD MVWDFWSLRP ESLHQVSFLF SDRGIPDGHR HMNGYGSHTF KL VNANGEA V YCKFHYKTDQ GIKNLSVEDA ARLSQEDPDY GIRDLFNAIA TGKYPSWTFY IQVMTFNQAE TFPFNPFDLT KVWPHKDYPL IPVGKLVLNR NPVNYFAEVE QIAFDPSNMP PGIEASPDKM LQGRLFAYPD THRHRLGPNY LHIPVNCPYR ARVANYQRDG PMCMQDNQGG APNYYPNSFG APEQQPSALE HSIQYSGEVR RFNT ANDDNV TQVRAFYVNV LNEEQRKRLC ENIAGHLKDA QIFIQKKA VK NFTEVHPDYG SHIQALLDKY NAEKPKNAIH TFVQSGSHLA AREKANL527

118

RÉFÉRENCES

(1) Halliwell B, Whiteman M. Measuring reactive species and oxidative damage in vivo and in cell culture: how

should you do it and what do the results mean? Br J Pharmacol. 2004; 42: 231-55 .

(2) Chance B, Sies H, Boveris A. Hydroperoxide metabolism in mammalian organs. Physiol Rev. 1979; 59: 527-605.

(3) Aust S.D, Morehouse L.E, Thomas C.E. Free Radicals in Biol.Med. 1985 ; 54: 1-3.

(4) Halliwel B. Oxidative stress in cystic fibrosis: does it occur and does it matter? Adv Pharmacol. 1997; 38: 3.

(5) Stadtman E.R. Prote in oxidation and aging. Science. 1992; 257: 1220.

(6) Cochrane C. Mechanisms of oxidant injury of cells. Mol Aspects Med. 1991 ; 12: 137.

(7) Levanon D, Lieman-Hurwitz J, Dafni N et al. Architecture and anatomy of the chromosomal locus in human

chromosome 21 encoding the Cu/Zn superoxide dismutase. EMBO J. 1985; 4: 77-84.

(8) Yuan X, Murthy MRV. Neurotoxins, oxidative stress and regulation of antioxidant enzymes genes in neurons.

CUIT Trends Neurol. 2005, 1: 1-20.

(9) Panchenko LF, Brusov OS, gerasimov AM, Loktaeva TD. lntramitochondrial localization and reJease of rat liver

superoxide dismutase FEBS Lett. 1975; 55: 84-7.

(10) Geller BL, Winge DR. Rat liver Cu Zn- superoxide dismutase Subcellular location in lysosomes. J Biol Chem.

1982; 257: 8945-52.

(11) Kim HT, Kim YH, Nam JW et al. Study of 5 ' -flanking region of human Cu/Zn superoxide di smutase. Biochem

Biophys l'es Commun. 1994; 201: 1526-33 .

. (12) Kim YH, Park KH, Rho HM . Transcriptional activation of the Cu/Zn-superoxide dismutase gene through the

AP2 site by ginsenoside Rb2 extracted from a medicinal plant Panax ginseng. J Biol Chem. 1996; 271: 14539-43.

(13) lnoue N, Ramasamy S, Fukai T, NeremRM, Harrison DG. Shear stress modulates expression of Cu/Zn

superoxide dismutase in human aortic endothelial cells. Circ Res.1996; 79: 32-7

(14) Dimmeler D, Hermann C, Galle J, Zeiher AM. Upregulation of superoxide dismutase and nitric oxide syntase

mediates the apoptosis-suppressive effects of shear stre,ss on endothetelial cells. Arterioscler Thromb Vasc Biol. 1999;

19: 656-64.

(15) Leccia MT, Yaar M, Allen N , Gleason M, Gi1chrest BA. Solar simulalated irradioation modulates gene

expression and activity of antioxidant enzymes in cultured human dermoblasts. Exp dermatol. 2001 ; 10: 272-9.

(16) Yoo HY, Chang MS, Rho HM. Heavy metal-mediated activation of the rat Cu/Zn superoxide dismutase gene via

a metal-responsive element. Mol Gen Genet. 1999; 262: 310-3.

(17) Frank S, Kampfer H, Podda M, Kaufmann R, Pfeilschifter J. Identification of copper/zinc superoxide

dismutase as a nitric oxide-regulated genein human HaCaT keratinocytes: implications for keratinocyte

proliferation. Biochem J. 2000; 346 Pt 3: 719-28.

119

(18) Yoo HY, Chang MS, Rho HM . .1nduction of the rat Cu/Zn superoxide dismutase gene through the peroxisome

proliferator -responsive element by arachidonic acid. Gene. 1999; 234: 87-9].

(19) Cho JS, Chang MS, Rho HM. Transcriptional activation of the human Cu/Zn superoxide dismutase gene by

2,3,7, 8-tetrachlorodibenzo-p-dioxin through the xenobiotic-responsive element. Mol Genet Genomics. 2001 ;

266: 133-411.

(20) Jackson RM, Parish G, Ho YS. Effects of hypoxi.a on expression of superoxide dismuatases in cultured ATH

cells and 1ung fibroplasts. Am J Physiol.1996 ; 271: L955-L62.

(21) Gho G, Kang S, Seo SJ , Kim Y, Jung G. The transcriptiona1 repression of the human Cu/Zn superoxide

dismutase sodl gene by the anti-cancer drug mitomycin C MMC 1988. Biochem Mol Biol Int. 1997; 42: 949-

56.

(22) Murthy MRV. ln: Marwah J and Kanthasamy A Eds. Antioxidants and Free Radicals in Health and Disease.

Scottsdale AZ, Prominent Press, 2001 ; 213-36.

(23) Avraham KB, Schickler M , Sapoznikov D, Yarom R. GronerY. Down ' s syndrome: abnormal neuromuscular

junction in tongue of transgenic mice with elevated leveJs of human Cu/Zn-superoxide dismutase. Cell.1988 ;

54: 823-9.

(24) Groner Y, Elroy-Stein 0 , Avraham KB et al. Cell damage by excess CuZnSOD and Down ' s syndrome.

Biomed Pharmacother. 1994; 48: 231-40.

(25) Wiedau-pazos M , Gotto JJ , Rabizadeh S et al. Altered reactivity of superoxide dismutase in familial

amyotrophic Iateral sc1erosis. Science. 1996; 271: 515-8.

(26) Estevez AG, Crow JP, Sampson JB et al. Induction of nitric oxide-dependent apoptosis in motor neurons by

zinc-deficient superoxide dismutase. Science. 1999; 286: 2498-500.

(27) Wan XS, Devalaraja MN, St Clair DK. Molecular structure and organization of the human manganese

superoxide dismutase gene DNA. Cell Biol. i994; 13: 1127-36.

(28) Visner GA, Chesrown SE, Monnier J, Ryan US, Nick HS. Regulation of manganese superoxide dismutase:

IL-l and TNF induction in pulmonary artery and microvascular endothelial ceJls. Biochem Biophys Res

Commun. 1992; 188: 453-62.

(29) Marklund SL Extracellular superoxide dismutase and other superoxide dismutaseisoenzymes in tissues from

nine mammalian species. Biochem J. 1984; 222: 649-55.

. (30) Marklund SL. Extracellular superoxide dlsmutase in human tissues AND HUMAN CELL LINES. J Clin

Invest.1984 ; 74: 1398-403.

(31) Akai F, Maeda M, Suzuki K , Inagaki S. Immunocytochemical localization of manganese superoxide

dismutase Mn-SOD in the hippocampus of the rat. Neurosci Lett.1990; 1] 5: 19-23.

(32) Sullivan SJ, Oberley TD, Roberts RJ, Spitz DR. A stable 02-resistant cell line:role of lipid peroxidation

byproducts in 02-mediated in jury. Amer J Physio1. 1992; 262: L 748-L56.

(33) Oberley, LW, St Clair DK, Autor AP, Oberley TD. Increase in manganese superoxide dismutase activity in

the mouse heart after X-irradiation. Arch Biochem Biophys. 1987; 254: 69-80.

120

(34) KaJl l , Bagley AC, Mullenhach GT, Hallewell RA. Superoxide mediates the toxicity of paraquat for cultured

mammalian cel1s. J Biol Chem. 1988; 263: 1910-14.

(35) Masuda A, Longo DL, Kobayashi Y, Appella E. Induction of mitochondrial manganese superoxide disrnutase

. by interleukin 1. FASEB J. 1988; 2: 1910-14.

(36) Wong GH, Goeddel DV. Induction of manganous superoxide dismutase by tumor necrosis factor: possible

protective mechanism. Science. 1988; 242: 941-4 .

(37) Mimnaugh EG, Dusre L, Atwell l , Myers CE. Differentiai oxygen radical susceptibility of adriamycin

sensitive and resistant MCF -7 human breast tumor cells . Cancer Res. 1989; 49: 8-15.

(38) Wan XS, St Clair DK. Thiol-rnodulating agents increase manganese superoxide dismutase activity iin human

lung fibroblasts. Arch Biochem Biophys.1993 ; 304: 89-93.

(39) Oberley LW, McCormick ML, Sierra-Rivera E. Manganese superoxide dismutase in normal and transformed

human embryonic lung fibroblasts. Free Radic Biol Med. 1989; 6: 379-84.

(40) St ClairDK, Wan XS, Muse KE, Oberley TD, St Claire WB. Suppression of radiation-induced neoplastic

transformation by overexpression of rnitochondrial superoxide. Mol Carcinogen. 1992; 6: 238-42.

(41) Church SL, Grant JW, Ridnour LA, Oberley LW, Swanson PE. Increased manganese superoxide di smutase

expression suppresses the malignant phenotype of human melanoma cells. Proc Natl Acad Sci USA. 1993 ;

90: 3113-7.

(42) Liu R, Oberley TD, Oberley LW. Transfection and suppression of MnSOD cDNA decreases tumor

malignancy ofhuman oral squamous carcinomas Scc-25 cells. Hum Gen Therapy. 1997; 8: 585-95.

(43) Brovard A, Hoffchir F, Sabatier L and al. Early superoxide dismutase alteration during SV 40 transfprmation

ofhuman fibroblasts. Int J Cancer. 1992; 52: 797-801.

(44) Li ll , Domannf, Oberley LW. The use of the RT-PCR to distunguish between plasmid Mn SOD Transcripts

and endogenous Mn SOD mRNA. Biochem Biophys Res Commun. 1995; 216: 610-8.

(45) Zhong W , Oberley LW, Oberley TD, St Clair DK. Suppression of themalignant phenotype of human glioma

cells by overexpression ofmanganese superoxide dismutase. Oncog. 1997; 14: 481-90.

(46) Rosenblum JS, Gilula NB, Lerner RA. On signal sequence polymorphisms and diseases of distribution . Proc

Natl Acad Sci USA. 1996; 93: 4471-3.

(47) Hiroi S, Harada H, Nishi H, Satoh M , Nagai R, Kimura A. Polymorphisms in the SOD2 and HLA

~RB 1 genes are associated with nonfamilial idiopathic dilated cardiomyopathy in Japanese. Biochem

Biophys Res Commun. 1999; .261: 332- 9.

(48) Mitrunen K, Sillanpaa P, Kataja V et aL Association between manganese superoxide dismutase MnSOD

gene polymorphism and breast cancer risk.Carcinogenesis. 2001 ; 22: 827-9.

(49) Chada S, LeBeau MM, Casey L, Newburger PE. Isolation and chromosomal localization of the human

glutathione peroxidase gene. Genomics. 1990; 6: 268-71.

(50) McBride OW, Mitchell A, Lee Bl , Mullenbach G, Hatfield D. Gene · for selenium-dependent

glutathione peroxidase maps to human chromosomes 3 21 and X. Biofactors. 1988; 1: 285-92.

121

(51) Diamond AM, Cruz R, Bencsics C, Hatfield D. A pseudogene for human glutathione peroxidase. Gene.

1992; 122: 377-80.

(52) Cannizzaro LA, Madaule P, Hecht F, Axel R, Croce CM, Huebner K. 1990 Chromosome localization of

human ARH genes a ras-related gene family. Genomics. 1990; 6:197-203;

(53) Yeramian P, Chardin P, Madaule P, Tavitian A. Nucleotide sequence ofhuman rho cDNA clone 12. Nucleic

Acids Res. 1987;15:1869 ..

(54) Moscow JA, Morrow CS, He R, Mullenbach GT, Cowan . KH. Structure and function of the 5'

flanking sequence of the human cytosolic selenium-dependent glutathione peroxidase gene hgpx 1. J Biol

Chem. 1992; 267: 5949-58.

(55) Martinez A, Walker RA, Shaw JA, Dearing SJ, Maher ER, Latif F. Chromosome 3p allele loss in

early invasive breast cancer: detaied mapping and association with clinicopathological features. J Clin

Pathol:Mol Pathol. 2001; 54: 300-6.

(56) Cowan DB, Weisel RD, Williams WG, Mickle DA. Identification of oxygen responsive elements in the

5'-tlanking region of the human glutathione peroxidase gene. J Biol Chem. 1993; 268: 26904-10.

(57) Vina J, Borras C, GODiez-Cabrera MC, Orr WC. Part of the series: from dietary antioxidants to regulators in

cellular signalling, and gene expression. Role of reactive oxygen species and (phyto )oestrogens in the

modulation of adaptive response to stress. Free Radic Res. 2006; 40: 111-9.

(58) Forsberg L, de Faire U, Morgenstern R.:. Oxidative stress, human genetic variation, and disease. Arch Biochem

Biophys. 2001; 389:84-93.

(59) Moscow JA, Schmidt L, Ingram DT, Gnarra J, Johnson B. Loss of heterozygosity of the human

cytosolic glutathione peroxidase l gene in lung cancer. Carcinogenesis. 1994; 15: 2769-73.

(60) Ratnasinghe D, Tangrea JA, Anderson MR et al. Glutathione peroxidase codon 198 polymorphism

variant increases lung cancer risk. Cancer Res. 2000; 60: 6381-3.

(61) Hu YJ , Diamond AM. Role of glutathione peroxidase 1 in breast cancer: loss of heterozygosity and allelic

differences in the response to selenium Cancer Res. 2003; 63: 3347-51.

(62) Diwadkar-Navsariwala V, Diamond AM. The link between selenium and chemoprevention: a case for

selenoproteins. J Nutr. 2004; 134: 2899-902.

(63) Junien C, Turleau C, De Grouchy J, Said R. Regional assignment of catalase CAT gene to band

Il p 13 Association with the aniridia-Wilms' tumor-Gonadoblastoma W AGR complex. Ann Genet.

1980; 23: 165-8.

(64) Ariga H, Imamura Y, 19ùchi-Ariga SMM. DNA replication origin and transcriptional enhancer in c-myc

gene share the c-myc protein binding sequences. EMBO J. 1989; 8: 4273-9.

(65) Klemsz MJ , McKercher SR, Celada A, Van Beveren C, Maki RA. The macrophage and B cell

specific transcription factor PU 1 is related to the ets oncogene. Cell. 1990; 61: 113-124.

122

(66) Fujita T, Shibuya H, Hotta H, Yamanishi K, Taniguchi T. lnterferon-beta gene regulation: tandemJy

repeated sequences of a synthetic 6 bp oligomer function as a virus-inducibJe enhancer. Cell. 1987; 49: 357-

67.

(67) Scheidereit C, Geisse S, Westphal HM, Beato M. The g lucocorticoid receptor binds to defined

nuCleotide sequences near the promoter ofmouse mammary tumor virus ~ Nature Lond. 1983 ; 304: 749-52.

(68) Clerch 1 B, Iqbal J, Massar"o D. Perinatal rat lung catalase gene expression: influence of corticosteroid

and hyperoxia. Am J Physiol. 1991; 260: 1428-33.

(69) Deisseroth A 'and Dounce AL Catalase: Physical and chemical properties mechanism of catalysis and

physiological role Physiol Rev 1970; 50 319-375.

(70) Bell GI , Najarian RC, Mullenbach GT, Hallewell RA. cDNA sequence coding for human kidney

catalase. NuCleic Acids Res. 1986; 14 5561-2.

(71) Komeluk RQ, Quan F, Lewis WH, Guise KS, WiJ]ard HF. Isolation of human fibroblast catalase

cDNA clones: Sequence of Clones derived from spliced and unspliced mRNA. J Biol Chem. 1984; 259

13819- 23.

(72) De Duve C. Microbodies in the living cell. Sci Amer. 1983 ; 248 74-84.

(73) Gould SJ, Keller G, Subramani S. Identification of peroxisomal targeting signaIs located at the carboxy

terminus offour peroxisomal proteins. J Ce]] Biol. 1988; 107 897-905 :

(74) Ogata M. Acatalasemia. Hum Genet. 1991; 86 331-40.

(75) Cerutti P.Prooxidant states and tumor promotion. Science. 1985; 227: 375-81.

(76) Kishimoto Y, Murakami Y, Hayashi K, Takahara' S. Detection of a cornrnon mutation of the catalase

gene in Japanese acatalasernic patients. Hum Genet. 1992; 88: 487-90.

(77) Moser HW. Peroxisomal diseases. Adv Hum Genet. 1993 ; 21 443-51.

(78) Aubourg P, Kremser K, Roland MO, Rocchiccioli F, Singh 1. Pseudo infantile Refsum's disease:

catalase-deficient peroxisornal partiCles with partial deficiency of plasrnalogen synthesis and oxidation of

fattyacids. Pediatr Res. 1993; 34: 270-6.

(79) Suzuki Y, Shirnozawa N , Orii T, Igarashi N, Kono N. Molecular analysis of peroxisomal beta

oxidation enzymes in infants with Zel1weger syndrome and Zellweger-like syndrome: further heterogeneity of

the peroxisomal disorder. Clin Chim Acta. 1988; 172: 65-76.

(80) Gompel A, Chaouat M, Hugol D, Forgez P. Steroidal hormones and proliferation differentiation and

apoptosis in breast cells. Maturitas. 2004; 49: 16-24.

(81) Clarke RB, Anderson E, Howell A. Steroid receptors in human breast cancer Trends Endocrinol Metab.

2004; 15: 316-23.

(82) Mylonas 1, Jesçhke U, Shabani N et al. Irnmunohistochemical analysis of estrogen receptor-alpha

estrogen receptor-beta and progesterone receptor in normal human endometrium Acta Histochem. 2004; 106:

245-52.

123

(83) Desai AJ , Lugmani Y A, Walters JE et al. Presence of ex on 5-deleted oestrogen receptor in human breast

cancer: functional analysis and c1inical significance. Br J Cancer. ] 997; 75: ] ] 73-84.

(84) Jones KL, Buzdar AU. A review of adjuvant hormonal therapy in breast cancer. Endocr Relat Cancer.

2004;]]: 391-406.

(85) Normanno N, Di Maïo M , De Maio E et al. Mechanisms of endocrine resistance and novel therapeutic

strategies in breast cancer. Endocr Relat Cancer. 2005; 12 72] -47.

(86) Nicholson RI, Johnston SR. Endocrine therapy--current benefits and limitations. Breast Cancer Res Treat

93 Suppl. 2005; 1: S3-S10.

(87) Wolf DM, Fugua SA. Mechanisms of action of antiestrogens. Cancer Treat Rev. 1995 ; 21: 247-71.

(88) Howell A, DeFriend D, Robertson J, Blamey R, Walton P. Response to a specific antioestrogen ICI

182780 in tamoxifen-resistant breast cancer. Lancet. ] 995 ; 345: 29-30.

(89) Murphy LC, Niu Y, Snell L, Watson P. Phospho-serine-118 estrog~n receptor-alpha expression ]s

associated with better disease outcome in women treated with tamoxifen. Clin Cancer Res . 2004; 10: 5902-6.

(90) Zeisig R, Ruckerl D, Fichtner 1. Reduction of tamoxifen resistance in human breast carcinomas by

tamoxifen-containing liposomes in vivo. Anticancer Drugs. 2004;] 5: 707-] 4.

(91) Fyles AW, McCready DR, Manchul LA et al. Tamoxifen with or without breast irradiation in women 50

years of age or older with early breast cancer. New England J Med. 2004; 351: 963-70; Comment in New

England J Med 351: 1 021-3.

(92) Hughes KS, Schnaper LA, Berry D et al. Lumpectomy plus tamoxifen with or without irradiation in

women 70 years of age or older with early breast cancer New England J Med. 2004; 351: 971-7; Comment

in New England J Med 351: 1021-3.

(93) Hiscox S, Morgan L, Barrow D, Dutkowskil C, Wakeling A, Nicholson RI. Tamoxifen resistance in

breast cancer cel1s is accompanied by an enhanced motile and invasive phenotype: inhibition by gefitinib.

Clin Exp Metastasis. 2004;21: 201-12.

(94) Marshall E. Tamoxifen 'A big deal 1 but a complex hand to play. Science. 1998;280: 196.

(95) Budtz PE. Role of proliferation and apoptosisin net growth rates of human breast cancer ce]]s MCF-7

treated with oestradiol and/or tamoxifen. Cel1 Prolif.] 999; 32: 289-302.

(96) Gelmann EP. Tamoxifen induction of apoptosis in estrogen receptor-negative cancers: new tricks for an old

dog? ] Natl Cancer Inst. 1996; 88: 224-6.

(97) Katzenellenbogen BS, Chai l , Delage-Mourroux R, Ediger TR et al. Molecular mechanisms of estrogen

action: selective ligands and receptor pharmacology. J Steroid Bi"ochem Mol Biol. 2000; 74: 279-85.

(98) Musashi M, Ota S, Shiroshita N. The role ofprotein kinase C isoforms in cell proliferation and apoptosis.

lnt J Hematol. 200.0; 72: 12-9.

(99) Xu Y, Nguyen Q, Lo DC, Czaja Ml. C-myc dependent hepatoma ce]] apoptosis results from oxidative

stress and not a deficiency of growth factors. J Cell Physiol. 1997; 170: 192-9.

124

(100) MurphyN, Millar E, Lee CS. Gene expression profiling in breast cancer: towards individualising patient

management. Pathology. 2005;37:271-7.

(101) Knudson AG. Hereditary predisposition to cancer Amer J Med Genet. 2002 ; 111: 96-]02.

(102) Einbeigi Z" Bergman A, Kindblom LG 'et al. A founder mutation of the BRCA 1 gene in Western . Sweden

associated with a high incidence ofbreast and ovarjan cancer. Eur J Cancer. 2001; 37: 1904-9.

(103) Neuhausen S, Gilewski T, Norton L et al. Recurrent BRCA2 6174delT mutations in Ashkenazi Jewish

women affected by breast cancer. Nature Genet.. 1996; 13:126-8.

(104) Peel en T, van Vliet M, Petrij-Bosch A 'et al. A high proportion of novel mutations in BRCA1 with strong

founder effects among Dutch and Belgian hereditary breast and ovarian cancer families. Am J Hum Genet.

1997; 60: 1 041-9.

(105) Antoniou AC, Pharoah PD, McMullan G et al. A comprehensive model for familial breast cancer

incorporating BRCAI BRCA2 and other genes. Br J Cancer. 2002; 86:76-83.

(106) Wooster R, Bignell G, Lancaster J et al. Identification . of the breast cancer susceptibility gene BRCA2.

, Nature. 1995; 378: 789-92.

(107) Brose MS, Rebbeck TR, Calzone KA, Stopfer JE, Nathanson KL, Weber BL. Cancer risk estimates for

BRCA 1 mutation carriers identified in a risk evaluation program. J Natl Cancer ]nst. 2002; 94: 1365-72.

(108) Liede A, Karlan BY, Narod SA. Cancer risks for male carriers of germline mutations in BRCAI or BRCA2: a

review of the literature. J Clin Oncol. 2004; 22:735-42.

(109) Rieger PT. The biology of cancer genetics. Sernin Oncol Nurs. 2004; 20: 145-54.

(110) Nebert DW. Transcription factors and cancer~ an overview. Toxicology. 2002; 181-182:131-4l.

(111) Katzenellenbogen BS, Kendra KL, Norman Ml, Y Berthois Y. Proliferation hormone responsiveness and

estrogen receptor content ofMCF-7 human breast cancer cells grown in the short-terrn and long- term absence

of estrogens. Cancer Res. 1987; 47:4355-60.

(112) Osborne CK, Hobbs K, Clark GM. Effect of estrogens and antiestrogens on growth of human breast cancer

cells in athymic nude mice. Cancer Res. 1985; 45: 584-90.

(113) Beato M. Gene Regulation by steroid hormones. Cell. 1989; 56: 335-44.

(114) Evans M. The steroid and thyroid hormone receptor superfamily. Science. 1988; 240: 889-95.

(115) Bezwoda WR, Esser JD, Dansey R,Kessel 1, Lange M. The value of estrogen and progesterone receptor

determinationsin advanced breast cancer Estrogen receptor level but not progesterone receptor level

correlates with response to tamoxifen. Cancer. 1991; 68: 867-72.

(116) Mobley JA, Brueggemeier RW. Estrogen receptor-mediated regulation of oxidative stress and DNA damage

in breast cancer. Carcinogenesis. 2004; 25: 3-9.

(117) Lu G, Shtmizu l, Cui X et al. Antioxidant and antiapoptotic activities of idoxifene and estradiol in

hepatic fibrosis in rats. Life Sci. 2004; 74: 897-907.

(118) Yuan X, Liu G, MurthyM.R.V. Eostrogen receptor-positive and oestrogen receptor-negative human breast

cancer cells: regulation of expression of cancer - related genes by estradiol and tamoxifetl. 2008;3:7-21.

125

(J 19) Cox et al.Gene *Gene interaction betwenn MnSOD and GPx 1 and breast cancer risk : a nested case-control

study. BMC Cancer. 2006; 6:21 7.

(120) Qiuyin C, Xiao OS, Wanqing W et al. Genetic polymorophism in the manganese superoxide dismutase gene,

antioxidant intake, and breast cancer risk: results from the Shanghai Breast Cancer Study. Breast Cancer

Res.2004; 6: R647-R655 .

(121) Yajun H, Richard YB, Robert EC, Alan MD. Allelic loss of the gene for the GPx] Selinium-containig protein

is acommon event in cancer. J. Nutr. 2005 ; 135: 302] S-3024S.:.

(122) http: //en.wikipedia.org/wiki/Signal_transduction

(123) Bert V, Kenneth WK. Cancer genes and the pathways they control. Nature Med. 2004; 8:795. (l 24) http://www.ambion.com/tools/pathway/all ~athway _ list.php

(125) http: //www.genome.jp/tmp/mark ~athway _ www4694/hsa05030.gif

(126) http: //www.ncbi.nlm.nih.gov/

(127) http: //www.nottingham.ac.uk

(128)Chunhong Z, Yuanhui H, Christine J.W, Larry W. 0 , Frederick E.D. Constitutive activation of transcription

factor AP-2 is associated with decreased MnSOD expression in transformed human lung fibroblasts.

Antioxidants & Redox signalling. 2001;3: 387-395

(129) Yvan de launoit, rapport de recherche, institut pasteur de Lille. 2001

(130) Mantamadiotis, et al , Nat Genet. 2002

126

Interactions entre les gènes des enzymes antioxydantes et ... · Interactions entre les gènes des enzymes antioxydantes et leurs relations avec le cancer du sein Mémoire présenté

Documents