RSAT course - Exercises - Bacterial regulatory networks


Contents


[back to contents]

Introduction

In this series of exercise, we will combine a series of tools available ont the RSAT and NeAT software suites, in order to extract information about regulation in the model organism Escherichia coli.


[back to contents]

Resources

Regulatory Sequence Analysis Tools (RSAT) http://www.rsat.eu/ A web-based software suite to detect cis-regulatory elements in DNA sequences.
Network Analysis Tools (NeAT) http://neat.rsat.eu/ A web-based software suite for analyzing biomolecular networks (protein interactions, regulatory networks, metabolic pathways).
RegulonDB http://www.embnet.org/resource/regulondb A database of transcripitonal regulation in the Bacteria Escherichia coli K12.
Cytoscape http://www.cytoscape.org/ Stand-alone software tool (java) to display and analyze biological networks

[back to contents]

Data sets

Co-occurrence network (from phylogenetic profiles) Network representing co-occurrences of gene pairs across bacterial genomes. Nodes correspond to genes, and edges indicate significant associations between gene pairs, i.e. a pair of genes is significantly found present together or absent together in various genomes. [gml] [tab] [tsv]
Co-regulation nework (from phylogenetic profiles) This network was generated by detecting conserved motifs in the promoters of orthologs for each gene of Escherichia coli K12 strain K12 MG1655, and by linking pairs of genes presenting similar motifs. Significant motifs generally reveal cis-regulatory motifs, bound by specific transcription factors. [gml] [tab] [tsv]

[back to contents]

Questions

  1. Comparison between co-occurrence and co-regulation networks

    1. Download the two networks (co-occurrence and co-regulation) provided in the data table above.
    2. >Open these networks with Cytoscape
    3. For the sake of tractability, you can save the Cytoscape session in a local file (extension ".cys"). We recommend to do this at each step of the analysis.

    Question: evaluate the coherence between the networks of co-occurrence and co-regulation, by computing Jaccard's coefficient on the nodes, and on the edges.

    You can use either CytoScape or NeAT to compute the intersection between two networks.

  2. Network-based clustering

    Run two different network-based clustering algorithms on the the co-occurrence network and compare the clusters returned by these respective algorithms. Interpret the result in terms of number of nodes per clusters, and of cluster composition (are the clusters returned by the two algorithms similar ?).

    NeAT supports the algorithms MCL and RNSC. CytoScape supports MCL and MCODE.

  3. Coverage of a regulon of interest by co-occurrences and co-regulation networks

    Ouvrez une connexion à RegulonDB, et choisissez un facteur transcripitonnel pour lequel la base de données contient entre 5 et 20 gènes-cibles (il vaut mieux éviter les facteurs globaux comme CRP ou Fnr). Collectez l'information suivante et sauvegardez-la dans des fichiers séparés (qui seront fournis en annexe à votre rapport):

    1. Liste des gènes-cibles connus
    2. Motif (position-weight matrix)
      RegulonDB fournit les motifs en format tabulaire. Vous pouvez utiliser l'outil RSATC convert-matrix pour convertir votre motif de référence en format transfac.

    Retournez à votre session Cytoscape, et identifiez sur chacun des réseaux, l'ensemble des gènes-cibles de votre facteur transcriptionnel. Créez un sous-réseau avec ces gènes.

    Quelle proportion de ces gènes retrouvez vous dans les réseaux suivants, et quelle est la proportion d'entre eux sont liées par des arêtes ?

    1. réseau de co-régulation
    2. réseau de co-occurrence
    3. réseau fusionné

  4. Attention! N'oubliez pas de sauvegarder votre session à la fin de votre travail avec Cytoscape.

    Les exercices suivants sont basés sur la suite logicielle RSAT.

  5. Scanning des promoteurs

    Scannez les promoteurs de tous les gènes d'Escherichia coli K12 MG1655 avec le motif que vous avez obtenu sur RegulonDB.

    1. Quel est le seuil minimal pour retrouver l'ensemble des gènes-cibles annotés pour votre facteur transcriptionnel?
    2. A cette valeur de seuil, combien de gènes comportent au moins un site dans leur promoteur?
    3. Combien de gènes obtenez-vous quand vous placez le seuil de p-valeur à 1e-3, 1e-4, 1e-5, 1e-6 respectivement? Quel est le nombre de gènes-cibles de RegulonDB retrouvés à ces différents seuils ?
  6. Découverte de motifs conservés dans les promoteurs (approche "un gène plusieurs génomes")

    Connectez-vous à RSAT, et faites tourner l'outil de découverte d'empreintes phylogénétiques (footprint-discovery sur le premier gène-cible annoté dans RegulonDB. Utilisez ensuite l'outil compare-motifs pour comparer le motif découvert avec le motif de référence (que vous avez récupéré dans RegulonDB).

    Parmi les motifs découverts par footprint-discovery, retrouvez-vous le motif annoté dans ReguloNDB ?

  7. Prédiction de voies métaboliques

    Connnectez-vous au seveur NeAT et sélectionnez l'outil pathway-extraction (microme prototype).

    Extrayez un sous-réseau métabolique à partir des gènes-cibles de votre facteur transcriptionnel.

    Combien de gènes-cibles codent pour des enzymes ? Si vous en obtenez plus que deux, évaluez la cohérence du réseau métabolique retourné par le programme.