Archivio_longshot_genoma
Authors/Creators
Description
# README per studenti
## Analisi di varianti sul genoma completo del cane (ROS_Cfam_1.0)
Questo documento spiega **in modo completo e guidato** il significato e l’uso dei file:
* `*.fasta`
* `*.fasta.fai`
* `*.bam`
* `*.bam.bai`
utilizzati per il **variant calling con Longshot** sul **genoma completo del cane** (*Canis lupus familiaris*).
**Leggere tutto prima di lanciare comandi**: molti errori nascono da reference e coordinate sbagliate.
---
## 1. Il file FASTA del genoma (`combined_refs.fasta`)
### Cos’è
Il file `combined_refs.fasta` contiene le **sequenze di riferimento del genoma completo del cane**, una per ogni cromosoma.
Esempio di intestazioni:
```text
>1 dna:primary_assembly primary_assembly:ROS_Cfam_1.0:1:1:123313939:1 REF
>2 dna:primary_assembly primary_assembly:ROS_Cfam_1.0:2:1:86187811:1 REF
...
```
### Come leggerle
Ogni riga `>` descrive:
* **nome del cromosoma** (`1`, `2`, `3`, …)
* **assembly**: ROS_Cfam_1.0
* **coordinate**: da `1` a `LN` (lunghezza cromosoma)
Questo FASTA rappresenta **l’intero genoma**, non una porzione.
---
## 2. Il file FASTA index (`combined_refs.fasta.fai`)
### Cos’è
È l’**indice del FASTA**, creato con:
```bash
samtools faidx combined_refs.fasta
```
### A cosa serve
* Permette accesso rapido a singole regioni del genoma
* È **obbligatorio** per:
* samtools
* bcftools
* Longshot
Senza `.fai`, i comandi con `chr:start-end` non funzionano correttamente.
---
## 3. Il file BAM (`*.bam`)
### Cos’è
Il file `.bam` contiene le **read di sequenziamento allineate** contro il reference FASTA.
Caratteristiche importanti:
* È un file binario (non leggibile a occhio)
* Contiene:
* cromosoma
* posizione
* qualità
* allineamento
### Controllo fondamentale (da fare SEMPRE)
Prima di ogni analisi, verificare il reference usato:
```bash
samtools view -H file.bam | grep '^@SQ' | head
```
Esempio corretto:
```text
@SQ SN:1 LN:123313939
@SQ SN:2 LN:86187811
```
I nomi (`SN`) e le lunghezze (`LN`) **devono combaciare** con il FASTA.
---
## 4. Il file BAM index (`*.bam.bai`)
### Cos’è
È l’**indice del BAM**, creato con:
```bash
samtools index file.bam
```
### A cosa serve
* Accesso rapido a regioni specifiche del BAM
* Necessario per:
* `samtools view chr:start-end`
* `samtools depth`
* Longshot con `--region`
Se il BAM cambia, l’indice va rigenerato.
---
## 5. Coordinate genomiche: concetto chiave
Nel **genoma completo**:
* le coordinate partono da **1**
* arrivano fino alla lunghezza del cromosoma
Esempio valido:
```text
1:49662496-49740525
```
Queste coordinate hanno senso **solo se**:
* il BAM è allineato contro **lo stesso FASTA**
* i contig hanno lo stesso nome (`1`, non `CM025100.1`)
---
## 6. Verifica della copertura (passaggio OBBLIGATORIO)
Prima di lanciare Longshot:
```bash
samtools depth -r 1:49662496-49740525 file.bam | head
```
### Interpretazione
* **Output presente** → la regione è coperta → analisi sensata
* **Nessun output** → nessuna read → Longshot non troverà varianti
Questo controllo evita **minuti o ore di calcolo inutili**.
---
## 7. Uso corretto di Longshot (genoma completo)
Esempio standard:
```bash
longshot \
--bam file_genoma.sorted.bam \
--ref combined_refs.fasta \
--out varianti_chr1.vcf \
--region 1:49662496-49740525
```
---
## 8. Errore molto comune (da evitare assolutamente)
Usare coordinate genomiche su BAM di **adaptive sampling**
Usare BAM e FASTA non coerenti
Non controllare header e coverage
In caso di **adaptive sampling**, le coordinate sono **locali** (es. 1–800 kb) e **NON genomiche**.
---
## 9. Regola d’oro da ricordare
> **Le coordinate esistono solo rispetto al reference usato per l’allineamento.**
> BAM, FASTA e indici sono un unico sistema.
---
## 10. Checklist rapida per studenti (prima di iniziare)
☑ Ho controllato il FASTA
☑ Ho controllato l’header del BAM
☑ I nomi dei cromosomi coincidono
☑ Ho il file `.bai`
☑ Ho verificato la coverage con `samtools depth`
Se tutte sono ✔️ → puoi lanciare Longshot con sicurezza.
Files
archivio_Longshot_genoma.zip
Files
(7.1 GB)
| Name | Size | Download all |
|---|---|---|
|
md5:b0f30cd005447548fd77bb338565f68b
|
7.1 GB | Preview Download |
|
md5:ae5dd6b31447bf138326df13677363e3
|
4.1 kB | Preview Download |