Published January 22, 2026 | Version v1
Dataset Open

Archivio_longshot_genoma

Description

# README per studenti

## Analisi di varianti sul genoma completo del cane (ROS_Cfam_1.0)

Questo documento spiega **in modo completo e guidato** il significato e l’uso dei file:

* `*.fasta`
* `*.fasta.fai`
* `*.bam`
* `*.bam.bai`

utilizzati per il **variant calling con Longshot** sul **genoma completo del cane** (*Canis lupus familiaris*).

**Leggere tutto prima di lanciare comandi**: molti errori nascono da reference e coordinate sbagliate.

---

## 1. Il file FASTA del genoma (`combined_refs.fasta`)

### Cos’è

Il file `combined_refs.fasta` contiene le **sequenze di riferimento del genoma completo del cane**, una per ogni cromosoma.

Esempio di intestazioni:

```text
>1 dna:primary_assembly primary_assembly:ROS_Cfam_1.0:1:1:123313939:1 REF
>2 dna:primary_assembly primary_assembly:ROS_Cfam_1.0:2:1:86187811:1 REF
...
```

### Come leggerle

Ogni riga `>` descrive:

* **nome del cromosoma** (`1`, `2`, `3`, …)
* **assembly**: ROS_Cfam_1.0
* **coordinate**: da `1` a `LN` (lunghezza cromosoma)

Questo FASTA rappresenta **l’intero genoma**, non una porzione.

---

## 2. Il file FASTA index (`combined_refs.fasta.fai`)

### Cos’è

È l’**indice del FASTA**, creato con:

```bash
samtools faidx combined_refs.fasta
```

### A cosa serve

* Permette accesso rapido a singole regioni del genoma
* È **obbligatorio** per:

  * samtools
  * bcftools
  * Longshot

Senza `.fai`, i comandi con `chr:start-end` non funzionano correttamente.

---

## 3. Il file BAM (`*.bam`)

### Cos’è

Il file `.bam` contiene le **read di sequenziamento allineate** contro il reference FASTA.

Caratteristiche importanti:

* È un file binario (non leggibile a occhio)
* Contiene:

  * cromosoma
  * posizione
  * qualità
  * allineamento

### Controllo fondamentale (da fare SEMPRE)

Prima di ogni analisi, verificare il reference usato:

```bash
samtools view -H file.bam | grep '^@SQ' | head
```

Esempio corretto:

```text
@SQ SN:1 LN:123313939
@SQ SN:2 LN:86187811
```

I nomi (`SN`) e le lunghezze (`LN`) **devono combaciare** con il FASTA.

---

## 4. Il file BAM index (`*.bam.bai`)

### Cos’è

È l’**indice del BAM**, creato con:

```bash
samtools index file.bam
```

### A cosa serve

* Accesso rapido a regioni specifiche del BAM
* Necessario per:

  * `samtools view chr:start-end`
  * `samtools depth`
  * Longshot con `--region`

Se il BAM cambia, l’indice va rigenerato.

---

## 5. Coordinate genomiche: concetto chiave

Nel **genoma completo**:

* le coordinate partono da **1**
* arrivano fino alla lunghezza del cromosoma

Esempio valido:

```text
1:49662496-49740525
```

Queste coordinate hanno senso **solo se**:

* il BAM è allineato contro **lo stesso FASTA**
* i contig hanno lo stesso nome (`1`, non `CM025100.1`)

---

## 6. Verifica della copertura (passaggio OBBLIGATORIO)

Prima di lanciare Longshot:

```bash
samtools depth -r 1:49662496-49740525 file.bam | head
```

### Interpretazione

* **Output presente** → la regione è coperta → analisi sensata
* **Nessun output** → nessuna read → Longshot non troverà varianti

Questo controllo evita **minuti o ore di calcolo inutili**.

---

## 7. Uso corretto di Longshot (genoma completo)

Esempio standard:

```bash
longshot \
  --bam file_genoma.sorted.bam \
  --ref combined_refs.fasta \
  --out varianti_chr1.vcf \
  --region 1:49662496-49740525
```

---

## 8. Errore molto comune (da evitare assolutamente)

Usare coordinate genomiche su BAM di **adaptive sampling**
Usare BAM e FASTA non coerenti
Non controllare header e coverage

In caso di **adaptive sampling**, le coordinate sono **locali** (es. 1–800 kb) e **NON genomiche**.

---

## 9. Regola d’oro da ricordare

> **Le coordinate esistono solo rispetto al reference usato per l’allineamento.**
> BAM, FASTA e indici sono un unico sistema.

---

## 10. Checklist rapida per studenti (prima di iniziare)

☑ Ho controllato il FASTA
☑ Ho controllato l’header del BAM
☑ I nomi dei cromosomi coincidono
☑ Ho il file `.bai`
☑ Ho verificato la coverage con `samtools depth`

Se tutte sono ✔️ → puoi lanciare Longshot con sicurezza.

Files

archivio_Longshot_genoma.zip

Files (7.1 GB)

Name Size Download all
md5:b0f30cd005447548fd77bb338565f68b
7.1 GB Preview Download
md5:ae5dd6b31447bf138326df13677363e3
4.1 kB Preview Download