О программе SigmoID
Программа SigmoID предназначена для поиска регуляторных
последовательностей (промоторов, сайтов связывания транскрипционных
факторов, Rho-независимых терминаторов) в бактериальных геномах и
редактирования аннотации геномных последовательностей с учетом
регуляторной информации.
Внешний интерфейс SigmoID – это GUI-приложение, созданное в среде разработки Xojo,
что дает ему стандартный внешний вид во всех трёх поддерживаемых
операционных системах (OS X, Linux и Windows). GUI создаёт оболочку для
использования некоторых программ из пакетов HMMER, MEME Suite и TransTerm HP,
которые непосредственно отвечают за поиск. Обработка результатов
nhmmer, mast и TransTerm HP, преобразование форматов
последовательностей и добавление регуляторных сайтов к
аннотации геномов реализованы как отдельные скрипты на языке Python. Эти
скрипты вызываются из GUI, однако могут быть легко использованы и отдельно, а также, по желанию, их можно
интегрировать в конвейер аннотации. Подробная информация по установке предоставляется с дистрибутивами для каждой платформы. Исходный код всего приложения SigmoID доступен по лицензии GPL 2.0.
SigmoID позволяет:
- находить данные о сайте связывания в специализированных базах данных (RegPrecise и RegulonDB);
- визуализировать выровненные сайты связывания в виде лого последовательности;
- расширять и сокращать границы выравниваний, а также маскировать их малоконсервативные участки;
- создавать оптимизированные hmm-профили на основе выравниваний
последовательностей промоторов/сайтов связывания;
- искать промоторы/сайты связывания в бактериальных геномах с помощью
откалиброванных (или не откалиброванных) hmm-профилей;
- добавлять аннотацию промоторов и сайтов связывания
транскрипционных факторов в геномные файлы в формате GenBank;
- просматривать и редактировать аннотацию генома с помощью интегрированного геномного браузера,
- просматривать данные RNA-seq покрытия (и любые
другие "привязанные" к координатам цифровые данные) в геномном браузере.
Эта версия SigmoID включает два набора
откалиброванных профилей для сайтов связывания транскрипционных
факторов и небольшого числа промоторов, распознаваемых альтернативными
сигма-факторами. Наборы оптимизированы для 1) пектолитических
энтеробактериальных фитопатогенов из родов Pectobacterium и Dickeya и 2) представителей рода Pseudomonas.
Эффективность этих профилей для других бактерий будет ниже, однако, при
корректировке корректировке настроек они могут быть использованы для
родственных бактерий. Для большинства бактерий из других семейств
информация о многих сайтах связывания доступна через интегрированный
доступ к RegPrecise.
Поиск сайтов связывания производит nhmmer, который устанавливается в папку по умолчанию.
Добавление аннотаций в файлы GenBank осуществляется благодаря скрипту HmmGen.py,
который может быть использован отдельно. Для этого необходим BioPython (версии 1.64 и выше).
Установка
В настоящее время проверена работа SigmoID на платформах OS X
(10.8-10.11), Windows (Vista, 7-10) и Ubuntu (12.04 and 14.04).
Программа также может работать под другими дистрибутивами Linux при
условии установки всех необходимых библиотек.
Работа SigmoID в значительной мере зависит от интерпретатора языка
Python, поэтому функциональность программы будет сильно ограничена при
его отсутствии. Разные скрипты, включённые в SigmoID, требуют Python
версии 2.7 и не работают с версией 3.
В системах Linux и OS X Python уже должен быть установлен, тогда как
пользователи Windows могут скачать его на python.org.
Обратите внимание, что в Windows вы должны изменить системную
переменную PATH, включив в неё путь к Python. Наиболее простой способ
сделать это – выбрать "Add python.exe to path" в установщике (этот
пункт не отмечен по умолчанию!). Вы можете проверить, правильно ли
установился Python, набрав "python" в командной строке. Эта команда
должна запустить интерпретатор Python.
Biopython (v. 1.64+) должен быть установлен поверх
32-битной версии Python 2.7. Вы можете скачать дистрибутив и подробно прочесть об установке для вашей ОС на biopython.org. Пожалуйста, убедитесь, что вы скачали и установили программу именно для ваших ОС и версии Python.
В зависимости от настроек вашей системы, MEME
может дополнительно потребовать модули Python и Perl. Проверьте
основное окно SigmoID на предмет текстовых сообщений об ошибках и
установите недостающие модули, если это необходимо. Внутри SigmoID MEME
можно запустить двумя способами: как простой конвертер выровненных
последовательностей в МЕМЕ-формат (через команду меню Конвертировать в MEME-формат ) или для поиска сайтов связывания внутри не выровненных последовательностей (через команду меню Найти сайты с MEME).
Второй вариант выдаёт HTML-результат при помощи скрипта Perl и
опирается в работе на файлы шаблонов, которые МЕМЕ должен найти в
определённом месте. Следовательно, этот вариант будет работать только в
том случае, когда пакет МЕМЕ будет установлен пользователем, а путь к
установленой в системе версии будет указан в настройках SigmoID.
Существует два дистрибутива SigmoID для Linux: для
32-разрядной и 64-разрядной систем. Оба могут потребовать установки
дополнительных библиотек. 32-разрядная версия требует установки WebKit
v.1 для отображения справки и результатов поиска в базах данных.
WebKit1 входит в состав дистрибутива SigmoID для 32-разрядной Linux;
пожалуйста, прочтите файл SigmoID.sh для правильной команды запуска
SigmoID вместе с библиотеками WebKit1.
Поддерживаемые форматы файлов
SigmoID может открывать два типа файлов
последовательностей: геномов и сайтов связывания транскрипционных
факторов/промоторов.
SigmoID работает только с файлами аннотированных
геномных последовательностей, которые должны быть в формате GenBank, и
только они могут быть открыты в SigmoID через меню Файл.
Текущая версия геномного браузера может корректно открывать файлы
только с одной последовательностью в каждом из них. Вы
можете делать поиск в файлах с несколькими контигами при помощи nhmmer
(но не MAST), однако этот тип файлов не будет корректно отображаться в
геномном браузере.
SigmoID также может работать с
неаннотированными геномными
последовательностями в fasta-формате. Они не открываются
непосредственно в геномном браузере, однако могут быть выбраны как
цель для поиска nhmmer/MAST. Естественно, настройки фильтрации скриптов
пост-процессинга (HmmGen.py и MastGen.py), которые зависят от аннотации рамок
считывания в файлах .gbk-формата, не будут работать с
последовательностями в формате FASTA.
Файлы с последовательностями сайтов сязывания
ТФ/промоторов могут быть как в формате fasta, так и в специальном
формате профиля SigmoID (с расширением .sig). Последовательности сайтов
в FASTA-файлах должны быть одной и той же длины и выровнены.
Сталкиваясь с последовательностями разной длины, SigmoID выводит
сообщение об ошибке и не показывает лого последовательности; тем не
менее, последовательности загружаются (для просмотра последовательностей и/или для
выравнивания при помощи MEME).
Файлы формата профиля SigmoID
(расширение .sig) - это виртуальные папки, содержащие несколько
отдельных файлов: последовательности сайтов связывания в
fasta-формате, откалиброванные HMM- и MEME-профили, а также два
текстовых файла с описанием профиля и настройками поисковых программ и
постпроцессинговых скриптов. Содержимое файлов внутри виртуальной
.sig-папки можно просматривать в главном окне SigmoID через команды в меню Вид.
В SigmoID есть две скрытые команды меню для преобразования обычной
папки в .sig-файл и наоборот; их открывает удерживание нажатой кнопки
"Alt" во время выбора меню Файл.
Обратите внимание, что, в связи с текущим
ограничением Xojo, SigmoID не может корректно работать с виртуальными
папками на 64-разрядных устройствах, и по этой причине 64-разрядная
версия Linux преобразует все .sig-файлы в обычные папки. К ним можно
получить доступ только через панель инструментов главного окна и их
нельзя открыть при помощи любой из команд меню. Поэтому на 64-разрядной
Linux перенесите в текущую папку профилей те .sig-папки, которые могут
понадобиться вам в работе, и используйте меню левую кнопки на панели
инструментов главного окна, чтобы открыть их.
SigmoID может сохранять последовательности геномов в
файлах стандартного формата GenBank, экспортировать неаннотированную
геномную последовательность в формате FASTA и экспортировать таблицы
свойств в формате таблиц Sequin, требуемом программой tbl2asn
NCBI. Соответствующие команды расположены в меню Файл.
Интерфейс
Окна
Главное окно
Главное окно открывается при запуске SigmoID и делится на два основных элемента интерфейса: Просмотрщик вверху и панель Журнал ниже. Журнал
отображает информационные сообщения (включая ошибки), а также в
текстовом виде показывает результаты некоторых программ командной
строки и скриптов Python. Просмотрщик
скрыт во время запуска SigmoID и открывается только после того, как будут загружены данные о сайте связывания.
По умолчанию он отображает лого последовательности, но через меню Вид
может быть переключен на отображение другой информации для загруженных
данных.
Информация, которая может быть изображена в Просмотрщике, зависит от
типа открытого файла: для fasta-файлов могут быть показаны только лого
и последовательности, тогда как для .sig-файлов доступны все параметры.
Просмотрщик
может быть использован для редактирования последовательностей сайта
связывания, что приводит к двум результатам: лого последовательности
пересчитывается и все настройки профиля сбрасываются, потому что они
становятся недействительными (также это отображается в окне Мастер профиля).
Обратите внимание, что другая информация (настройки, описание,
HMM-профили и т.д.) не должны редактироваться здесь, так как это не
даёт никакого эффекта. Сохранены (в .sig-файле) и повторно использованы
могут быть только изменения, сделанные через окно Мастер профиля.
Лого последовательности, изображённое в Просмотрщике,
интерактивно и позволяет выбрать часть(части) выравнивания. Одиночная
область может быть выбрана путём перетаскивания мышкой через лого;
дополнительные области можно добавить, удерживая
"Shift". Выделение части лого(выравнивания) может иметь два применения.
Во-первых, можно сохранить последовательность выбранной области в новый
файл
fasta-формата (через команду Сохранить выделение профиля...
в меню Файл). Во-вторых, если вы начали nhmmer-поиск в то время, когда
часть выравнивания выделена, то эта часть не будет использована для
построения профиля (за счет маскировки с помощью программы alimask из
пакета
HMMER). Вы можете настроить параметры
маскировки в окне настроек nhmmer.
Пожалуйста, для уточнения обратитесь к Руководству Пользователя HMMER.
На панели инструментов находятся кнопки некоторых наиболее часто используемых функций. Крайняя левая кнопка "Load Alignment"
позволяет открывать данные о сайтах связывания как из fasta-файлов, так
и из .sig-файлов. Последние используются, если могут быть выбраны в
SigmoID в выпадающем меню. Пользовательские файлы можно открыть, просто
нажав на эту кнопку (в Linux или Windows), или выбрать "Подробнее" в
самом низу выпадающего списка (OS X).
Следующая кнопка - "Search", запускает поиск nhmmer с текущим загруженным профилем. Необработанные результаты поиска отображаются на панели Журнала.
Если был открыт .sig-файл, по умолчанию запускается скрипт Python для
постобработки , а также для отображения результатов поиска
открывается Окно геномного браузера. Для
не откалиброванных профилей (открытых из fasta-файлов) скрипт
постобработки должен быть запущен отдельно нажатием третьей кнопки на
панели инструментов - "PostProcess".
Обратите внимание, что исходный файл GenBank никогда не
перезаписывается; SigmoID спрашивает, куда сохранить файл в таком же
(GenBank) формате с теми изменениями, что он произвёл.
Четвёртая кнопка панели задач, "Terminators",
позволяет искать терминаторы. Эта функция использует TransTerm HP,
выполняет необходимые преобразования формата и добавляет терминаторы в
аннотацию генома. TransTerm требуется некоторое время, чтобы начать
процесс, результаты также могут появиться через несколько минут после
начала - в зависимости от вычислительной мощности.
Пятая кнопка, "Palindromise",
делает простую вещь - она разворачивает комлиментарную
последовательность загруженных в данный момент сайтов связывания,
добавляет их к текущим данным и пересчитывает лого последовательности.
Эта функция имеет смысл только для палиндромных сайтов и особенно
полезна, когда доступно всего несколько последовательностей. При поиске
с палиндромным профилем должен быть установлен флажок "Palindromic".
Эта функция не должна использоваться совсестно с MEME (так как MEME сам
делает нечто подобное). Также необходимо избегать использования
этой функции перед сохранением откалиброванного профиля через окно
Мастер профиля, так как установка флажка "Palindromic" в нём делает
абсолютно то же самое (и, в конечном итоге, у вас получится каждая
последовательность в двух экземплярах).
Все геномные команды поиска также доступны из меню Геном.
Последняя кнопка панели инструментов, "Settings", в настоящее время позволяет указать пути к программам, командной строке и ключевым скриптам, используемым GUI.
Окно геномного браузера
Это окно открывается после поиска сайтов связывания и
может быть использовано для беглого просмотра найденных сайтов. Также
браузер может быть использован для просмотра имеющегося GenBank-файла
отдельно от какой-либо функции поиска. Окно разделено на три
просмотрщика, которые отображают карту свойств (вверху), текущую
последовательность с шестью рамками трансляции (посередине) и
результаты поиска (в нижней части).
Карта свойств интерактивна и может быть использована для выбора либо
свойства - путём клика на нём, либо части отображаемого генома - путём
перетаскивания его мышкой. Выбранная последовательность может быть
скопирована в буфер обмена, использована в качестве запроса для запуска
поиска в базах данных, отредактирована или удалена. Соответствующие
команды находятся в контекстном меню (вызывается щелчком правой кнопки
мышки по объекту карты); также вы можете дважды щёлкнуть по нему, чтобы
открыть редактор. Обратите внимание, что в настоящее время в этом окне
не происходит проверка формата: будьте осторожны и используйте только
формат GenBank!
Двойной щелчок вне каких-либо объектов карты центрирует её относительно координат щелчка.
Поиск в базе данных может быть запущен через
контекстное меню. В зависимости от текущего выбора, меню будет
содержать команды для поиска (с BLAST) против nr-базы данных или(с
hmmer/BLAST) против баз данных SwissProt/Uniprot/CDD. Поскольку сервера
NCBI большую часть времени перегружены, поиск hmmer в SwissProt/UniProt
обычно проходит намного быстрее.
Результаты поиска отображаются в нижней части окна, которое, по сути,
является очень простым веб-браузером. Элементарная навигация
(Назад/Вперёд/Обновить/ здесь осуществляется через контекстное меню.
Вы можете вручную изменить размеры верхней и нижней
частей этого окна, перетащив разделитель (линия с тремя точками выше
панели браузера) вверх или вниз.
Панель инструментов, расположенная в верхней части
этого окна, может быть использована для навигации по последним/по
популярным результатам поиска hmmer; клавиши "стрелка влево" и "стрелка
вправо" также могут быть использованы для навигации. Подходящие
последовательности могут быть сохранены в текстовый файл (в
формате FASTA) через соответствующую команду в меню Геном. Флажок
справа от этого элемента следует использовать, чтобы исключить
нежелательные попадания при сохранении. Панель инструментов также
позволяет увеличить/уменьшить карту (крайний правый элемент со знаками
+/-) или производить поиск в геноме. Поле "умного" поиска может
различать три разных типа запросов (последовательность, координаты и
описание свойства) и выполнять поиск в соответствии с типом запроса.
Переход к следующему результату поиска можно осуществить горячими
клавишами Ctrl-G (Cmd-G на Mac OS) или с помощью команды в меню Геном.
Окна баз данных
Окна RegPrecise and RegulonDB
обеспечивают доступ к соответствующим базам данных с информацией о
регуляторах. Эти окна имеют сходный вид и принцип действия. Большую
часть каждого из окон занимает список регуляторов. Поскольку RegulonDB
содержит информацию только для E.coli, регуляторы отображаются сразу,
тогда как для RegPrecise вы должны сначала выбрать вид (из выпадающего
списка). В верхней части окна RegulonDB можно переключиться между
сайтами связывания ТФ и сигма-факторов,
а также отобрать сайты согласно уровню достоверности.
При нажатии на регулятор в списке активируются
кнопки внизу окна. Крайняя левая (с буквой "i") подключается к базе
данных и показывает информацию о регуляторе в новом окне.
Кнопка Проверить регулятор
расположена справа от кнопки информации, она может быть использована
для проверки наличия ТФ в открытом в данный момент геноме. Эта кнопка
неактивна, если нет открытого генома. Она соединяет с соответствующей
базой данных, чтобы получить аминокислотную последовательность
регулятора, а затем запускает поиск tfastx против открытого генома. Три
первых попадания в этом поиске отображаются на панели журнала в главном
окне. Так как уровни подобия между геномами сильно различаются, это
позволяет пользователям оценить их значение. Полезно произвести
ответное подтверждение: скопировать координаты самого высокого
попадания, найти соответствующую ОРС в геномном браузере и запустить
поиск-phmmer против SwissProt/Uniprot, чтобы увидеть, как исходный ТФ и
его очевидные ортологи занимают верхние попадания.
Обратите внимание, что путь к геному не должен
содержать пробелов! Это обусловлено путями отбработки информации
tfastx.
Кнопка Лого регулона
находится внизу, в правой части окна, и может быть использована для
загрузки данных о сайтах связывания для выбранного регулятора, а также
отобразить его лого в главном окне. Окно RegPrecise содержит
дополнительную кнопку для отображения лого сайтов связывания для
соответствующего регулога. В зависимости от количества сайтов,
доступных для регулятора, и их разнообразия, каждая из кнопок может
быть более или менее предпочтительной для использования.
Окно Мастер профиля
Это окно позволяет ввести настройки для получения откалиброванного
профиля. В верхней левой части окна находится список пороговых
значений, из которых только nhmmer gathering threshold строго необходим, поскольку используется nhmmer по умолчанию. Правильный выбор порогового значения может быть упрощён командой Find Minimal Score,
которая находит минимальное число сайтов связывания в обучающем наборе
данных.
Хотя для сохранения откалиброванного .sig-файла две другие границы
параметров nhmmer (и пороговое значение p-value MAST) не требуются, они
всё равно предпочтительны.
Ввод корректных параметров постобработки в
правом верхнем углу этого окна имеет решающее значение для создания
правильных дополнений к аннотации генома. Флажок Palindromic site
устанавливает соответствующие параметры при запуске MEME и MAST, а
также, при помощи nhmmer, позволяет отфильтровать перекрывающиеся
результаты, полученные для палиндромных сайтов.
Выбор параметра Use next locus_tag
подбирает описатель свободных концов локуса или гена для нижележащего
гена, когда это возможно (эти описатели не будут добавлены, если сайт
связывания расположен между генами, трансрибирующимися в разных
направлениях). Параметр Ignore sites within ORFs
может значительно уменьшить количество неспецифических попаданий для
"шумных" профилей. Тем не менее, данный параметр следует использовать с
осторожностью, так как он может удалить и некоторые специфические
попадания, особенно для репрессоров. Текст, введённый в поле protein name, будет использован как значение для описателя bound_moiety при добавлении сайтов в аннотацию генома.
Описание профиля должно быть набрано в текстовом поле в нижней части
окна. Оно необходимо, чтобы активировать кнопку "Save...", и должно
включать в себя информацию об источнике(источниках) данных, а также
описание процедуры создания профиля.
Если .sig-файл уже открыт, то все настройки из этого
файла отображаются в Мастере профиля.
Тем не менее, эти значения будут удалены при редактировании выровненной
последовательности. Если вы хотите предотвратить это, нажмите кнопку Lock, находящуюся справа внизу в этом окне.
Окна настроек команд
Это простые окна, которые в большинстве случаев открываются перед
запуском консольных утилит (nhmmer, meme, mast, TransTerm HP), скриптов
Python и дают возможность изменять некоторые параметры. Функции этих
параметров, в целом, очевидны, но для большинства из них также есть
подсказки: для их появления около секунды удерживайте указатель мыши на
парамере.
Окна веб-браузера и справки
Минималистичое окно веб-браузера используется для отображения
информации из баз данных RegPrecise и RegulonDB, а также справки
SigmoID. Если это кажется неудобным, то ссылку можно скопировать (через
контекстное меню) и открыть в другом браузере на ваш выбор.
Окно параметров SigmoID
Это окно открывается через команду Параметры... меню SigmoID на OS X, в
меню Правка в Windows/Linux или нажатием крайней правой кнопки панели
инструментов главного окна. Кнопки в верхней части окна параметров
позволяют переключаться между тремя панелями.
Эти панели позволяют:
1) Установить пути к содержащим исполнимый код файлам (nhmmer, meme,
mast и т.д.), используемым SigmoID. Это может оказаться полезным в тех
случаях, когда SigmoID не может найти некоторые из требуемых программ
или если вы хотите использовать уже установленные в вашей системе. Вы
также можете сбросить все заданные пути на пути по умолчанию
(указывается расположение файлов, распространяемых вместе с SigmoID) с
помощью кнопки в левом нижнем углу этого окна.
2) Выбрать базы данных, в которых BLAST будет вести поиск, и, при
надобности, ограничить область поиска до таксона более низкого ранга,
чтобы ускорить процесс. Также эта панель позволяет переключаться между
двумя форматами вывода результатов с веб-сервера HMMER: html с полными
графическими данными (по умолчанию) или простым текстовым. Обратите
внимание, что html-формат должен поддерживаться html-движком вашей
системы (который используется SigmoID), однако это не обязательно. В
частности, ни одна из версий Internet Explorer, по-видимому, не
способна по умолчанию отображать html-результаты с сервера HMMER.
WebKit 1.0 также не используется SigmoID под 32-разрядной Linux.
Поэтому, при работе в 32-разрядных Windows и Linux, должен быть
использован обычный текстовый формат.
3) Переключиться на другую папку с откалиброванными профилями с той,
которая идёт вместе с SigmoID. Профили именно из этой папки будут
доступны через крайнюю левую кнопку панели задач главного окна. И
только данные профили должны быть использованы функцией Сканировать геном....
Пункты меню
Файл
Меню содержит стандартные команды "открыть" и
"сохранить", разделённые на три группы. Самая верхняя содержит команды,
связанные с выравниванием/профилями, следующая - с файлами генома.
Открыть профиль...
Вызывает диалоговое окно Открыть..., где можно
выбрать профиль/выравнивание, сохранённое на локальном диске. SigmoID
может открывать файлы собственного формата (.sig) или текстовые файлы
формата fasta. Файл должен иметь одно из следующих расширений: .sig,
.fasta, .fas, .fsa,
.fa.
Сохранить профиль как...
Становится доступной, если последовательности сайтов
связывания были изменены. Вместо непосредственного сохранения
изменений, эта команда открывает окно Мастер профиля,
которое позволяет вводить новые параметры профиля и сохранять
выравнивания в .sig-файле. Если вы хотите сохранить только
последовательности в формате fasta, воспользуйтесь следующей командой.
Сохранить выделение профиля...
Сохраняет (в формате fasta
) часть профиля, соответствующую выбранному участку последовательности лого.
Сохранить рисунок лого
Делает то, что указано, в формате PNG.
Закрыть
Закрывает текущее окно. Главное окно не может быть закрыто этой командой.
Открыть геном...
Вызывает диалоговое окно Открыть..., в котором можно
выбрать файл генома, находящийся на локальном диске. Файл должен быть в
формате GenBank и иметь расширение .gb или .gbk.
Сохранить геном
Сохраняет файл, который открыт в окне геномного браузера, под тем же именем.
Сохранить геном как...
Сохраняет открытый в геномном браузере геном под другим именем.
Экспортировать последовательность ДНК...
Экспортирует нуклеотидную последовательность текущего генома в виде
обычного текстового файла в формате fasta.
Экспортировать белковые последовательности...
Экспортирует белковые последовательности каждой рамки считывания текущего генома в виде
обычного текстового файла в формате fasta.
Экспортировать таблицу свойств...
Экспорт таблицы свойств в формате таблиц GenBank
Sequin. Полученный .tbl-файл может быть использован для подготовки к
отправке в GenBank при помощи tbl2asn.
Выйти
Закрывает все окна SigmoID и полностью выходит из
программы. Если профиль или геном не были сохранены, то при выборе этой
опции SigmoID сначала предложит вам сохранить изменения.
Правка
Undo
Отменяет последнее действие редактирования, которое
было сделано в активном текстовом поле. К сожалению, Undo не отменяет
изменения, сделанные в файлах генома.
Вырезать
Копирует выбранный текст в буфер обмена и удаляет его из исходного положения.
Копировать
Копирует выделенный текст в буфер обмена. В геномном
браузере эта команда копирует нуклеотидную последовательность.
Копировать аминокислотную последовательность
Если в геномном браузере выделена белок-кодирующая
последовательность, то эта команда копирует её аминокислотную
последовательность в буфер обмена.
Вставить
Вставляет из буфера обмена текст, который был
скопирован при помощи команд Вырезать или Копировать, в положение
курсора.
Очистить
Удаляет выделенный текст.
Выделить всё
Выделяет весь текст в активном текстовом поле.
Параметры...
Открывает окно SigmoID Preferences для изменения
персональных настроек SigmoID. В настоящее время позволяет только
задавать пути к исполняемым файлам. На OS X это подменю находится в
меню SigmoID.
Вид
Это меню используется для изменения информации, отображаемой в главном окне и в геномного браузера. Только последняя команда, Просмотреть детали, имеет отношение к геномному браузеру. Остальные команды связаны с главным окном и переключают тип отображаемой в самой верхней панели Просмотрщика
информации. Это меню позволяет просматривать содержимое всех
компонентов .sig-файла, который на самом деле является виртуальной
папкой и содержит шесть текстовых файлов. Т.о., оно позволяет
просматривать информацию, содержащуюся в .sig-файлах.
Редактировать последовательности можно непосредственно в Просмотрщике,
в то время как остальную часть информации можно изменять только
через Мастер профиля.
Лого
Отображает
последовательность лого для последовательностей открытых .sig или
fasta-фалов (или для загруженных из баз данных RegPrecise или
RegulonDB). В настоящее время лого рассчитывается с использованием
оригинальной формулы Т. Шнайдера (1986) без мелких корректировок
выборки.
Последовательности
Показывает текущую нуклеотидную последовательность для загруженных
данных сайта связывания. Вы можете редактировать последовательности
прямо в этом поле, но, если вы хотите использовать эти данные дальше,
вам необходимо переключиться в режим просмотра лого - это закочит
редактирование и пересчитатает лого и HMM-профиль.
Информация о профиле
Описание профиля, данное его автором. Доступно только для данных из .sig-файлов.
Hmm-профиль
Откалиброванный Hmm-профиль, полученный hmmbuild при создании .sig-файла. Доступно только для данных из .sig-файлов.
MEME data
Те же последовательности в формате МЕМЕ. Они
используются для поисков MAST. Доступно только для данных из
.sig-файлов.
Настройки профиля
Различные настройки, включая пороговые значения калибровки профиля и
параметры постобработки. Доступно только для данных из .sig-файлов.
Спрятать просмотрщик
Скрывает/показывает Просмотрщик в главном окне, чтобы выделить больше/меньше места под панель журнала.
Просмотреть детали
Показывает/скрывает отображение последовательности с шестью рамками трансляции в окне геномного браузера.
Профиль
Расширить сайт связывания
Открывает небольшое окно, в котором можно указать
левый и правый пределы расширения, а также файл генома для поиска. Эта
команда находит каждую последовательность открытого сайта связывания в
геномной последовательности и добавляет указанное количество оснований
справа и слева. Результаты записываются в журнале.
Конвертировать в Stockholm-формат
Преобразование текущего профиля в минимальный
Stockholm-формат (в соответствии с требованиями hmmbuild) и вывод
результатов в Журнал.
Конвертировать в Hmm-формат
Запускает hmmbuild из пакета HMMER для создания
hmm-профиля, который может быть использован в качестве исходных данных
для nhmmer.
Конвертировать в MEME-формат
Запускает MEME вместе с загруженными
последовательностями сайтов связывания и выводит результаты в виде
обычного текста в Журнале.
Эти результаты могут быть использованы в качестве исходных данных для
MAST (на самом деле, запуск MAST с не откалиброванными данными МЕМЕ
вначале запускается точно таким же образом).
Найти сайты в МЕМЕ
Показывает окно, позволяющее настроить параметры МЕМЕ. Для этой команды
МЕМЕ настроен на вывод результатов в html-формате, следовательно, они
отображаются в окне веб-браузера. Эта команда может быть полезна при работе с выровненными данными, например, из RegulonDB.
В данный момент команда недоступна в SigmoID для Windows. Пожалуйста, используйте команду Конвертировать в MEME-формат которая запускает тот же самый процесс, однако результаты выводятся в текстовом виде и в Журнале главного окна.
Мастер профиля...
Открывает окно Мастер профиля, в которое можно ввести параметры откалиброванного профиля, а затем сохранить его в виде .sig-файла.
Регулон
Два первых пункта этого меню обеспечивают доступ к базам данных с информацией о регулонах. База данных RegPrecise содержит доброкачественную информацию о сайтах связывания многих бактерий, тогда как RegulonDB это специализированная база данных о регулонах E. coli. Хотя информация из RegulonDB в большинстве случаев требует дополнительных шагов
перед использованием, в ней имеются данные о регуляторах, которые не
представлены в RegPrecise. При использовании данных из RegulonDB для
геномов, отличных от E. coli, целесообразна проверка на присутствие ортологов ТФ в исследуемом геноме. Это может быть сделано при помощи команды Проверить регулятор.
RegPrecise...
Открывает окно доступа к базе данных RegPrecise.
RegulonDB...
Открывает окно доступа к базе данных RegulonDB.
О регулоне
Открывает веб-страницу RegPrecise или RegulonDB с информацией для регулона, выбранного в одном из окон баз данных.
Показать лого
Показывает лого сайтов связывания выбранного регулятора в главном окне
SigmoID. Для данных RegPrecise результаты обычно могут быть
использованы в поиске nhmmer/mast. Сайты связывания из RegulonDB часто
не выровнены, поэтому рекомендуется использовать команду Найти сайты в МЕМЕ из меню Профиль, что может оказаться полезным (или нет).
Проверить регулятор
Эта команда позволяет получить последовательность
регуляторного белка из RegulonDB и запустить поиск tfastx для сравнения
с открытым геномом. Три первых результата поиска tfastx отображаются в
журнале главного окна SigmoID. Мы рекомендуем проводить взаимную
проверку координат лучшего попадания, чтобы найти его в текущем геноме
и запустить поиск phmmer в сопоставлении с базой данных SwissProt. В
случае ортологии, оригинальный регулятор должен отображаться как лучшее
попадание E. coli .
На данный момент, эта функция недоступна для RegPrecise, так как
прямого пути получения последовательности регулятора из этой базы
данных нет.
Найти минимальную оценку
Может быть полезна при определении предельных
значений поиска.
Эта команда может быть запущена, только если уже был запущен поиск
nhmmer, и его результаты отображены в окне геномного браузера. Эта
функция просто сравнивает текущие попадания в тренировочной
последовательности (оригинальных сайтах связывания, открытых в главном
окне), выводит из неё самую низкую оценку и перечисляет пропущенные
попадания. Самые низкие и самые высокие найденные неспецифические
оценки также принимаются как проверенные nhmmer и пределом шума в окне Мастера профиля.
Если предел шума оказывается ниже, чем встречаемость, их среднее
значение вводится в этом же окне как предел встречаемости (в противном
случае, здесь вводится значение проверенного предела). Порог
встречаемости в действительности будет использоваться для дальнейших
поисков. В зависимости от исходных данных и текущего генома, такой
простой подход может привести к ошибке в выборе верных значений. Вы всё
ещё должны тщательно проверить, являются ли эти оценки теми, которые
вам необходимы! Также обратите внимание, что данная команда не может
найти сайты с избытком оснований или пробелами.
Геном
Это меню содержит команды, связанные с геномом, и в основном
направленные на различные способы поиска регуляторной информации в
открытом геноме.
Поиск nhmmer...
Открывает окно, позволяющее настраивать
запуск nhmmer, который является основной поисковой системой в SigmoID.
Эта функция доступна, если загружены данные сайта связывания (и лого
последовательности этого сайта отображается в главном окне). Для
того, чтобы запустить поиск, выберите файл с последовательностью генома
в формате GenBank или критическую оценку (что имеет решающее значение
для получения достоверных результатов). Если загружен откалиброванный
профиль, то достоверная критическая оценка уже будет выбрана.
Необработанные результаты поиска отображаются на панели Журнала.
Если вы уверены, что предельная частота верна, вы можете поставить
флажок напротив "Add annotation to the genome", что для фильтрации
результатов nhmmer запустит скрипт Python HmmGen.py, добавит сайты
связывания в аннотацию генома и откроет обновлённую геномную
последовательность в окне геномного браузера.При открытии откалиброванного профиля (.sig-файл), этот скрипт запускается по умолчанию. Для не откалиброванных профилей
(открытых из файлов fasta-формата) скрипт постобработки запускается отдельно через команду Добавить сайты к аннотации....
Добавить сайты к аннотации...
Открывает окно, позволяющее настроить и запустить скрипт Python HmmGen.py (HmmGen.py)
для фильтрации результатов nhmmer, добавить сайты связывания к
аннотации и открыть обновлённую последовательность генома в окне геномного браузера.
Использование этой команды отдельно от поиска nhammer, при выборе
правильных параметров поиска, может быть удобным для не
оптимизированных профилей. Эта команда никогда не изменяет исходный
файл GenBank, однако записывает новый (и предлагает сохранить его), с
дополнениями, которые она делает.
Поиск MAST...
Открывает окно, позволяющее запустить MAST из пакета МЕМЕ Suite.
Обратите внимание, что, по сравнению с nhmmer, MAST не был тщательно
проверен в SigmoID. В окне настроек находится минимум параметров (в
основном, только один - значение критической частоты e-value), однако,
при необходимости, можно ввести дополнительные. Они будут добавлены в
конец командной строки MAST. Если открыт не откалиброванный профиль,
то, для преобразования последовательности сайта связывания в требуемый
формат, перед MAST откроется МЕМЕ. Необработанные результаты поиска (и,
если МЕМЕ был запущен, то и их выходные данные) появляются в
панели Журнала. Флажки в нижней части этого окна необходимы, чтобы SigmoID показывал результаты, отфильтрованные скриптом постобработки (MastGen.py), в окне геномного браузера с или без изменения аннотации.
Поиск терминаторов...
Открывает окно настроек и запуска TransTerm HP для поиска терминаторов.
Эта команда производит необходимые преобразования формата и добавляет
терминаторы в аннотацию генома (при помощи скрипта TermGen.py).
Так как TransTerm требует некоторого времени для запуска, вывод
результатов может занять несколько минут в зависимости от
вычислительной мощности.
Сканировать геном...
Эта
команда предназначена для полногеномного сканирования всех доступных
откалиброванных профилей с минимальным вмешательством пользователя. Вы
можете выбрать нужные профили (или использовать все из них) и отметить,
будет ли производиться поиск терминаторов. После нажатия кнопки "Run!"
SigmoID, при помощи скрипта HmmGen.py, запускает nhmmer со всеми
выбранными профилями, используя предварительные настройки, с
последующим поиском терминаторов. Результаты будут записаны в указанный
вами файл формата GenBank.
Если профилей много, то эта функция требует некоторого времени для
запуска.
Сохранить отмеченные сайты...
Сохраняет в текстовый файл (в формате fasta) попадания из последнего
поиска, в данный момент отображаемые в геномном браузере. Флажок справа
от навигационных стрелок на панели задач геномного браузера может быть
использован для исключения нежелательных попаданий при
сохранении.
Перечислить регулоны...
Выводит в Журнале главного окна либо одиночный регулон (под контролем
специфического регулятора), либо все регулоны, аннотированные в геноме
на данный момент. Регулоны выводятся по последовательному перечислению
оперонов/дивергонов, контролируемых регулятором. Для выполнения этой
команды оперон определяется как гены между сайтами связывания и
ближайшим терминатором или протяжённым межгенным пространством. Два
по-разному транскрибирующихся оперона описываются как один дивергон с
сайтом связывания регулятора посередине. Окно настроек, открывающееся
этой командой, позволяет выбрать критерии для начала оперона и
запустить процесс.
Найти
Эта команда просто помещает курсор в поле поиска в окне геномного
браузера, находящегося в верхнем правом углу. Поле поиска может
распознать три типа запросов (последовательности, координаты или
описание свойства) и выполнить поиск в соответствии с типом запроса.
Введите запрос и нажмите "Enter" на клавиатуре, чтобы начать поиск.
Положение первого появления запроса в геноме будет выделено.
Найти снова
Выделяет следующую по отношению к предыдущему запросу позицию в геноме.
Добавить график...
Эта команда может быть использована либо для
визуализации данных секвенирования РНК при помощи samtools (пожалуйста,
прочтите инструкции),
либо простых цифровых данных (например, %GC). До четырёх пересекающихся
изображений могут быть показаны в области графика - просто используйте
команду Add Plot…
повторно. Все графики показываются в одной и той же области, что
позволяет, к примеру, сравнить данные секвенирования РНК в двух
условиях и для обеих цепей. Каждый график масштабируется по
отдельности, так что максимальный значения, нанесённые на график
(отображаются справа и слева) при сравнении графиков должны быть
приняты во внимание.
Убрать графики
Удаляет все отображённые графики.
Объединить данные графика...
Эта вспомогательная команда, которая может быть
использована для объединения двух файлов данных, полученных при помощи
функции depth samtools. Это необходимо, чтобы правильно отобразить
последовательность РНК в соответствии с данными инструкциями.
Окно
Список всех открытых в данный момент окон SigmoID.
Выбор окна из этого списка перемещает его на передний план.
Справка
О программе SigmoID
Отображает окно с информацией о SigmoID, включая текущую версию и краткий список разработчиков.
Справка SigmoID
Открывает окно просмотрщика Справки.
HMMER User Guide
Открывает из дистрибутива пакета HMMER (в программе
просмотра PDF по умолчанию) Руководство пользователя HMMER .
Hmmer.org
Открывает веб-сайт HMMER в окне веб-браузера.
Веб-портал MEME Suite
Открывает главный веб-сайт MEME Suite в окне браузера.
Использование SigmoID для визуализации данных секвенирования РНК
SigmoID может отображать графики покрытия
последовательности РНК, что может быть очень полезно для проверки
регуляторных последовательностей и границ оперона. В настоящее время,
SigmoID не включает в себя все необходимые функции и может только
загрузить и отобразить прочитанные вычисленные значения. Они могут быть
получены различными способами, один из которых (не обязательно лучший)
будет описан ниже. Такой подход требует bowtie2 для чтения картирования и samtools для обработки получившегося файла.
Команды для получения необходимых файлов в случае
спаренного чтения описаны ниже. Переключатели -p 8 и -@ 8 запускают
задачи bowtie и samtools на восьми ядрах процессора: настройте их под
свою систему.
Приведённые ниже команды подразумевают, что геномный
файл называется "genome.fasta", а файлы с данными последовательности
РНК - "read1.fastq"
and "read2.fastq".
1. Проиндексируйте ваш файл генома:
bowtie2-build genome.fasta genome_index
2. Картируйте прочтения вашей последовательности:
bowtie2 -x genome_index -p 8 --very-sensitive-local --no-mixed --no-discordant -1 read1.fastq -2 read2.fastq -S mapped.sam
3. Преобразуйте sam в bam, отсортируйте и проиндексируйте его:
samtools view -bS -@ 8 mapped.sam | samtools sort -@ 8 - mapped.bam
samtools index mapped.bam mapped.bai
4. Удалите прочтения с качеством картирования ниже 2 (которые отображают больше, чем в одном месте):
samtools view -b -q 2 -@ 8 mapped.bam > mapped2.bam
5. Разделите sam-файл внутри отображений прочтений на смысловую и
антисмысловую цепи. Так как чтение картирования спаренных концов разных
цепей и их извлечение samtools не может проходить одновременно,
samtools запускается четыре раза:
samtools view -b -@ 8 -f 99 mapped2.bam > sense1.bam
samtools view -b -@ 8 -f 147 mapped2.bam > sense2.bam
samtools view -b -@ 8 -f 83 mapped2.bam > antisense1.bam
samtools view -b -@ 8 -f 163 mapped2.bam > antisense2.bam
Примечание: три дополнительных бита добавляются к -f для исключения не
картированных или картированных неправильно прочтений, что конкретно в
данном случае не требуется (но и вреда не принесёт)
6. Посчитайте прочтения:
samtools depth sense1.bam > sense1.depth
samtools depth sense2.bam > sense2.depth
samtools depth antisense1.bam > antisense1.depth
samtools depth antisense2.bam > antisense2.depth
7. Откройте файл генома в SigmoID и объедините подсчитанные прочтения для смысловой и антисмысловой цепей, используя команду Merge Plot Data... из меню Геном.
8. Загрузите объединённые данные подсчитанных прочтений для смысловой цепи, используя команду Add Plot... из меню Геном, затем загрузите данные для антисмысловой цепи той же самой командой. Повторите для другого образца.
Python Scripts
The scripts described below process output produced
by various search programmes, perform format conversions and add
features to genome annotation. The scripts are called by SigmoID GUI
when necessary, but can be used separately if desired. Type the command below in terminal to get help on command line usage:
python <path_to_the_script> -h
HmmGen.py
SigmoID processes nhmmer results (table of hits) with the help of the HmmGen.py
python script, adding corresponding feature annotations to the genbank
file being searched and saving the result in a new file. Some useful
options are provided to make annotation more convenient. These you can
find in the "HmmGen Settings" window, which pops up after clicking the "Postprocess" button in the main window.
To run the script, enter the appropriate threshold
(either bit score or E-value). By default SigmoID chooses the same
value that was used to run nhmmer, but you can increase the bit score or decrease the E-value to reduce the number of hits without re-running nhmmer.
To filter out all intragenic hits, check the "Consider intergenic regions only" box. nhmmer
reports hits on both strands, and in the case of palindromic sites
there will be two hits with the same coordinates and identical (or very
close) scores. To remove one of the duplicate sites, check the "Palindromic site" checkbox.
This script can also add 'locus_tag' and 'gene'
qualifiers to the feature being annotated, but please note that GenBank
will object such additions if you later decide to submit this sequence
to the database. If you are certain you really want this addition,
check the "Add qualifier" box.
Choose feature type ("promoter" or "protein_bind") from the "Feature to add:"
box (or just type in the valid feature type). The window also allows to
configure one qualifier for this feature. The qualifier name could be
typed in, but it should remain as 'protein_bind' in most cases. A valid
protein name should be entered in the field to the right.
Pressing the Run
button will ask you for the name of the file in which you'd like to
save the genome sequence with modified annotation. If the "Show hits in
genome browser" box is checked, You'll see the results in the browser
window. The script also appends the detailed text report to the log
pane.
MastGen.py
This script allows to add features to a genbank file
according to MAST results. From SigmoID it is called when
usage:
MastGen <report_file> <input_file> <output_file> [options]
positional arguments:
report_file path to MAST report file produced with -tblout option.
input_file path to input GenBank file.
output_file path to output GenBank file.
optional arguments:
-h, --help show this help message and exit
-L <integer>, --length <integer>
final feature's length in genbank file
-q [<key#"value"> [<key#"value"> ...]], --qual [<key#"value"> [<key#"value"> ...]]
add this qualifier to each annotated feature.
-p, --palindromic filter palindromic sites.
-n, --name don't pick 'locus_tag' and 'gene' qualifiers from the
next CDS feature.
-V <float or integer>, --pval <float or integer>
threshold E-Value.
-S <float or integer>, --score <float or integer>
threshold Bit Score.
-i, --insert don't add features inside CDS
-d, --duplicate no duplicate features with the same location and the
same protein_bind qualifier value
-v, --version show program's version number and exit
-f <"feature key">, --feature <"feature key">
feature key to add (promoter, protein_bind etc.)
TermGen.py
This script allows to add terminators to a genbank file according to TransTerm HP results.
usage:
TermGen <input_file> <output_file> [options]
positional arguments:
input_file path to input GenBank file.
output_file path to output GenBank file.
optional arguments:
-h, --help show this help message and exit
-o <path>, --output <path>
redirects TransTerm HP output file to directory given
-C <integer>, --confidence <integer>
threshold Score.
--minstem <integer> Stem must be n nucleotides long
--minloop <integer> Loop portion of the hairpin must be at least n long
--maxlen <integer> Total extent of hairpin <= n NT long
--maxloop <integer> The loop portion can be no longer than n
-v, --version show program's version number and exit
ptt_converter.py
This script allows to convert genbank file into .ptt file format.
usage:
Genbank to PTT converter <input_file>
positional arguments:
input_file path to input Genbank file.
optional arguments:
-h, --help show this help message and exit
-v, --version show program's version number and exit
OperOn.py
This script finds putative operons between regulator binding sites and/or terminators/long intergenic gaps.
usage:
OperOn <input_file> [options]
positional arguments:
input_file path to input GenBank file.
optional arguments:
-h, --help show this help message and exit
-g <int>, --gap <int>
minimal gap between operons
-i <int>, --indent <int>
maximal distance from binding site to the first
downstream CDS
-t, --terminator terminators are regarded as operon separator
-r <name of regulator>, --regulator <name of regulator>
only specified regulators are considered
-p, --palindromic treat all binding sites as palindromic
-s, --strict operon stops on first terminator (if -t is set)
-v, --version show program's version number and exit
gbk2tbl.py
This script allows to convert GenBank file into .tbl file format. The resulting table is output to stdout.
usage:
Genbank to .tbl converter <input_file> [options]
positional arguments:
input_file path to input GenBank file.
optional arguments:
-h, --help show this help message and exit
-f, --fasta creates fasta from genbank file.
-p PREFIX, --prefix PREFIX
sequencing centre prefix.
-t, --translation adds translation qualifier to CDS features in .tbl
-v, --version show program's version number and exit