Published December 2, 2025 | Version v1
Preprint Open

LSEG: Сегментный протокол интерпретации данных

Authors/Creators

  • 1. AstraVerge Research

Description

LSEG (Language Segment Encoding) — минималистичный и расширяемый сегментный протокол интерпретации потоков данных.
Каждый сегмент начинается с байта-маркера 0x00, после которого следует LANG_ID, определяющий выбор интерпретатора для последующей последовательности байтов.

В отличие от традиционных кодировок (UTF-8/UTF-16) и схемных форматов (Protobuf, ASN.1), LSEG жёстко разделяет:

  • структуру потока (границы сегментов),

  • механизм интерпретации (LANG_ID → парсер),

  • собственно данные (DATA).

Протокол обеспечивает самосинхронизацию, снижает энтропию смешанных потоков, повышает эффективность сжатия (до 70–80% под gzip/zstd) и допускает естественное смешение текста, бинарных блоков, структурированных подпотоков (JSON, XML), DSL-элементов, диагностических сообщений, логов и телеметрии.

LSEG не требует схем, не зависит от внутренних таблиц декодеров и остаётся неизменным при любой эволюции словарей и интерпретаторов.
Рекомендуемое расширение файлов: .lseg; MIME-тип: application/lseg.

Настоящий документ представляет основную спецификацию LSEG (v1).
Отдельная статья с инженерными приложениями будет опубликована как v1-engineering / v2-core.

Files

LSEG. A Segment-Based Protocol for Data Interpretation-ru.pdf

Files (245.2 kB)