LSEG: Сегментный протокол интерпретации данных
Description
LSEG (Language Segment Encoding) — минималистичный и расширяемый сегментный протокол интерпретации потоков данных.
Каждый сегмент начинается с байта-маркера 0x00, после которого следует LANG_ID, определяющий выбор интерпретатора для последующей последовательности байтов.
В отличие от традиционных кодировок (UTF-8/UTF-16) и схемных форматов (Protobuf, ASN.1), LSEG жёстко разделяет:
-
структуру потока (границы сегментов),
-
механизм интерпретации (
LANG_ID→ парсер), -
собственно данные (
DATA).
Протокол обеспечивает самосинхронизацию, снижает энтропию смешанных потоков, повышает эффективность сжатия (до 70–80% под gzip/zstd) и допускает естественное смешение текста, бинарных блоков, структурированных подпотоков (JSON, XML), DSL-элементов, диагностических сообщений, логов и телеметрии.
LSEG не требует схем, не зависит от внутренних таблиц декодеров и остаётся неизменным при любой эволюции словарей и интерпретаторов.
Рекомендуемое расширение файлов: .lseg; MIME-тип: application/lseg.
Настоящий документ представляет основную спецификацию LSEG (v1).
Отдельная статья с инженерными приложениями будет опубликована как v1-engineering / v2-core.
Files
LSEG. A Segment-Based Protocol for Data Interpretation-ru.pdf
Files
(245.2 kB)
| Name | Size | Download all |
|---|---|---|
|
md5:05af79c3ac0417594ca6df0b8724b462
|
245.2 kB | Preview Download |