Non-Neutral by Design: Why Generative Models Cannot Escape Linguistic Training
Contributors
Researcher:
Description
Abstract
This article investigates the structural impossibility of semantic neutrality in large language models (LLMs), using GPT as a test subject. It argues that even under strictly formal prompting conditions—such as invented symbolic systems or syntactic proto-languages—GPT reactivates latent semantic structures drawn from its training corpus. The analysis builds upon prior work on syntactic authority, post-referential logic, and algorithmic discourse (Startari, 2025), and introduces empirical tests designed to isolate the model from known linguistic content. These tests demonstrate GPT’s consistent failure to interpret or generate structure without semantic interference. The study proposes a falsifiable framework to define and detect semantic contamination in generative systems, asserting that such contamination is not incidental but intrinsic to the architecture of probabilistic language models. The findings challenge prevailing narratives of user-driven interactivity and formal control, establishing that GPT—and similar systems—are non-neutral by design.
A mirrored version of this article is also available on Figshare for redundancy and citation indexing purposes: [DOI: 10.6084/m9.figshare.29263493.v1]
Resumen
Este artículo investiga la imposibilidad estructural de neutralidad semántica en los modelos de lenguaje de gran escala (LLMs), utilizando GPT como caso de prueba. Sostiene que, incluso bajo condiciones estrictamente formales —como sistemas simbólicos inventados o proto-lenguajes sintácticos sin contenido semántico—, GPT reactiva estructuras semánticas latentes provenientes de su corpus de entrenamiento. El análisis se apoya en trabajos previos sobre autoridad sintáctica, lógica post-referencial y discurso algorítmico (Startari, 2025), e introduce pruebas empíricas diseñadas para aislar al modelo de cualquier contenido lingüístico reconocible. Estas pruebas demuestran que GPT falla sistemáticamente al intentar interpretar o generar estructuras sin interferencia semántica. El estudio propone un marco falsable para definir y detectar la contaminación semántica en sistemas generativos, afirmando que dicha contaminación no es incidental, sino intrínseca a la arquitectura de los modelos probabilísticos de lenguaje. Los hallazgos desafían las narrativas dominantes sobre la interactividad controlada por el usuario y la posibilidad de control formal, estableciendo que GPT —y sistemas similares— no son neutrales por diseño.
Files
Non-Neutral by Design.pdf
Files
(4.9 MB)
Name | Size | Download all |
---|---|---|
md5:9ebc7f5efc4c3849c7e268c18b5e8bf3
|
4.9 MB | Preview Download |