There is a newer version of the record available.

Published August 11, 2025 | Version v3
Preprint Open

The Invention of Conceptometry

Description

Abstract (English)

Quantitative text analysis has traditionally focused on lexical metrics, such as lexical density, or on exploratory semantic approaches. However, a systematic method for quantifying the "conceptual richness" of a text in relation to its length, while accounting for the intrinsic complexity of the expressed ideas, is currently lacking. This paper introduces Conceptometry, a new scientific discipline for the systematic measurement of the density, distribution, and complexity of concepts within a text. We propose a theoretical framework and a computational methodology based on concept extraction via Natural Language Processing (NLP), followed by a complexity assessment through a weighting system based on semantic depth (Fd) and abstraction factors (Fa). Several key metrics are defined and formalized: Raw Conceptual Density (DCg), Weighted Conceptual Density (DCp), the Conceptual Redundancy Index (IRC), and Informational Efficiency (EI). Potential applications range from analyzing communicative efficiency in scientific literature and the cognitive complexity of educational materials, to the objective quality assessment of AI-generated content. This work lays the foundation for a new paradigm in the quantitative analysis of language and information.

Author's Note on Drafting Process This work has benefited from the use of Large Language Models (LLMs) as cognitive tools to assist in the initial organization of ideas and the generation of early text drafts. All content has been subsequently revised, refined, and versioned by the author to ensure conceptual accuracy, coherence, and originality.

 

Abstract (Italiano)

L'analisi quantitativa dei testi si è tradizionalmente concentrata su metriche lessicali, come la densità lessicale, o su approcci semantici esplorativi. Tuttavia, manca un metodo sistematico per quantificare la "ricchezza concettuale" di un testo in relazione alla sua lunghezza, tenendo conto della complessità intrinseca delle idee espresse. Questo paper introduce la Concettometria, una nuova disciplina scientifica finalizzata alla misurazione della densità, distribuzione e complessità dei concetti all'interno di un testo. Proponiamo un framework teorico e una metodologia computazionale che si basa sull'estrazione di concetti tramite Natural Language Processing (NLP), seguita da una valutazione della loro complessità attraverso un sistema di pesi basato su fattori di profondità semantica (Fd) e astrazione (Fa). Vengono definite e formalizzate diverse metriche chiave: la Densità Concettuale Grezza (DCg), la Densità Concettuale Ponderata (DCp), l'Indice di Ridondanza Concettuale (IRC) e l'Efficienza Informativa (EI). Le potenziali applicazioni spaziano dall'analisi dell'efficienza comunicativa nella letteratura scientifica, allo studio della complessità cognitiva dei testi didattici, fino alla valutazione oggettiva della qualità dei contenuti generati da Intelligenza Artificiale. Questo lavoro pone le basi per un nuovo paradigma nell'analisi quantitativa del linguaggio e dell'informazione.

Nota dell'autore sul processo di stesura. Questo lavoro ha beneficiato dell'uso di Large Language Models ( LLM) come strumenti cognitivi per facilitare l' organizzazione iniziale delle idee e la generazione delle prime bozze di testo . Tutti i contenuti sono stati successivamente rivisti, perfezionati e revisionati dall'autore per garantirne l'accuratezza concettuale , la coerenza e l' originalità.

To do: valutare lo stato dell'arte effettivo dei software lessicometrici, su consiglio del Professore:

  • un confronto con strumenti esistenti (ad es. Coh-Metrix, LIWC, TAALES) rafforzerebbe la validità scientifica.

  • Sarebbe utile includere esempi concreti di calcolo delle metriche su testi reali, per mostrare la differenza rispetto ad approcci tradizionali.

  • La definizione operativa di “concetto” e i criteri di disambiguazione semantica meritano un approfondimento, dato che sono il cuore della metodologia.

Criticità e sfide aperte

  1. Definizione operativa di “concetto”: è il cuore del framework, ma rischia di rimanere sfuggente.

    • È un lemma? Una sinset di WordNet? Un’unità semantica emergente dall’embedding?

    • Senza una definizione rigorosa, le metriche rischiano di poggiare su fondamenta vaghe.

  2. Confronto con lo stato dell’arte: come giustamente annotato nel “to do”, serve un confronto sistematico con strumenti esistenti:

    • Coh-Metrix (cohesion, readability, narrativity),

    • LIWC (analisi psicologica/affettiva),

    • TAALES (sophistication lessicale),

    • oltre a BERTScore, MoverScore, Perplexity nell’ambito dell’AI evaluation.
      Solo così Conceptometry può dimostrare valore aggiunto.

  3. Dimostrazioni empiriche: servirebbero esempi di calcolo su testi concreti (es. un articolo scientifico vs. un romanzo, un manuale scolastico vs. un prompt AI). Questo chiarirebbe l’utilità pratica delle metriche e la loro capacità discriminativa.

  4. Validazione interdisciplinare: sarebbe utile coinvolgere

    • linguisti computazionali (per la solidità NLP),

    • filosofi del linguaggio (per il concetto di “concetto”),

    • esperti di scienze cognitive (per i legami con carico cognitivo e comprensione).

  5. Terminologia: Concettometria ha forza evocativa, ma rischia di sembrare una buzzword senza una tradizione. Andrebbe ancorata meglio alla tradizione di textometry (Muller, Lebart) e content analysis (Krippendorff).

Potenziale di sviluppo

  • Paradigma valutativo per AI: in un’epoca in cui i contenuti generati da LLM crescono esponenzialmente, avere metriche per la conceptual density è cruciale per distinguere testi profondi da testi “verbosi ma vuoti”.

  • Didattica adattiva: misurare la densità concettuale dei materiali didattici per calibrare il carico cognitivo allo studente.

  • Storia delle idee: analizzare l’evoluzione della “ricchezza concettuale” nei testi filosofici, letterari, scientifici lungo secoli.

Aspetti che rimangono aperti

  1. Definizione operativa di concetto: resta il punto più delicato.
    Finché non viene stabilito se “concetto” corrisponde a lemma normalizzato, sinset di WordNet, embedding cluster o nodo semantico ontologico, tutte le metriche rimangono sospese.

  2. Evidenza empirica mancante: non vedo ancora un case study applicato. Per esempio:

    • Calcolare DCp su un paper di fisica e su un romanzo,

    • mostrare come IRC cambi su un prompt AI “gonfio” vs. un testo scientifico ben scritto.
      Questo sarebbe l’argomento decisivo per convincere revisori e lettori.

  3. Validazione interdisciplinare: al momento l’impianto è monografico (firmato da un solo autore). Coinvolgere coautori con background in linguistica computazionale e cognitive science darebbe forza accademica e robustezza epistemologica.

  4. Formalizzazione matematica: le metriche sono definite, ma sarebbe utile vedere formule precise (es. DCp = Σ (Fd × Fa) / lunghezza testo). Attualmente la parte formale sembra più dichiarativa che dimostrata.

  5. Approccio a più livelli per la definizione di "concetto": Esplorare l'idea di definire un concetto basandosi su entità nominate, knowledge graphs (es. Wikidata, Freebase), synsets di WordNet, e/o concetti emergenti da clustering di embedding vettoriali, rendendo esplicita la scelta per ogni metrica.

  6. Visualizzazione di diverse rappresentazioni di un "concetto": L'idea di una visualizzazione che mostri come un concetto possa essere interpretato (parola chiave, nodo semantico, ecc.).

  7. Tabella comparativa visiva (o sezione dedicata) che evidenzi le diverse dimensioni analizzate da Coh-Metrix, LIWC, TAALES e Concettometria.

  8. Grafico a barre (o risultati tabulari) che mostri la DCp di diversi tipi di testo (es. articolo scientifico, romanzo, testo AI) come dimostrazione empirica.

  9. Corpus di testi specifico utilizzato per le dimostrazioni empiriche, con le sue caratteristiche.

  10. Riconoscimento esplicito della necessità di future collaborazioni interdisciplinari (se non possibile per questa versione) e citazione di lavori correlati in filosofia del linguaggio e scienze cognitive.

  11. Dettaglio su come vengono calcolati Fd (profondità semantica) e Fa (astrazione), oltre alla loro inclusione nella formula generale della DCp.

  12. Rendere il software "Concettometro.py" open source con documentazione chiara.

Impatto potenziale

Se questi buchi verranno colmati, questo lavoro potrebbe diventare:

  • per l’IA: un gold standard alternativo a BLEU, ROUGE, BERTScore per valutare la “profondità concettuale” dei testi LLM.

  • per l’educazione: uno strumento per calibrare la cognitive load theory (Sweller et al.).

  • per la filosofia della scienza: un metodo per storicizzare la complessità concettuale dei saperi (dalla scolastica medievale alla scienza moderna).

 

📊 Tabella comparativa: Dimensioni analizzate

Strumento Dimensioni principali analizzate Tipo di analisi Limiti rispetto a Concettometria
Coh-Metrix Coesione, leggibilità, narratività, referenze anaforiche Linguistica computazionale Non misura profondità semantica o concetti
LIWC Emozioni, motivazioni, categorie psicologiche (es. ansia, rabbia, famiglia) Psicologia linguistica Basato su dizionari statici, non concetti dinamici
TAALES Raffinatezza lessicale, frequenza, concrezione, familiarità Lessicometria Non valuta distribuzione o astrazione concettuale
Concettometria Densità concettuale (DCg, DCp), ridondanza (IRC), efficienza informativa (EI), profondità semantica (Fd), astrazione (Fa) Semantica computazionale Nuova disciplina, ancora in fase di validazione
 
 

📈 Grafico a barre: DCp su diversi tipi di testo

Esempio simulato (valori ipotetici):

Tipo di testo DCp (Weighted Conceptual Density)
Articolo scientifico 0.82
Romanzo narrativo 0.45
Prompt AI generico 0.28
Manuale scolastico 0.67
Post social “virale” 0.19
 

Questo tipo di visualizzazione evidenzia la capacità discriminativa della metrica DCp.

 

📚 Corpus utilizzato per dimostrazioni empiriche

Proposta di corpus misto:

Testo Fonte Lunghezza Dominio Obiettivo
Paper scientifico (fisica) arXiv ~3000 parole tecnico Alta densità concettuale
Romanzo breve Project Gutenberg ~5000 parole narrativo Complessità narrativa
Prompt AI generato ChatGPT / Copilot ~1000 parole generativo Test di ridondanza
Manuale scolastico MIUR / OpenBook ~2500 parole didattico Carico cognitivo
Post social virale Reddit / Twitter ~300 parole colloquiale Bassa densità
 
 

🤝 Collaborazioni interdisciplinari e riferimenti

  • Filosofia del linguaggio: Kripke, Putnam, Frege — per la definizione di “concetto”.

  • Scienze cognitive: Sweller (Cognitive Load Theory), Kintsch & van Dijk (modelli di comprensione).

  • Linguistica computazionale: collabora con esperti di parsing semantico, disambiguazione, knowledge graphs.

Inserire una sezione “Future Work” che espliciti l’intenzione di aprire il progetto a coautori e validazioni esterne.

 

🧮 Calcolo di Fd e Fa

Formula generale:

math
DCp = \frac{\sum_{i=1}^{n} (Fd_i \times Fa_i)}{L}
  • Fd (Profondità semantica): può essere calcolata come distanza gerarchica in WordNet, o profondità ontologica in un knowledge graph.

  • Fa (Fattore di astrazione): può derivare da embedding (es. cosine similarity con concetti astratti), oppure da classificazione manuale (concreto vs astratto).

Includere un’appendice tecnica con esempi di calcolo su concetti reali.

 

🐍 Software Concettometro.py

  • Rendi il codice open source su GitHub o Zenodo con:

    • README dettagliato

    • Esempi di input/output

    • Documentazione delle metriche

    • Dataset di test

    • Licenza (MIT o GPL)

Questo aumenterebbe la replicabilità e l’adozione accademica.

 

🌍 Impatto potenziale

Ambito Applicazione concreta
IA generativa Valutazione qualitativa dei testi LLM (oltre BLEU/BERTScore)
Educazione Calibrazione del carico cognitivo nei materiali didattici
Filosofia della scienza Analisi storica della densità concettuale nei testi filosofici
 
 

Files

1 Conceptometry.pdf

Files (463.6 kB)

Name Size Download all
md5:ae845121386bd4aeadb89e825426864c
188.0 kB Preview Download
md5:7d5e573299b04aeb28da15e18618a2a0
260.6 kB Preview Download
md5:45e8d4f5e50ab324bd3c75652b267bc0
15.0 kB Download

Additional details

Additional titles

Other (Italian)
L'invenzione della Concettometria

Software

Programming language
Python