Sistema di memoria di livello research per sistemi LLM, con codifica dello stato affettivo e benchmark riproducibili contro Mem0, LangMem e Letta.
Problema
I sistemi di memoria LLM spesso dichiarano persistenza senza evidenze riproducibili su qualità del recall, comportamento della compressione o evoluzione dello stato.
Design del sistema
Un layer di memoria research-grade con codifica dello stato affettivo, artefatti benchmark e superfici di confronto contro framework di memoria esistenti.
Architettura
- memory store
- affective encoding
- benchmark runner
- claim matrix
Modello runtime
- ingest
- encode
- retrieve
- evaluate
- publish artifacts
Strumenti
- Python
- PyTorch
- pydantic
- pytest
- Zenodo
Affidabilità
- reproducible benchmark runs
- versioned claims
- test-backed package release
Vincoli
Il linguaggio pubblico deve restare allineato alle evidenze. Claim scientifici più forti richiedono una validazione esterna più ampia.
Tradeoff
Il rigore di ricerca ha priorità rispetto ad ampia compatibilità framework o superficie funzionale.
Evoluzione
Espandere human evaluation, test su confondenti semantici e benchmark longitudinali di memoria.