Frente 17 · Hatun Simi, Reconstrucción del Quechua · Kiranir

Hatun Simi (literalmente 'Lengua Mayor' en quechua, término que Garcilaso de la Vega registró en Comentarios Reales 1609 para la lengua estandarizada de la corte inca) opera como frente civilizacional sobre tres capas simultáneas, ejecutadas con arquitectura AI-native que reduce el capex acumulado de la versión instituto-físico clásica en factor de tres a cuatro. Primera, reconstrucción evolutiva del Quechua como lengua viva con ~8 millones de hablantes distribuidos entre Perú, Bolivia, Ecuador, Colombia, Argentina y Chile, fragmentada en 4 ramas mayores (Quechua I/II per Torero 1964 más Cerrón-Palomino) con bajo intercomprehension entre extremos; reconstrucción que combina filología histórica proto-quechua, extensión técnica sistemática (modelo Modern Hebrew Ben-Yehuda 1880-1920) y NLP computacional moderno (ASR/TTS low-resource sobre Cohere Aya, Whisper, NLLB-200 fine-tuned). Segunda, diseño de un sistema de escritura propio dual con baseline featural-silábico al estilo Hangul más capa ideográfica derivada de kilkas y tocapus, integrando la dimensión simbólica que la ortografía Latin transmite pero no captura. Tercera, extensión cross-lingüística parametrizable hacia Aymara, Mapudungun y Guaraní, articulando un substrato lingüístico-escritura continental coordinado bajo SOLAR (#27). El stack lleva las lenguas precolombinas al estado operacional del siglo XXI sin instituto físico recurrente: hubs académicos rotativos, plataforma educativa software-defined, AI-assisted lexicon building sobre corpus colonial digitalizado. Capex acumulado 20 a 35 millones sobre 14 años.

Reconstrucción filológica: proto-quechua

Trabajo seminal: Alfredo Torero (Lima, 1964) clasificación de las variantes en Quechua I (Yúngay, Huailas, Conchucos, Junín-Huanca) y Quechua II (Chinchay norte/sur, incluye Cuzco-Collao y Ayacucho). Rodolfo Cerrón-Palomino (PUCP, 1987-presente) extendió con reconstruction de proto-quechua común y análisis comparativo con aymara. Gerald Taylor (CNRS) edición magistral del Manuscrito de Huarochirí (~1598, único corpus narrativo pre-colonial extenso). Pipeline filológico: cognate sets entre 30 variantes documentadas → comparative method (sound correspondences, regular changes) → reconstruction de proto-forms → étyma para neologismos contemporáneos. Output objetivo: corpus reconstructed proto-Quechua de 5000 raíces verificadas, fundamento para extensión técnica controlada.

Extensión técnica: vocabulario contemporáneo

Pipeline de neologismos por morfología nativa derivacional. Sufijos productivos quechua: -na (instrumental, 'cosa para'), -ku (auto-acción), -chi (causativo), -ri (incoativo), -wa (objeto humano). Ejemplos: 'compute' = yuyay-na (instrumental de pensamiento) o aña-na (de raíz computacional propuesta), 'genoma' = kawsay-rikch'a (semejanza de vida), 'datacenter' = yuyay-wasi. Modelo análogo: Modern Hebrew creó 17,000+ neologismos 1880-1920 (Ben-Yehuda + Hebrew Language Academy 1953), Modern Standard Arabic Academy of the Arabic Language Cairo 1932. Comité técnico: 30 lingüistas + ingenieros + terminólogos sectoriales (medicina, derecho, ingeniería, computación) operando bajo Academy framework. Output: 50,000 términos técnicos operativos en 10 años.

Ortografía computable + NLP

Estandarización ortográfica: pan-quechua orthography aprobada (modelo Quichua Estandard Ecuador 2004, aprobado MINEDU Bolivia 2009 vs sistema Cuzco con 'q'). Convergencia desde tres-vocal vs cinco-vocal, k vs q vs j, ll vs y. Computational: UTF-8 puro, sin ambiguedad de diacríticos, tokenization clean para BPE/SentencePiece. Stack NLP open-source: morphological analyzer Annie Cassidy 2024, Common Voice Mozilla (10K+ horas crowd-sourced, mostly Quechua Boliviano), Whisper OpenAI subset Quechua-Cusco (latente, training data limitada). AmericasNLP shared task NAACL 2021/2022/2024 con baselines reproducibles. Modelo objetivo: ASR Whisper-class fine-tuned con WER <15% en cohort cohorts dialectales.

Hacia una escritura propia: kilkas refinadas y herencia fenicia

La ortografía Latin-based resuelve transmisión fonética y compatibilidad computacional, sin embargo no captura la dimensión simbólico-conceptual que las escrituras pre-colombinas portaban en su capa ideográfica. La propuesta: sistema de escritura dual que añade una capa ideográfica derivada de kilkas y tocapus sobre baseline fonético featural-silábico, preservando simultáneamente la modernidad operativa del Latin y la expresividad ancestral de las lenguas precolombinas. No es revivalismo arqueológico ni asimilacionismo utilitario. Es diseño civilizacional que integra ambas exigencias.

Herencia fenicia: lo que se preserva del alfabeto modular

El alfabeto fenicio (~1050 a.C., 22 signos consonánticos linealizados) es el ancestro común de griego, latino, hebreo y árabe. Su flexibilidad estructural deriva de cuatro propiedades: inventario limitado (aprendible en semanas, no años), linearización secuencial (no bidimensional ni 3D, compatible con cualquier substrato material), modularidad (cada signo independiente y recombinable), adaptabilidad cross-lingüística (los griegos añadieron vocales hacia 800 a.C. para representar fonología griega, los etruscos lo derivaron al latino hacia 700 a.C., los hebreos y árabes lo extendieron sin perder la base). Cualquier escritura que aspire a alfabetización masiva debe heredar estas propiedades. La propuesta neo-andina no compite con el latino sobre fonética; hereda la herencia fenicia como capa base. Donde el Latin opera por convergencia evolutiva sobre lenguas indo-europeas, la base neo-andina opera por diseño explícito sobre fonologías quechua-aymara-mapudungun-guaraní.

Sustrato pre-colombino: kilkas, tocapus, khipus

Las escrituras pre-colombinas andinas existen documentadas en tres sistemas con grados distintos de descifrabilidad. (1) kilkas o quillcas: término registrado por cronistas coloniales (Inca Garcilaso de la Vega, Comentarios Reales 1609; Guaman Poma de Ayala, Nueva Corónica y Buen Gobierno ~1615; Bernabé Cobo, Historia del Nuevo Mundo 1653) para signos pictográficos-ideográficos incas. (2) tocapus: paneles geométricos cuadrangulares con patrones internos modulares, encontrados en textiles incas reales y ceremoniales (uncus de Sapa Inca, qompi). Tom Zuidema (Universidad de Illinois) catalogó alrededor de 400 patrones distintos; Margarita Gentile (CONICET Argentina) profundizó análisis estructural. La hipótesis de Cusco-Cuzco como ombligo se proyecta también en organización de tocapus ceque-radial. (3) khipus: cordeles anudados con encoding numérico documentado desde Locke 1923, más capacidad lingüística sub-numérica controvertida pero crecientemente sostenida (Sabine Hyland, Current Anthropology 2017, sobre los Collata khipus encoding sílabas; Frank Salomon, The Cord Keepers Duke University Press 2004; Gary Urton, Harvard, sobre arquitectura matemática). El sustrato no está perdido. Es fragmentario y subdescifrado, distinto a borrado.

Diseño dual: bloques featural-silábicos + capa ideográfica

La propuesta combina dos capas en un sistema integrado. Capa fonética: bloques featural-silábicos al estilo Hangul (1443, Rey Sejong de Joseon, alfabeto diseñado-de-cero que codifica visualmente lugar de articulación: forma de labios para ㅁ, garganta para ㅇ, paladar para ㅋ). Cada sílaba quechua/aymara opera como un bloque visual cuadrangular tocapu-inspirado, con marcas internas featurales para lugar de articulación (labial, dental, velar, uvular), modo (oclusivo, fricativo, nasal, líquido), y aspiración o glotalización donde existe. Inventario base: aproximadamente 60 bloques silábicos para cobertura completa de Cusco-Collao Quechua, parametrizable a Aymara y Mapudungun cambiando solo los valores fonémicos. Capa ideográfica: 150-200 signos-raíz semánticos derivados de kilkas y tocapus para conceptos civilizacionales fundamentales (Inti, Killa, Pacha, Allpa, Mayu, Urqu, Qucha, Runa, Ayllu, Kawsay, Yachay, Atiy, Llank'ay, Sumaq, Munay, Tinku, Ayni, Mit'a). Uso: embebidos en texto fonético como kanji en base hiragana japonesa, presentes en encabezados, énfasis, marca, inscripciones ceremoniales, registro poético. Combinatoria: miles de bloques silábicos válidos más composición ideográfica de conceptos compuestos. Encoding: code-points Unicode dedicados (vía submission Consortium) o Private Use Area transitoria.

Extensión cross-lingüística: Aymara, Mapudungun, Guaraní

El sistema parametriza por inventario fonémico de cada lengua. Quechua-Cusco aporta 3 vocales más 25-30 consonantes con aspiradas y glotalizadas. Aymara comparte la mayoría del inventario quechua con divergencias menores documentadas por Cerrón-Palomino (Lingüística aimara, 2000). Mapudungun (Adelaar y Muysken, The Languages of the Andes, Cambridge 2004) opera con 6 vocales más 17 consonantes; el sistema featural absorbe la diferencia con marcas adicionales. Guaraní (Tupí-Guaraní, distinto family pero relevant cross-Sudamericano) presenta 6 vocales orales más 6 nasalizadas más 21 consonantes; las marcas de nasalización se integran al bloque silábico. La capa ideográfica adapta el set conceptual: Quechua-Aymara comparten substrato semántico (pacha, inti, killa, runa); Guaraní aporta sus propios (tekoha, ñembo'e, ñe'ẽ); Mapudungun el suyo (mapu, kvyen, antv, che). Substrato semántico común donde existe, parametrización donde diverge. La regla operativa: una lengua, su inventario fonémico, sus signos ideográficos propios, sobre el mismo framework featural-silábico-ideográfico. Análoga a cómo el Latin se adaptó a español, francés, portugués, italiano sin perder identidad.

Balance fonético-ideográfico: el espacio donde encaja la propuesta

El espacio de diseño de sistemas de escritura puede leerse sobre dos ejes: profundidad fonética (cuán fielmente captura sonido) y profundidad ideográfica (cuán directamente captura significado). El Latin moderno opera con profundidad fonética alta y profundidad ideográfica nula, óptimo para transmisión universal y aprendizaje rápido. Hangul coreano (1443) opera featural-silábico con profundidad fonética muy alta e ideográfica nula, óptimo para alfabetización rápida con riqueza fonológica. Japonés moderno mezcla kana silábico (fonética) más kanji logográfico (~2000 ideogramas), capturando ambas profundidades a costo de complejidad pedagógica multi-año. Chino con hanzi (3000-50,000 ideogramas) prioriza profundidad ideográfica sobre fonética, aprendizaje extendido. Maya glyph histórico fue logosilábico (mezcla de logogramas y sílabas). Egipcio jeroglífico fue fonético más determinativo más logográfico, sistema de tres capas. La propuesta neo-andina ocupa el cuadrante alto-fonético-medio-ideográfico, distinto a Latin (alto-fonético-cero-ideográfico) y a chino (bajo-fonético-alto-ideográfico): bloques featural-silábicos al estilo Hangul para los ~60 patrones silábicos quechua, más capa ideográfica selectiva de 150-200 conceptos-raíz al estilo kanji embebido japonés. La inversión combinatoria ofrece riqueza expresiva ancestral sin la curva de aprendizaje china.

Precedentes modernos: scripts indígenas que sí escalaron

Tres casos validan que escrituras indígenas bien diseñadas alcanzan adopción operativa dentro de una generación. Cherokee syllabary (Sequoyah, 1821, 85 signos silábicos diseñados-de-cero por un solo individuo en pocos años): alfabetización masiva cherokee dentro de una década, prensa cherokee operativa desde 1828 (Cherokee Phoenix), uso continuo hasta hoy. Cree syllabics (James Evans, 1840s, derivado de Devanagari): adoptado por mayoría de pueblos cree y oji-cree de Canadá, base del Inuktitut syllabics actual canadiense oficial. N'Ko (Solomana Kanté, 1949, alfabeto diseñado para Manding West Africa, 27 letras): adopción regional sostenida, Unicode 5.0 2006. Adlam (hermanos Ibrahima y Abdoulaye Barry, 1989, Fulani West Africa): adoption rápida, Unicode 9.0 2016, soportado por Microsoft, Google y Apple para 2019. Mandombe (Wabeladio Payi, 1978, Bantu Congo): adopción comunitaria. Las lecciones operativas: diseño coherente más institución que lo sostenga más pathway de Unicode más material educativo más voluntad política regional bastan para transformar el ecosistema simbólico de millones de hablantes en una generación. No es proyecto académico opcional. Es infraestructura de alfabetización con horizonte civilizacional.

Implementación: organización ligera, council lingüístico, Unicode pathway

El frente se ejecuta vía organización ligera, no instituto físico recurrente. Justificación de la calibración: el sistema de escritura es producto unitario que demanda coherencia interna absoluta y la dimensión científica está en el design + computational pipeline, no en infraestructura de campus. La operación articula un equipo nuclear de 18 a 24 personas (lingüistas, ingenieros NLP, terminólogos, type designer, educational designer) distribuido entre Lima, Cusco, La Paz, Quito, con hubs académicos rotativos para residencias intensivas. Governance: Council Lingüístico Continental con Cerrón-Palomino (PUCP), Bruce Mannheim (Michigan), Rosaleen Howard (Newcastle, sociolingüística quechua), continuadores del legado Alfredo Torero, más representación nativa hablante de Quechua-Aymara-Mapudungun-Guaraní. Stack técnico: fine-tuning sobre Cohere Aya (capability over 23 lenguas low-resource), Whisper-medium fine-tuned para ASR Quechua, NLLB-200 (Meta) fine-tuned para traducción, BERT/RoBERTa para morphological analysis. Plataforma educativa software-defined (sinergia con #36 Plataforma de Optimización Cognitiva): sprints de aprendizaje Quechua para hablantes pasivos, AI tutors 1:1 fine-tuned sobre corpus Cerrón-Palomino-Torero-Mannheim, gamification de neologismos. Sin instituto físico permanente; hubs académicos rotativos para sesiones intensivas. Costos infraestructura reducidos en factor de tres a cuatro contra el modelo instituto físico clásico.

Currículum continental + formación docente

Primaria pública en lengua reconstruida estandarizada, modelo immersión 50/50 quechua/castellano grados 1-6, full-immersion grados 7-12 opcional para zonas con base hablante existente. Secundaria + universidad nivel: cursos técnicos (medicina, ingeniería, derecho, ciencia) impartidos en quechua reconstruido. Materiales open-source: textos OER (Open Educational Resources) bilingües con curaduría civilizacional. Formación docente: 5000 docentes/año capacitados en lengua estandarizada vía Sirius observation + AHP scoring (#06 sinergia). Despliegue continental: coordinación con Ministerio de Educación Bolivia, Ecuador, Colombia (Comunidades Inga) bajo SOLAR (#27). El currículum integra el sistema de escritura propio paralelo al Latin desde primaria, no como reemplazo sino como capa adicional de literacy.

Análogos históricos: Hebrew, Arabic, Mandarin

Modern Hebrew (1880-1920, Eliezer Ben-Yehuda + Va'ad ha-Lashon 1890): lengua dormida desde siglo II revivida con 17,000+ neologismos en 40 años, base civilizacional de Israel desde 1948. Modern Standard Arabic (siglos XIX-XX, Academy Cairo 1932): unificación de variantes y extensión técnica para post-Imperio Otomano modernization. Standardized Mandarin Putonghua (siglo XX, Republic of China 1913 + PRC 1956): proceso estatal con tones standardization + Pinyin romanization 1958. Bahasa Indonesia (1928 + 1945): estandarización post-colonial con vocabulario técnico extendido. Todos verificables: éxito requiere comité institucional + currículum sistemático + corpus material + 30-40 años. Esto sigue precedente.

Cronograma + presupuesto AI-leveraged

Fase 0 (2026-2028) build: Council Lingüístico Continental con sede rotativa Lima/La Paz/Quito bajo MoU SOLAR, equipo nuclear de 18 a 24 personas, fine-tuning inicial sobre Cohere Aya y Whisper, validación del diseño featural-silábico, prototipo tipográfico Unicode. Capex 4 a 6 millones de dólares. Fase 1 (2028-2033) operación: primer 5000 neologismos técnicos publicados, ASR Whisper-Quechua fine-tuned WER menor a 15 por ciento, plataforma educativa software-defined operativa (integrada al #36), submission Unicode, materiales OER primaria distribuidos vía sinergia MINEDU. Capex 6 a 12 millones acumulados. Fase 2 (2033-2040) escala: 50,000 términos técnicos, ASR/TTS production-grade integrados a LLMs vía #06 Datacenter de Frontera, currículum primaria operativo en 5 países (Perú, Bolivia, Ecuador, Argentina, Colombia Inga), expansión cross-lingüística operativa Aymara, Mapudungun, Guaraní. Capex 10 a 17 millones acumulados. Fase 3 (2040+): operación auto-sustainable vía licensing + government contracts + grants filantrópicos. Total capex acumulado 20 a 35 millones sobre 14 años, frente a 70-130 millones del modelo instituto físico clásico. La pérdida de output operativo contra el modelo caro es cero porque el bottleneck siempre fue el design unitario y el corpus, no el campus físico.