Análisis de Fortunata y Jacinta de Benito Pérez Galdós

Índice

Información General

Título:Fortunata y Jacinta
Autor:Benito Pérez Galdós
Idioma:Castellano
#Palabras total:394672
#Palabras distintas:29367
Type-Token ratio:7.44%

Ley de Heaps - Saturación léxica

La Ley de Heaps es una ley empírica que predice el tamaño del vocabulario dado un texto. Esto es, nos da una estimación del número de palabras distintas (v) dado el número total de palabras (n) de que consta el texto, según la fórmula

v = K*n^b

donde b está entre 0 y 1 (habitualmente entre 0.4 y 0.6) y K es una cierta constante, habitualmente entre 10 y 100.

En particular, mayores valores de b se corresponden con vocabularios más grandes, en el sentido de que aumentan rápidamente; mientras que se tienen valores menores de b cuando casi todo el vocabulario aparece al principio y luego se van añadiendo muy pocos términos nuevos (el vocabulario se satura rápidamente).

#Palabras:#Palabras distintas:
78932565
157864264
236795618
315726883
394658003
473589041
5525110012
6314410853
7103711795
7893012676
8682313361
9471614081
10260914711
11050215429
11839516060
12628816619
13418117131
14207417675
14996718208
15786018684
16575319289
17364619816
18153920285
18943220724
19732521105
20521821491
21311121983
22100422443
22889722823
23679023160
24468323592
25257623966
26046924316
26836224700
27625525017
28414825313
29204125575
29993425919
30782726259
31572026604
32361326910
33150627234
33939927507
34729227816
35518528142
36307828404
37097128671
37886428907
38675729093
39465029367
39467229367
Ajuste por mínimos cuadrados de los datos a K*n^b:
K = 14.613 b = 0.595

Ley de Zipf

La ley de Zipf es una ley empírica que se basa en el principio de mínimos esfuerzo. Esto es, supone que existe un pequeño número de palabras, las más "conocidas", que son utilizadas con mucha frecuencia, mientras que hay un gran número de palabras son poco empleadas.

Matemáticamente esto quiere decir que la frecuencia (número de apariciones) de una palabra cualquiera es inversamente proporcional a su ranking, entendido como su posición en una lista de las palabras presentes en el texto ordenada descendentemente en función de su frecuencia.
Así, la palabra más frecuente aparecerá aproximadamente dos veces más que la segunda palabra más frecuente, unas tres veces más que la tercera palabra más frecuente, etc.

Gráficamente, cuando una curva se encuentra por encima de la recta "ideal" quiere decir que el texto emplea recurrentemente un número de palabras muy reducido, habiendo muy pocas que aparezcan con poca frecuencia.
Por el contrario, cuando la curva se encuentra por debajo de la "ideal", el texto contiene un vocabulario más amplio, con muchas palabras que aparecen relativamente pocas veces.

RankPalabraFrec
1de18253
2que15616
3la14563
4y13277
5a9945
6el7919
7no7657
8en7609
9se6206
10con4637
11le4034
12lo4028
13su4000
14los3930
15un3767
16las3736
17por3617
18me3140
19una2873
20más2337
21al2312
22del2310
23como2294
24para2285
25es2263
26pero2097
27si2032
28qué1782
29yo1722
30era1656
31usted1626
32te1430
33había1393
34muy1215
35ya1180
36porque1094
37cuando1085
38ella1074
39dijo1073
40sus1041
41tan1028
42o989
43todo903
44pues903
45bien894
46él883
47casa874
48esta872
49fortunata869
50sin863
Ilustración del principio de mínimo esfuerzo:
Mostrar todo

Test de Dunning

El test de Dunning sirve para identificar las palabras distintivas de un texto.

Fórmula:

- 2 log(lambda) = 2 [ log L(p1,k1,n1)+log L(p2,k2,n2)-log L(p,k1,n1)-log L(p,k2,n2) ]

donde
L(p,k,n) = p^k * (1-p)^(n-k)

con
Para encontrar las palabras distintivas se enfrentará el texto actual (Fortunata y Jacinta de Benito Pérez Galdós) (conjunto 1) contra el resto de textos en el mismo idioma (Castellano) (conjunto 2).

A continuación se muestra una lista de las palabras presentes en el texto actual, ordenadas por su puntuación en la razón de verosimilitud, indicando de cuál son distintivas. Haga click en la palabra para ver su definición según el diccionario de la RAE.

PalabraFortunata y Jacinta de Benito Pérez Galdós(394672)Resto (1406234)Dunning -2log(lambda)
fortunata86902639.762
don7950221912.710
jacinta57101734.190
lupe52101582.283
sancho124131180.194
quijote321951050.251
rubín3140953.493
guillermina3204930.588
maxi3040923.121
maximiliano2950895.786
e672628877.125
usted16262495644.314
tía31576608.968
non11255607.920
mauricia1920582.981
barbarita1900576.908
mi8015999471.276
merced41023466.062
vuestra61011445.001
respondió261216428.244
Mostrar todo