Análisis de la obra de Benito Pérez Galdós (lematizado)

Índice

Información General

Escritor:Benito Pérez Galdós (lematizado)
Idioma:Castellano (lematizado)
#Palabras total:393844
#Palabras distintas:13855
Type-Token ratio:3.52%

Relación de obras consideradas:

Ley de Heaps - Saturación léxica

La Ley de Heaps es una ley empírica que predice el tamaño del vocabulario dado un texto. Esto es, nos da una estimación del número de palabras distintas (v) dado el número total de palabras (n) de que consta el texto, según la fórmula

v = K*n^b

donde b está entre 0 y 1 (habitualmente entre 0.4 y 0.6) y K es una cierta constante, habitualmente entre 10 y 100.

En particular, mayores valores de b se corresponden con vocabularios más grandes, en el sentido de que aumentan rápidamente; mientras que se tienen valores menores de b cuando casi todo el vocabulario aparece al principio y luego se van añadiendo muy pocos términos nuevos (el vocabulario se satura rápidamente).

#Palabras:#Palabras distintas:
78761911
157522998
236283820
315044491
393805072
472565620
551326092
630086505
708846989
787607392
866367702
945128036
1023888274
1102648653
1181408908
1260169125
1338929345
1417689564
1496449783
1575209971
16539610223
17327210448
18114810618
18902410785
19690010922
20477611069
21265211308
22052811473
22840411609
23628011731
24415611888
25203212012
25990812145
26778412285
27566012398
28353612488
29141212586
29928812702
30716412841
31504012946
32291613054
33079213174
33866813252
34654413345
35442013476
36229613560
37017213626
37804813709
38592413770
39380013854
39384413855
Ajuste por mínimos cuadrados de los datos a K*n^b:
K = 34.438 b = 0.471

Ley de Zipf

La ley de Zipf es una ley empírica que se basa en el principio de mínimos esfuerzo. Esto es, supone que existe un pequeño número de palabras, las más "conocidas", que son utilizadas con mucha frecuencia, mientras que hay un gran número de palabras son poco empleadas.

Matemáticamente esto quiere decir que la frecuencia (número de apariciones) de una palabra cualquiera es inversamente proporcional a su ranking, entendido como su posición en una lista de las palabras presentes en el texto ordenada descendentemente en función de su frecuencia.
Así, la palabra más frecuente aparecerá aproximadamente dos veces más que la segunda palabra más frecuente, unas tres veces más que la tercera palabra más frecuente, etc.

Gráficamente, cuando una curva se encuentra por encima de la recta "ideal" quiere decir que el texto emplea recurrentemente un número de palabras muy reducido, habiendo muy pocas que aparezcan con poca frecuencia.
Por el contrario, cuando la curva se encuentra por debajo de la "ideal", el texto contiene un vocabulario más amplio, con muchas palabras que aparecen relativamente pocas veces.

RankPalabraFrec
1el31365
2de20458
3que15596
4y13273
5lo12622
6a11998
7se8317
8no7621
9en7593
10un6609
11ser5091
12su5028
13con4631
14haber4571
15me3613
16por3599
17decir2850
18tener2726
19estar2658
20más2309
21para2266
22como2162
23pero2096
24si2030
25hacer1936
26ver1932
27todo1905
28te1792
29qué1791
30yo1697
31aquel1674
32usted1584
33dar1551
34ir1528
35este1454
36otro1374
37querer1334
38poder1276
39muy1215
40éste1195
41ya1175
42porque1094
43cuando1083
44ella1046
45tan1028
46saber999
47o986
48poner954
49pues903
50mi903
Ilustración del principio de mínimo esfuerzo:
Mostrar todo

Test de Dunning

El test de Dunning sirve para identificar las palabras distintivas de un texto.

Fórmula:

- 2 log(lambda) = 2 [ log L(p1,k1,n1)+log L(p2,k2,n2)-log L(p,k1,n1)-log L(p,k2,n2) ]

donde
L(p,k,n) = p^k * (1-p)^(n-k)

con
Para encontrar las palabras distintivas se enfrentará el texto actual (la obra de Benito Pérez Galdós (lematizado)) (conjunto 1) contra el resto de textos en el mismo idioma (Castellano (lematizado)) (conjunto 2).

A continuación se muestra una lista de las palabras presentes en el texto actual, ordenadas por su puntuación en la razón de verosimilitud, indicando de cuál son distintivas. Haga click en la palabra para ver su definición según el diccionario de la RAE.

PalabraObra de Benito Pérez Galdós (lematizado)(393844)Resto (308922)Dunning -2log(lambda)
don7517912407.437
me36137741376.319
magistral27691239.709
fortunata86901007.266
te1792286882.742
jacinta5710661.661
lupe5200602.534
el3136529227490.005
de2045819493399.475
petra2241375.410
guillermina3200370.719
rubín3130362.607
maxi3040352.177
lo126227613343.828
maximiliano2940340.589
que155969866294.061
pues903249252.849
paco4171247.650
poner954280243.910
d40147240.981
Mostrar todo