Análisis de la obra de Benito Pérez Galdós

Índice

Información General

Escritor:Benito Pérez Galdós
Idioma:Castellano
#Palabras total:645715
#Palabras distintas:39739
Type-Token ratio:6.15%

Relación de obras consideradas:

Ley de Heaps - Saturación léxica

La Ley de Heaps es una ley empírica que predice el tamaño del vocabulario dado un texto. Esto es, nos da una estimación del número de palabras distintas (v) dado el número total de palabras (n) de que consta el texto, según la fórmula

v = K*n^b

donde b está entre 0 y 1 (habitualmente entre 0.4 y 0.6) y K es una cierta constante, habitualmente entre 10 y 100.

En particular, mayores valores de b se corresponden con vocabularios más grandes, en el sentido de que aumentan rápidamente; mientras que se tienen valores menores de b cuando casi todo el vocabulario aparece al principio y luego se van añadiendo muy pocos términos nuevos (el vocabulario se satura rápidamente).

#Palabras:#Palabras distintas:
129143577
258285800
387427603
516569063
6457010408
7748412206
9039813619
10331214872
11622616057
12914017106
14205418263
15496819212
16788220017
18079620892
19371021663
20662422392
21953823072
23245223872
24536624543
25828025131
27119425649
28410826326
29702226831
30993627416
32285027919
33576428475
34867828906
36159229341
37450629806
38742030290
40033430739
41324831184
42616231631
43907631999
45199032314
46490432809
47781833338
49073233829
50364634206
51656034730
52947435276
54238835854
55530236342
56821636891
58113037331
59404437766
60695838383
61987238928
63278639367
64570039738
64571539739
Ajuste por mínimos cuadrados de los datos a K*n^b:
K = 16.732 b = 0.583

Ley de Zipf

La ley de Zipf es una ley empírica que se basa en el principio de mínimos esfuerzo. Esto es, supone que existe un pequeño número de palabras, las más "conocidas", que son utilizadas con mucha frecuencia, mientras que hay un gran número de palabras son poco empleadas.

Matemáticamente esto quiere decir que la frecuencia (número de apariciones) de una palabra cualquiera es inversamente proporcional a su ranking, entendido como su posición en una lista de las palabras presentes en el texto ordenada descendentemente en función de su frecuencia.
Así, la palabra más frecuente aparecerá aproximadamente dos veces más que la segunda palabra más frecuente, unas tres veces más que la tercera palabra más frecuente, etc.

Gráficamente, cuando una curva se encuentra por encima de la recta "ideal" quiere decir que el texto emplea recurrentemente un número de palabras muy reducido, habiendo muy pocas que aparezcan con poca frecuencia.
Por el contrario, cuando la curva se encuentra por debajo de la "ideal", el texto contiene un vocabulario más amplio, con muchas palabras que aparecen relativamente pocas veces.

RankPalabraFrec
1de30722
2que24839
3la23390
4y21532
5a15735
6el13352
7en12933
8no12232
9se9433
10con7529
11los6833
12su6400
13un6143
14las6067
15por6013
16lo5830
17le5448
18me4998
19una4558
20del4021
21al3846
22para3795
23es3735
24más3707
25como3693
26pero3160
27si3056
28yo3033
29qué2733
30usted2511
31era2415
32te2122
33había2054
34mi1944
35dijo1871
36sus1857
37ya1854
38muy1718
39cuando1663
40porque1602
41tan1600
42o1565
43todo1521
44ella1520
45sin1490
46casa1440
47pues1429
48ha1382
49bien1374
50él1341
Ilustración del principio de mínimo esfuerzo:
Mostrar todo

Test de Dunning

El test de Dunning sirve para identificar las palabras distintivas de un texto.

Fórmula:

- 2 log(lambda) = 2 [ log L(p1,k1,n1)+log L(p2,k2,n2)-log L(p,k1,n1)-log L(p,k2,n2) ]

donde
L(p,k,n) = p^k * (1-p)^(n-k)

con
Para encontrar las palabras distintivas se enfrentará el texto actual (la obra de Benito Pérez Galdós) (conjunto 1) contra el resto de textos en el mismo idioma (Castellano) (conjunto 2).

A continuación se muestra una lista de las palabras presentes en el texto actual, ordenadas por su puntuación en la razón de verosimilitud, indicando de cuál son distintivas. Haga click en la palabra para ver su definición según el diccionario de la RAE.

PalabraObra de Benito Pérez Galdós(645715)Resto (1155191)Dunning -2log(lambda)
don14749543375.321
sancho124132129.141
quijote421941899.605
fortunata86901783.394
e12825671514.009
jacinta57101171.658
non112551100.769
lupe52101069.036
usted251116101069.015
d953296850.571
vuestra121005786.995
merced141013780.538
respondió491193747.497
nela3410699.634
doña1169585684.916
guillermina3240664.749
rubín3140644.229
benina3130642.177
tía37219628.130
magistral6769625.109
Mostrar todo