Saturday, May 25, 2024

Index to «Counting the number of words in Greek and Latin papyri»

Daniel Riaño Rufilanchas, ILC, CSIC
Esta página ofrece un índice de las páginas en las que hemos anotado el número de palabras completas que se conservan en los papiros digitalizados por el proyecto, distribuidas en cada siglo en el que está fechado cada papiro. Igualmente presenta el número de papiros fechado en cada siglo. Para esta estadística sólo hemos considerado aquellos papiros que están fechados en un siglo concreto; han sido ignorados, por ello, tanto los papiros no fechados como aquellos fechados entre dos o más siglos. Para realizar estas estadísticas hemos procesado cada uno de los que a fecha 10-04-2024 estaban accesibles en el repositorio de GitHub del proyecto, extrayendo cada palabra (las palabras separadas en dos o más líneas se han unido) y comprobando cuáles eran palabras completas, o solo fragmentos. La forma de citar estos datos es esta (haga clic para copiar la referencia):

Riaño Rufilanchas, Daniel 2024 "Counting the number of words in Greek and Latin papyri" <> [Acceso: 25/05/2024].

Desde este índice se tiene acceso a las estadísticas para el vocabulario en cualquier lengua, o para cada una de las lenguas contabilizadas: griego, latín, copto.

¿Por qué tres clasificaciones para cada lengua?

Hemos hecho tres estadísticas:

a) En la primera, sólo contabilizamos los papiros datados en un siglo concreto (por ejemplo, los fechados en "14 A.C.", "14-80 A.C.", s. "c. I A.C.").

En las otras dos categorías incluimos:

b) Papiros datados con una exactitud igual o superior a 200 años (por ejemplo, los fechados en "14 a.C. - 25 d.C.", "180 - 14 a.C.", s. "c. II-I a.C." e incluso "100 - 101 d.C.").

c) Papiros datados con una exactitud igual o superior a 500 años (por ejemplo, los fechados en "14 a.C. - 313 d.C.", "18 d.C.- 414", s. "c. I-V d.C.").

Cómo se distribuyen las palabras y los papiros entre varios siglos

Para distribuir las palabras (y los papiros) entre varios siglos hemos empleado un procedimiento que considera la extensión temporal como una simple probabilidad estadística de que las palabras pertenezcan a uno u otro siglo.

Por ejemplo, tomemos un papiro que contiene 200 palabras y está fechado entre el año 75 y el año 215 d.C.. El periodo cubre 25 + 100 + 15 = 140 años. La distribución seria por tanto:

  • siglo I: 25 años (17'86% del periodo) = 35'72 palabras
  • siglo II: 100 años (71,43% del periodo) = 142,86 palabras
  • siglo III: 15 años (10,71% del periodo) = 21,43 palabras
Para cualquier duda o corrección, por favor escriban a esta dirección.
This page presents an index to all the pages where we have annotated the number of complete words preserved in the digitized papyri by the project, distributed by century according to the dating of each papyrus. It also provides the number of papyri dated to each century. For this statistic, we have only considered those papyri that are dated to a specific century; thus, undated papyri and those dated across two or more centuries have been ignored. To compile these statistics, we processed each of the papyri that were accessible in the project's GitHub repository as of 10-04-2024, extracting each word (words split across two or more lines were combined) and verifying which were complete words and which were merely fragments. The proper citation for these data is as follows (click to copy the reference):

Riaño Rufilanchas, Daniel 2024 "Counting the number of words in Greek and Latin papyri" <> [Accessed: 25/05/2024].

From this index, access is provided to the vocabulary statistics for any language, or for each of the recorded languages: Greek, Latin, and Coptic.

Why Three Classifications for Each Language?

We have conducted three types of statistics:

a) In the first category, we only account for papyri dated to a specific century (for example, those dated "14BC", "14-80BC", "c. I BC").

In the other two categories, we include:

b) Papyri dated with an accuracy of 200 years or less (for example, those dated "14BC - AD 25", "180 - 14 BC", "c. II-I BC" and even "AD 100 - 101").

c) Papyri dated with an accuracy of 500 years or less (for example, those dated "14BC - AD 313", "AD 18 - 414", "c. AD I-V").

How Words and Papyri Are Distributed Across Centuries

To distribute the words (and papyri) across several centuries, we employed a method that considers the temporal range as a simple statistical probability that the words belong to one century or another.

For example, let us consider a papyrus that contains 200 words and is dated between AD 75 and AD 215. The period covers 25 + 100 + 15 = 140 years. The distribution would therefore be:

  • 1st century: 25 years (17.86% of the period) = 35.72 words
  • 2nd century: 100 years (71.43% of the period) = 142.86 words
  • 3rd century: 15 years (10.71% of the period) = 21.43 words
For any questions or corrections, please write to this address.


