Il Calgary corpus è una raccolta di file di testo e binari utilizzata comunemente negli anni '90 per il confronto degli algoritmi di compressione dei dati. È stato creato nel 1987 da Ian Witten, Tim Bell e John Clearly della Università di Calgary. Nel 1997 è stato sostituito dal Canterbury corpus[1].

Contenuto

modifica

Nella sua forma più comunemente usata il corpus consiste nei seguenti 14 file per una dimensione totale di 3.141.622 byte.

Dimensione (byte) Nome del file Descrizione
111,261 BIB testo ASCII in formato UNIX "refer" – 725 riferimenti bibliografici.
768,771 BOOK1 testo ASCII non formattato – Thomas Hardy: Far from the Madding Crowd.
610,856 BOOK2 testo ASCII formato UNIX "troff" – Witten: Principles of Computer Speech.
102,400 GEO numeri a 32 bit in formato IBM floating point – dati sismici.
377,109 NEWS testo ASCII – file batch USENET su vari argomenti.
21,504 OBJ1 programma eseguibile VAX – compilazione di PROGP.
246,814 OBJ2 programma eseguibile Macintosh – "Knowledge Support System".
53,161 PAPER1 formato UNIX "troff" – Witten, Neal, Cleary: Arithmetic Coding for Data Compression.
82,199 PAPER2 formato UNIX "troff" – Witten: Computer (in)security.
513,216 PIC immagine bitmap 1728 x 2376 (MSB first): testo in francese e diagrammi lineari.
39,611 PROGC codice sorgente in C – UNIX compress v4.0.
71,646 PROGL codice sorgente in Lisp – software di sistema.
49,379 PROGP codice sorgente in Pascal – programma per valutare la compressione PPM.
93,695 TRANS ASCII e caratteri di controllo – trascrizione di una sessione di terminale.

Ne esiste anche una variante meno utilizzata con 18 file che include 4 file di testo in formato UNIX "troff" aggiuntivi: PAPER3, PAPER4, PAPER5, PAPER6.

  1. ^ Ian H. Witten, Alistair Moffat, Timothy C. Bell, Managing Gigabytes: Compressing and Indexing Documents and Images, Morgan Kaufmann, 1999, p. 92.

Collegamenti esterni

modifica