Calgary corpus

Il Calgary corpus è una raccolta di file di testo e binari utilizzata comunemente negli anni '90 per il confronto degli algoritmi di compressione dei dati. È stato creato nel 1987 da Ian Witten, Tim Bell e John Clearly della Università di Calgary. Nel 1997 è stato sostituito dal Canterbury corpus^[1].

Contenuto

Nella sua forma più comunemente usata il corpus consiste nei seguenti 14 file per una dimensione totale di 3.141.622 byte.

Dimensione (byte)	Nome del file	Descrizione
111,261	BIB	testo ASCII in formato UNIX "refer" – 725 riferimenti bibliografici.
768,771	BOOK1	testo ASCII non formattato – Thomas Hardy: Far from the Madding Crowd.
610,856	BOOK2	testo ASCII formato UNIX "troff" – Witten: Principles of Computer Speech.
102,400	GEO	numeri a 32 bit in formato IBM floating point – dati sismici.
377,109	NEWS	testo ASCII – file batch USENET su vari argomenti.
21,504	OBJ1	programma eseguibile VAX – compilazione di PROGP.
246,814	OBJ2	programma eseguibile Macintosh – "Knowledge Support System".
53,161	PAPER1	formato UNIX "troff" – Witten, Neal, Cleary: Arithmetic Coding for Data Compression.
82,199	PAPER2	formato UNIX "troff" – Witten: Computer (in)security.
513,216	PIC	immagine bitmap 1728 x 2376 (MSB first): testo in francese e diagrammi lineari.
39,611	PROGC	codice sorgente in C – UNIX compress v4.0.
71,646	PROGL	codice sorgente in Lisp – software di sistema.
49,379	PROGP	codice sorgente in Pascal – programma per valutare la compressione PPM.
93,695	TRANS	ASCII e caratteri di controllo – trascrizione di una sessione di terminale.

Ne esiste anche una variante meno utilizzata con 18 file che include 4 file di testo in formato UNIX "troff" aggiuntivi: PAPER3, PAPER4, PAPER5, PAPER6.

Note

^ Ian H. Witten, Alistair Moffat, Timothy C. Bell, Managing Gigabytes: Compressing and Indexing Documents and Images, Morgan Kaufmann, 1999, p. 92.

Collegamenti esterni

Sito ufficiale, su corpus.canterbury.ac.nz.

[1] Ian H. Witten, Alistair Moffat, Timothy C. Bell, Managing Gigabytes: Compressing and Indexing Documents and Images, Morgan Kaufmann, 1999, p. 92.

[1]