Calgary corpus
Il Calgary corpus è una raccolta di file di testo e binari utilizzata comunemente negli anni '90 per il confronto degli algoritmi di compressione dei dati. È stato creato nel 1987 da Ian Witten, Tim Bell e John Clearly della Università di Calgary. Nel 1997 è stato sostituito dal Canterbury corpus[1].
Contenuto
modificaNella sua forma più comunemente usata il corpus consiste nei seguenti 14 file per una dimensione totale di 3.141.622 byte.
Dimensione (byte) | Nome del file | Descrizione |
---|---|---|
111,261 | BIB | testo ASCII in formato UNIX "refer" – 725 riferimenti bibliografici. |
768,771 | BOOK1 | testo ASCII non formattato – Thomas Hardy: Far from the Madding Crowd. |
610,856 | BOOK2 | testo ASCII formato UNIX "troff" – Witten: Principles of Computer Speech. |
102,400 | GEO | numeri a 32 bit in formato IBM floating point – dati sismici. |
377,109 | NEWS | testo ASCII – file batch USENET su vari argomenti. |
21,504 | OBJ1 | programma eseguibile VAX – compilazione di PROGP. |
246,814 | OBJ2 | programma eseguibile Macintosh – "Knowledge Support System". |
53,161 | PAPER1 | formato UNIX "troff" – Witten, Neal, Cleary: Arithmetic Coding for Data Compression. |
82,199 | PAPER2 | formato UNIX "troff" – Witten: Computer (in)security. |
513,216 | PIC | immagine bitmap 1728 x 2376 (MSB first): testo in francese e diagrammi lineari. |
39,611 | PROGC | codice sorgente in C – UNIX compress v4.0. |
71,646 | PROGL | codice sorgente in Lisp – software di sistema. |
49,379 | PROGP | codice sorgente in Pascal – programma per valutare la compressione PPM. |
93,695 | TRANS | ASCII e caratteri di controllo – trascrizione di una sessione di terminale. |
Ne esiste anche una variante meno utilizzata con 18 file che include 4 file di testo in formato UNIX "troff" aggiuntivi: PAPER3, PAPER4, PAPER5, PAPER6.
Note
modifica- ^ Ian H. Witten, Alistair Moffat, Timothy C. Bell, Managing Gigabytes: Compressing and Indexing Documents and Images, Morgan Kaufmann, 1999, p. 92.
Collegamenti esterni
modifica- Sito ufficiale, su corpus.canterbury.ac.nz.