xhtml2ctx
Come i più geek di voi avranno già notato, ho il malsano hobby di creare PDF abbastanza ben impaginati partendo dai documenti html di alcune SRD molto conosciute. Il mio strumento per fare ciò è ConTeXt, una serie di macro TeX orientate non tanto alla produzione di documenti scientifici quanto al DTP "classico".
Dato che sono documenti piuttosto lunghi, e tutti in HTML, ho dovuto idearmi uno strumento che facesse la conversione da un linguaggio all'altro, ovvero che prendesse le pagine HTML e mi facesse una conversione grezza in ConTeX.
Questo strumento ora esiste, ed ha la forma di uno script Python, scaricabile cliccando sul link sottostante:
xhtml2ctx
Lo script funziona bene sia sotto linux che sotto windows, e -- quasi certamente -- funzionerà pure sotto MacOSX
Supponiamo che abbiate un lungo file HTML e vogliate avere un documento equivalente TeX da rifinire in un momento successivo. I passi da compiere (sotto win32) sono i seguenti:
Se non vengono segnalati errori, dovreste ritrovarvi un file PDF, che potete editare con il vostro editor preferito.
E' possibile passare una serie di parametri a xhtml2ctx
Dato che sono documenti piuttosto lunghi, e tutti in HTML, ho dovuto idearmi uno strumento che facesse la conversione da un linguaggio all'altro, ovvero che prendesse le pagine HTML e mi facesse una conversione grezza in ConTeX.
Questo strumento ora esiste, ed ha la forma di uno script Python, scaricabile cliccando sul link sottostante:
xhtml2ctx
Lo script funziona bene sia sotto linux che sotto windows, e -- quasi certamente -- funzionerà pure sotto MacOSX
Istruzioni
1. Prerequisiti
- Python 2.5 o superiore installato e funzionante sulla vostra macchina
- Una distribuzione ConTeX installata e configurata. Per chi ha windows, io consiglio W32Tex: scaricatevi tutti i pacchetti ed avrete tutto il necessario, ovvero ConTeXt e XeTeX (una variante di TeX che usa i font OpenType). Per chi ha linux o osx, basta ConTex minimals
- Tidy, un analizzatore e correttore sintattico per le pagine HTML. E' necessario perché viene usato per convertire HTML in XHTML. Tidy per win32 lo trovate qui, e installate i binari in una cartella che sia nel path di esecuzione (come c:\windows, per esempio)
2. Come funziona
Supponiamo che abbiate un lungo file HTML e vogliate avere un documento equivalente TeX da rifinire in un momento successivo. I passi da compiere (sotto win32) sono i seguenti:
-
tidy -asxhtml FILE_DA_CONVERTIRE.HTML >FILE_DA_CONVERTIRE.XHTML
-
python xhtml2tex.pyFILE_CONVERTITO.tex
texexec --xtx FILE_CONVERTITO.tex Se non vengono segnalati errori, dovreste ritrovarvi un file PDF, che potete editare con il vostro editor preferito.
3. Opzioni
E' possibile passare una serie di parametri a xhtml2ctx
- --help mostra alcune istruzioni
- -t tratta tutte le tabelle HTML come oggetti float, ovvero slegati dal flusso del testo e posizionati in maniera semi-indipendente
- --css-classes=class1,class2,..,class-n dice al programma di considerare tutti i P e i DIV che hanno le classi CSS specificate nel parametro come blocchi che richiedono una formattazione indipendente.
- --float-classes=class1,class2,..,class-n dice al programma di considerare tutti i P e i DIV che hanno le classi CSS specificate nel parametro come blocchi che richiedono una formattazione indipendente e di considerarli come oggetti float.
4. Bugs e limitazioni
- Non converte le immagini
- non converte gli URL
- Se create un file HTML a partire da un documento Word questo non verrà convertito, tanta è la sporcizia che si trova nelle pagine html di word...
- Se usate questo programma lo fate a vostro rischio e pericolo ed esentate l'autore da qualsiasi responsabilità. In altre parole: sono cavolacci vostri
Prova Commento.
RispondiElimina