root / pkpgcounter / trunk / pkpgpdls / pclxl.py @ 248

Revision 248, 21.5 kB (checked in by jerome, 19 years ago)

Fixed PCLXL computation of number of copies for each page.
Now uses a similar routine in the PostScript? parser.
Added detection of a special number of copies setting for some PS drivers.

  • Property svn:eol-style set to native
  • Property svn:keywords set to Auth Date Id Rev
Line 
1#! /usr/bin/env python
2# -*- coding: ISO-8859-15 -*-
3#
4# pkpgcounter : a generic Page Description Language parser
5#
6# (c) 2003, 2004, 2005 Jerome Alet <alet@librelogiciel.com>
7# This program is free software; you can redistribute it and/or modify
8# it under the terms of the GNU General Public License as published by
9# the Free Software Foundation; either version 2 of the License, or
10# (at your option) any later version.
11#
12# This program is distributed in the hope that it will be useful,
13# but WITHOUT ANY WARRANTY; without even the implied warranty of
14# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
15# GNU General Public License for more details.
16#
17# You should have received a copy of the GNU General Public License
18# along with this program; if not, write to the Free Software
19# Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301, USA.
20#
21# $Id$
22#
23
24import sys
25import os
26import mmap
27from struct import unpack
28
29import pdlparser
30
31class Parser(pdlparser.PDLParser) :
32    """A parser for PCLXL (aka PCL6) documents."""
33    mediasizes = { 
34                    0 : "Letter",
35                    1 : "Legal",
36                    2 : "A4",
37                    3 : "Executive",
38                    4 : "Ledger",
39                    5 : "A3",
40                    6 : "COM10Envelope",
41                    7 : "MonarchEnvelope",
42                    8 : "C5Envelope",
43                    9 : "DLEnvelope",
44                    10 : "JB4",
45                    11 : "JB5",
46                    12 : "B5Envelope",
47                    12 : "B5",
48                    14 : "JPostcard",
49                    15 : "JDoublePostcard",
50                    16 : "A5",
51                    17 : "A6",
52                    18 : "JB6",
53                    19 : "JIS8K",
54                    20 : "JIS16K",
55                    21 : "JISExec",
56                    96 : "Default",
57                 }   
58                 
59    mediasources = {             
60                     0 : "Default",
61                     1 : "Auto",
62                     2 : "Manual",
63                     3 : "MultiPurpose",
64                     4 : "UpperCassette",
65                     5 : "LowerCassette",
66                     6 : "EnvelopeTray",
67                     7 : "ThirdCassette",
68                   }
69                   
70    orientations = {               
71                     0 : "Portrait",
72                     1 : "Landscape",
73                     2 : "ReversePortrait",
74                     3 : "ReverseLandscape",
75                     4 : "Default",
76                   }
77           
78    def isValid(self) :   
79        """Returns 1 if data is PCLXL aka PCL6, else 0."""
80        if ((self.firstblock[:128].find("\033%-12345X") != -1) and \
81             (self.firstblock.find(" HP-PCL XL;") != -1) and \
82             ((self.firstblock.find("LANGUAGE=PCLXL") != -1) or \
83              (self.firstblock.find("LANGUAGE = PCLXL") != -1))) :
84            if self.debug : 
85                sys.stderr.write("DEBUG: Input file is in the PCLXL (aka PCL6) format.\n")
86            return 1
87        else :   
88            return 0
89           
90    def beginPage(self) :
91        """Indicates the beginning of a new page, and extracts media information."""
92        self.pagecount += 1
93       
94        # Default values
95        mediatypelabel = "Plain"
96        mediasourcelabel = "Main"
97        mediasizelabel = "Default"
98        orientationlabel = "Portrait"
99       
100        # Now go upstream to decode media type, size, source, and orientation
101        # this saves time because we don't need a complete parser !
102        minfile = self.minfile
103        pos = self.pos - 2
104        while pos > 0 : # safety check : don't go back to far !
105            val = ord(minfile[pos])
106            if val in (0x44, 0x48, 0x41) : # if previous endPage or openDataSource or beginSession (first page)
107                break
108            if val == 0x26 :   
109                mediasource = ord(minfile[pos - 2])
110                mediasourcelabel = self.mediasources.get(mediasource, str(mediasource))
111                pos = pos - 4
112            elif val == 0x25 :
113                mediasize = ord(minfile[pos - 2])
114                mediasizelabel = self.mediasizes.get(mediasize, str(mediasize))
115                pos = pos - 4
116            elif val == 0x28 :   
117                orientation = ord(minfile[pos - 2])
118                orienationlabel = self.orientations.get(orientation, str(orientation))
119                pos = pos - 4
120            elif val == 0x27 :   
121                savepos = pos
122                pos = pos - 1
123                while pos > 0 : # safety check : don't go back to far !
124                    val = ord(minfile[pos])
125                    pos -= 1   
126                    if val == 0xc8 :
127                        break
128                mediatypelabel = minfile[pos:savepos] # TODO : INCORRECT, WE HAVE TO STRIP OUT THE UBYTE ARRAY'S LENGTH !!!
129            # else : TODO : CUSTOM MEDIA SIZE AND UNIT !
130            else :   
131                pos = pos - 2   # ignored
132        self.pages[self.pagecount] = { "copies" : 1, 
133                                       "orientation" : orientationlabel, 
134                                       "mediatype" : mediatypelabel, 
135                                       "mediasize" : mediasizelabel,
136                                       "mediasource" : mediasourcelabel,
137                                     } 
138        return 0
139       
140    def endPage(self) :   
141        """Indicates the end of a page."""
142        pos = self.pos
143        pos3 = pos - 3
144        minfile = self.minfile
145        if minfile[pos3:pos-1] == self.setNumberOfCopies :
146            # The EndPage operator may be preceded by a PageCopies attribute
147            # So set number of copies for current page.
148            # From what I read in PCLXL documentation, the number
149            # of copies is an unsigned 16 bits integer
150            self.pages[self.pagecount]["copies"] = unpack(self.endianness + "H", minfile[pos-5:pos3])[0]
151        return 0
152       
153    def setColorSpace(self) :   
154        """Changes the color space."""
155        if self.minfile[self.pos-4:self.pos-1] == self.RGBColorSpace :
156            self.iscolor = 1
157        return 0
158           
159    def array_8(self) :   
160        """Handles byte arrays."""
161        pos = self.pos
162        datatype = self.minfile[pos]
163        pos += 1
164        length = self.tags[ord(datatype)]
165        if callable(length) :
166            self.pos = pos
167            length = length()
168            pos = self.pos
169        posl = pos + length
170        self.pos = posl
171        if length == 1 :   
172            return unpack("B", self.minfile[pos:posl])[0]
173        elif length == 2 :   
174            return unpack(self.endianness + "H", self.minfile[pos:posl])[0]
175        elif length == 4 :   
176            return unpack(self.endianness + "I", self.minfile[pos:posl])[0]
177        else :   
178            raise pdlparser.PDLParserError, "Error on array size at %s" % self.pos
179       
180    def array_16(self) :   
181        """Handles byte arrays."""
182        pos = self.pos
183        datatype = self.minfile[pos]
184        pos += 1
185        length = self.tags[ord(datatype)]
186        if callable(length) :
187            self.pos = pos
188            length = length()
189            pos = self.pos
190        posl = pos + length
191        self.pos = posl
192        if length == 1 :   
193            return 2 * unpack("B", self.minfile[pos:posl])[0]
194        elif length == 2 :   
195            return 2 * unpack(self.endianness + "H", self.minfile[pos:posl])[0]
196        elif length == 4 :   
197            return 2 * unpack(self.endianness + "I", self.minfile[pos:posl])[0]
198        else :   
199            raise pdlparser.PDLParserError, "Error on array size at %s" % self.pos
200       
201    def array_32(self) :   
202        """Handles byte arrays."""
203        pos = self.pos
204        datatype = self.minfile[pos]
205        pos += 1
206        length = self.tags[ord(datatype)]
207        if callable(length) :
208            self.pos = pos
209            length = length()
210            pos = self.pos
211        posl = pos + length
212        self.pos = posl
213        if length == 1 :   
214            return 4 * unpack("B", self.minfile[pos:posl])[0]
215        elif length == 2 :   
216            return 4 * unpack(self.endianness + "H", self.minfile[pos:posl])[0]
217        elif length == 4 :   
218            return 4 * unpack(self.endianness + "I", self.minfile[pos:posl])[0]
219        else :   
220            raise pdlparser.PDLParserError, "Error on array size at %s" % self.pos
221       
222    def embeddedDataSmall(self) :
223        """Handle small amounts of data."""
224        pos = self.pos
225        length = ord(self.minfile[pos])
226        self.pos = pos + 1
227        return length
228       
229    def embeddedData(self) :
230        """Handle normal amounts of data."""
231        pos = self.pos
232        pos4 = pos + 4
233        self.pos = pos4
234        return unpack(self.endianness + "I", self.minfile[pos:pos4])[0]
235       
236    def littleEndian(self) :       
237        """Toggles to little endianness."""
238        self.endianness = "<" # little endian
239        return 0
240       
241    def bigEndian(self) :   
242        """Toggles to big endianness."""
243        self.endianness = ">" # big endian
244        return 0
245   
246    def reservedForFutureUse(self) :
247        """Outputs something when a reserved byte is encountered."""
248        if self.debug :
249            sys.stderr.write("Byte at %s is out of the PCLXL Protocol Class 2.0 Specification\n" % self.pos)
250        return 0   
251       
252    def escape(self) :   
253        """Handles the ESC code."""
254        pos = endpos = self.pos
255        if self.minfile[pos : pos+8] == r"%-12345X" :
256            endpos = pos + 9
257            endmark = chr(0x0c) + chr(0x00)
258            asciilimit = chr(0x80)
259            while (self.minfile[endpos] not in endmark) and (self.minfile[endpos] < asciilimit) :
260                endpos += 1
261               
262            # Store this in a per page mapping.   
263            # NB : First time will be at page 0 (i.e. **before** page 1) !
264            stuff = self.escapedStuff.setdefault(self.pagecount, [])
265            stuff.append(self.minfile[pos : endpos])
266            if self.debug :
267                sys.stderr.write("Escaped datas : [%s]\n" % repr(self.minfile[pos : endpos]))
268        return endpos - pos
269       
270    def getJobSize(self) :
271        """Counts pages in a PCLXL (PCL6) document.
272       
273           Algorithm by Jerome Alet.
274           
275           The documentation used for this was :
276         
277           HP PCL XL Feature Reference
278           Protocol Class 2.0
279           http://www.hpdevelopersolutions.com/downloads/64/358/xl_ref20r22.pdf
280           
281           Protocol Class 2.1 Supplement
282           xl_ref21.pdf
283           
284           Protocol Class 3.0 Supplement
285           xl_refsup30r089.pdf
286        """
287        self.iscolor = None
288        self.endianness = None
289        found = 0
290        while not found :
291            line = self.infile.readline()
292            if not line :
293                break
294            if line[1:12] == " HP-PCL XL;" :
295                found = 1
296                endian = ord(line[0])
297                if endian == 0x29 :
298                    self.littleEndian()
299                elif endian == 0x28 :   
300                    self.bigEndian()
301                # elif endian == 0x27 : # TODO : This is the ESC code : parse it for PJL statements !
302                #
303                else :   
304                    raise pdlparser.PDLParserError, "Unknown endianness marker 0x%02x at start !" % endian
305        if not found :
306            raise pdlparser.PDLParserError, "This file doesn't seem to be PCLXL (aka PCL6)"
307           
308        # Initialize Media Sources
309        for i in range(8, 256) :
310            self.mediasources[i] = "ExternalTray%03i" % (i - 7)
311           
312        # Initialize table of tags
313        self.tags = [ 0 ] * 256   
314       
315        self.tags[0x1b] = self.escape # The escape code
316       
317        # GhostScript's sources tell us that HP printers
318        # only accept little endianness, but we can handle both.
319        self.tags[0x28] = self.bigEndian    # BigEndian
320        self.tags[0x29] = self.littleEndian # LittleEndian
321       
322        self.tags[0x43] = self.beginPage    # BeginPage
323        self.tags[0x44] = self.endPage      # EndPage
324        self.tags[0x45] = self.reservedForFutureUse # reserved
325        self.tags[0x46] = self.reservedForFutureUse # reserved
326       
327        self.tags[0x4a] = self.reservedForFutureUse # reserved
328        self.tags[0x4b] = self.reservedForFutureUse # reserved
329        self.tags[0x4c] = self.reservedForFutureUse # reserved
330        self.tags[0x4d] = self.reservedForFutureUse # reserved
331        self.tags[0x4e] = self.reservedForFutureUse # reserved
332       
333        self.tags[0x56] = self.reservedForFutureUse # TODO : documentation not clear about reserved status
334       
335        self.tags[0x57] = self.reservedForFutureUse # reserved
336        self.tags[0x58] = self.reservedForFutureUse # reserved
337        self.tags[0x59] = self.reservedForFutureUse # reserved
338        self.tags[0x5a] = self.reservedForFutureUse # reserved
339       
340        self.tags[0x6a] = self.setColorSpace    # to detect color/b&w mode
341       
342        self.tags[0x83] = self.reservedForFutureUse # reserved
343       
344        self.tags[0x87] = self.reservedForFutureUse # reserved
345        self.tags[0x88] = self.reservedForFutureUse # reserved
346        self.tags[0x89] = self.reservedForFutureUse # reserved
347        self.tags[0x8a] = self.reservedForFutureUse # reserved
348        self.tags[0x8b] = self.reservedForFutureUse # reserved
349        self.tags[0x8c] = self.reservedForFutureUse # reserved
350        self.tags[0x8d] = self.reservedForFutureUse # reserved
351        self.tags[0x8e] = self.reservedForFutureUse # reserved
352        self.tags[0x8f] = self.reservedForFutureUse # reserved
353        self.tags[0x90] = self.reservedForFutureUse # reserved
354       
355        self.tags[0x92] = self.reservedForFutureUse # reserved
356       
357        self.tags[0x94] = self.reservedForFutureUse # reserved
358       
359        self.tags[0x9a] = self.reservedForFutureUse # reserved
360        self.tags[0x9c] = self.reservedForFutureUse # reserved
361       
362        self.tags[0xa4] = self.reservedForFutureUse # reserved
363        self.tags[0xa5] = self.reservedForFutureUse # reserved
364        self.tags[0xa6] = self.reservedForFutureUse # reserved
365        self.tags[0xa7] = self.reservedForFutureUse # reserved
366       
367        self.tags[0xaa] = self.reservedForFutureUse # reserved
368        self.tags[0xab] = self.reservedForFutureUse # reserved
369        self.tags[0xac] = self.reservedForFutureUse # reserved
370        self.tags[0xad] = self.reservedForFutureUse # reserved
371        self.tags[0xae] = self.reservedForFutureUse # reserved
372        self.tags[0xaf] = self.reservedForFutureUse # reserved
373       
374        self.tags[0xb7] = self.reservedForFutureUse # reserved
375       
376        self.tags[0xba] = self.reservedForFutureUse # reserved
377        self.tags[0xbb] = self.reservedForFutureUse # reserved
378        self.tags[0xbc] = self.reservedForFutureUse # reserved
379        self.tags[0xbd] = self.reservedForFutureUse # reserved
380        self.tags[0xbe] = self.reservedForFutureUse # reserved
381       
382        self.tags[0xc0] = 1 # ubyte
383        self.tags[0xc1] = 2 # uint16
384        self.tags[0xc2] = 4 # uint32
385        self.tags[0xc3] = 2 # sint16
386        self.tags[0xc4] = 4 # sint32
387        self.tags[0xc5] = 4 # real32
388       
389        self.tags[0xc6] = self.reservedForFutureUse # reserved
390        self.tags[0xc7] = self.reservedForFutureUse # reserved
391       
392        self.tags[0xc8] = self.array_8  # ubyte_array
393        self.tags[0xc9] = self.array_16 # uint16_array
394        self.tags[0xca] = self.array_32 # uint32_array
395        self.tags[0xcb] = self.array_16 # sint16_array
396        self.tags[0xcc] = self.array_32 # sint32_array
397        self.tags[0xcd] = self.array_32 # real32_array
398       
399        self.tags[0xce] = self.reservedForFutureUse # reserved
400        self.tags[0xcf] = self.reservedForFutureUse # reserved
401       
402        self.tags[0xd0] = 2 # ubyte_xy
403        self.tags[0xd1] = 4 # uint16_xy
404        self.tags[0xd2] = 8 # uint32_xy
405        self.tags[0xd3] = 4 # sint16_xy
406        self.tags[0xd4] = 8 # sint32_xy
407        self.tags[0xd5] = 8 # real32_xy
408        self.tags[0xd6] = self.reservedForFutureUse # reserved
409        self.tags[0xd7] = self.reservedForFutureUse # reserved
410        self.tags[0xd8] = self.reservedForFutureUse # reserved
411        self.tags[0xd9] = self.reservedForFutureUse # reserved
412        self.tags[0xda] = self.reservedForFutureUse # reserved
413        self.tags[0xdb] = self.reservedForFutureUse # reserved
414        self.tags[0xdc] = self.reservedForFutureUse # reserved
415        self.tags[0xdd] = self.reservedForFutureUse # reserved
416        self.tags[0xde] = self.reservedForFutureUse # reserved
417        self.tags[0xdf] = self.reservedForFutureUse # reserved
418       
419        self.tags[0xe0] = 4  # ubyte_box
420        self.tags[0xe1] = 8  # uint16_box
421        self.tags[0xe2] = 16 # uint32_box
422        self.tags[0xe3] = 8  # sint16_box
423        self.tags[0xe4] = 16 # sint32_box
424        self.tags[0xe5] = 16 # real32_box
425        self.tags[0xe6] = self.reservedForFutureUse # reserved
426        self.tags[0xe7] = self.reservedForFutureUse # reserved
427        self.tags[0xe8] = self.reservedForFutureUse # reserved
428        self.tags[0xe9] = self.reservedForFutureUse # reserved
429        self.tags[0xea] = self.reservedForFutureUse # reserved
430        self.tags[0xeb] = self.reservedForFutureUse # reserved
431        self.tags[0xec] = self.reservedForFutureUse # reserved
432        self.tags[0xed] = self.reservedForFutureUse # reserved
433        self.tags[0xee] = self.reservedForFutureUse # reserved
434        self.tags[0xef] = self.reservedForFutureUse # reserved
435       
436        self.tags[0xf0] = self.reservedForFutureUse # reserved
437        self.tags[0xf1] = self.reservedForFutureUse # reserved
438        self.tags[0xf2] = self.reservedForFutureUse # reserved
439        self.tags[0xf3] = self.reservedForFutureUse # reserved
440        self.tags[0xf4] = self.reservedForFutureUse # reserved
441        self.tags[0xf5] = self.reservedForFutureUse # reserved
442        self.tags[0xf6] = self.reservedForFutureUse # reserved
443        self.tags[0xf7] = self.reservedForFutureUse # reserved
444       
445        self.tags[0xf8] = 1 # attr_ubyte
446        self.tags[0xf9] = 2 # attr_uint16
447       
448        self.tags[0xfa] = self.embeddedData      # dataLength
449        self.tags[0xfb] = self.embeddedDataSmall # dataLengthByte
450       
451        self.tags[0xfc] = self.reservedForFutureUse # reserved
452        self.tags[0xfd] = self.reservedForFutureUse # reserved
453        self.tags[0xfe] = self.reservedForFutureUse # reserved
454        self.tags[0xff] = self.reservedForFutureUse # reserved
455           
456        # color spaces   
457        self.BWColorSpace = "".join([chr(0x00), chr(0xf8), chr(0x03)])
458        self.GrayColorSpace = "".join([chr(0x01), chr(0xf8), chr(0x03)])
459        self.RGBColorSpace = "".join([chr(0x02), chr(0xf8), chr(0x03)])
460       
461        # set number of copies
462        self.setNumberOfCopies = "".join([chr(0xf8), chr(0x31)]) 
463       
464        infileno = self.infile.fileno()
465        self.pages = {}
466        self.minfile = minfile = mmap.mmap(infileno, os.fstat(infileno)[6], prot=mmap.PROT_READ, flags=mmap.MAP_SHARED)
467        tags = self.tags
468        self.pagecount = 0
469        self.escapedStuff = {}
470        self.pos = pos = 0
471        try :
472            while 1 :
473                char = minfile[pos]
474                pos += 1
475                length = tags[ord(char)]
476                if not length :
477                    continue
478                if callable(length) :   
479                    self.pos = pos
480                    length = length()
481                    pos = self.pos
482                pos += length   
483        except IndexError : # EOF ?
484            self.minfile.close() # reached EOF
485           
486        # now handle number of copies for each page (may differ).
487        if self.iscolor :
488            colormode = "Color"
489        else :   
490            colormode = "Black"
491        for pnum in range(1, self.pagecount + 1) :
492            # if no number of copies defined, take 1, as explained
493            # in PCLXL documentation.
494            # NB : is number of copies is 0, the page won't be output
495            # but the formula below is still correct : we want
496            # to decrease the total number of pages in this case.
497            page = self.pages.get(pnum, self.pages.get(1, { "copies" : 1 }))
498            copies = page["copies"]
499            self.pagecount += (copies - 1)
500            if self.debug :
501                sys.stderr.write("%s*%s*%s*%s*%s*%s\n" % (copies, 
502                                                          page["mediatype"], 
503                                                          page["mediasize"], 
504                                                          page["orientation"], 
505                                                          page["mediasource"], 
506                                                          colormode))
507        return self.pagecount
508       
509def test() :       
510    """Test function."""
511    if (len(sys.argv) < 2) or ((not sys.stdin.isatty()) and ("-" not in sys.argv[1:])) :
512        sys.argv.append("-")
513    totalsize = 0   
514    for arg in sys.argv[1:] :
515        if arg == "-" :
516            infile = sys.stdin
517            mustclose = 0
518        else :   
519            infile = open(arg, "rb")
520            mustclose = 1
521        try :
522            parser = Parser(infile, debug=1)
523            totalsize += parser.getJobSize()
524        except pdlparser.PDLParserError, msg :   
525            sys.stderr.write("ERROR: %s\n" % msg)
526            sys.stderr.flush()
527        if mustclose :   
528            infile.close()
529    print "%s" % totalsize
530   
531if __name__ == "__main__" :   
532    test()
Note: See TracBrowser for help on using the browser.