root / pkpgcounter / trunk / pkpgpdls / newpcl345.py @ 398

Revision 398, 18.9 kB (checked in by jerome, 16 years ago)

Improved parser a bit more.

  • Property svn:eol-style set to native
  • Property svn:keywords set to Id Revision
Line 
1#! /usr/bin/env python
2# -*- coding: ISO-8859-15 -*-
3#
4# pkpgcounter : a generic Page Description Language parser
5#
6# (c) 2003, 2004, 2005, 2006 Jerome Alet <alet@librelogiciel.com>
7# This program is free software; you can redistribute it and/or modify
8# it under the terms of the GNU General Public License as published by
9# the Free Software Foundation; either version 2 of the License, or
10# (at your option) any later version.
11#
12# This program is distributed in the hope that it will be useful,
13# but WITHOUT ANY WARRANTY; without even the implied warranty of
14# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
15# GNU General Public License for more details.
16#
17# You should have received a copy of the GNU General Public License
18# along with this program; if not, write to the Free Software
19# Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301, USA.
20#
21# $Id$
22#
23
24"""This modules implements a page counter for PCL3/4/5 documents."""
25
26import sys
27import os
28import mmap
29from struct import unpack
30
31import pdlparser
32import pjl
33
34NUL = chr(0x00)
35FORMFEED = chr(0x0c)
36ESCAPE = chr(0x1b)
37ASCIILIMIT = chr(0x80)
38
39class Parser(pdlparser.PDLParser) :
40    """A parser for PCL3, PCL4, PCL5 documents."""
41    totiffcommand = 'pcl6 -sDEVICE=pdfwrite -dPARANOIDSAFER -dNOPAUSE -dBATCH -dQUIET -sOutputFile=- - | gs -sDEVICE=tiff24nc -dPARANOIDSAFER -dNOPAUSE -dBATCH -dQUIET -r%(dpi)i -sOutputFile="%(fname)s" -'
42    mediasizes = {  # ESC&l####A
43                    0 : "Default",
44                    1 : "Executive",
45                    2 : "Letter",
46                    3 : "Legal",
47                    6 : "Ledger", 
48                    25 : "A5",
49                    26 : "A4",
50                    27 : "A3",
51                    45 : "JB5",
52                    46 : "JB4",
53                    71 : "HagakiPostcard",
54                    72 : "OufukuHagakiPostcard",
55                    80 : "MonarchEnvelope",
56                    81 : "COM10Envelope",
57                    90 : "DLEnvelope",
58                    91 : "C5Envelope",
59                    100 : "B5Envelope",
60                    101 : "Custom",
61                 }   
62                 
63    mediasources = { # ESC&l####H
64                     0 : "Default",
65                     1 : "Main",
66                     2 : "Manual",
67                     3 : "ManualEnvelope",
68                     4 : "Alternate",
69                     5 : "OptionalLarge",
70                     6 : "EnvelopeFeeder",
71                     7 : "Auto",
72                     8 : "Tray1",
73                   }
74                   
75    orientations = { # ESC&l####O
76                     0 : "Portrait",
77                     1 : "Landscape",
78                     2 : "ReversePortrait",
79                     3 : "ReverseLandscape",
80                   }
81                   
82    mediatypes = { # ESC&l####M
83                     0 : "Plain",
84                     1 : "Bond",
85                     2 : "Special",
86                     3 : "Glossy",
87                     4 : "Transparent",
88                   }
89       
90    def isValid(self) :   
91        """Returns True if data is PCL3/4/5, else False."""
92        if self.firstblock.startswith("\033E\033") or \
93           (self.firstblock.startswith("\033*rbC") and (not self.lastblock[-3:] == "\f\033@")) or \
94           self.firstblock.startswith("\033%8\033") or \
95           (self.firstblock.find("\033%-12345X") != -1) or \
96           (self.firstblock.find("@PJL ENTER LANGUAGE=PCL\012\015\033") != -1) or \
97           (self.firstblock.startswith(chr(0xcd)+chr(0xca)) and self.firstblock.find("\033E\033")) :
98            self.logdebug("DEBUG: Input file is in the PCL3/4/5 format.")
99            return True
100        else :   
101            return False
102       
103    def setPageDict(self, attribute, value) :
104        """Initializes a page dictionnary."""
105        dic = self.pages.setdefault(self.pagecount, { "copies" : 1, "mediasource" : "Main", "mediasize" : "Default", "mediatype" : "Plain", "orientation" : "Portrait", "escaped" : "", "duplex": 0})
106        dic[attribute] = value
107       
108    def readByte(self) :   
109        """Reads a byte from the input stream."""
110        tag = ord(self.minfile[self.pos])
111        self.pos += 1
112        return tag
113       
114    def endPage(self) :   
115        """Handle the FF marker."""
116        #self.logdebug("FORMFEED %i at %08x" % (self.pagecount, self.pos-1))
117        self.pagecount += 1
118       
119    def escPercent(self) :   
120        """Handles the ESC% sequence."""
121        if self.minfile[self.pos : self.pos+7] == r"-12345X" :
122            #self.logdebug("Generic ESCAPE sequence at %08x" % self.pos)
123            self.pos += 7
124            buffer = []
125            quotes = 0
126            char = chr(self.readByte())
127            while ((char < ASCIILIMIT) or (quotes % 2)) and (char not in (FORMFEED, ESCAPE, NUL)) : 
128                buffer.append(char)
129                if char == '"' :
130                    quotes += 1
131                char = chr(self.readByte())
132            self.setPageDict("escaped", "".join(buffer))
133            #self.logdebug("ESCAPED : %s" % "".join(buffer))
134            self.pos -= 1   # Adjust position
135        else :   
136            while 1 :
137                (value, end) = self.getInteger()
138                if end == 'B' :
139                    self.enterHPGL2()
140                    while self.minfile[self.pos] != ESCAPE :
141                        self.pos += 1
142                    self.pos -= 1   
143                    return 
144                elif end == 'A' :   
145                    self.exitHPGL2()
146                    return
147                elif end is None :   
148                    return
149       
150    def enterHPGL2(self) :   
151        """Enters HPGL2 mode."""
152        #self.logdebug("ENTERHPGL2 %08x" % self.pos)
153        self.hpgl2 = True
154       
155    def exitHPGL2(self) :   
156        """Exits HPGL2 mode."""
157        #self.logdebug("EXITHPGL2 %08x" % self.pos)
158        self.hpgl2 = False
159       
160    def handleTag(self, tagtable) :   
161        """Handles tags."""
162        tagtable[self.readByte()]()
163       
164    def escape(self) :   
165        """Handles the ESC character."""
166        #self.logdebug("ESCAPE")
167        self.handleTag(self.esctags)
168       
169    def escAmp(self) :   
170        """Handles the ESC& sequence."""
171        #self.logdebug("AMP")
172        self.handleTag(self.escamptags)
173       
174    def escStar(self) :   
175        """Handles the ESC* sequence."""
176        #self.logdebug("STAR")
177        self.handleTag(self.escstartags)
178       
179    def escLeftPar(self) :   
180        """Handles the ESC( sequence."""
181        #self.logdebug("LEFTPAR")
182        self.handleTag(self.escleftpartags)
183       
184    def escRightPar(self) :   
185        """Handles the ESC( sequence."""
186        #self.logdebug("RIGHTPAR")
187        self.handleTag(self.escrightpartags)
188       
189    def escE(self) :   
190        """Handles the ESCE sequence."""
191        #self.logdebug("RESET")
192        self.resets += 1
193       
194    def escAmpl(self) :   
195        """Handles the ESC&l sequence."""
196        while 1 :
197            (value, end) = self.getInteger()
198            if value is None :
199                return
200            if end in ('h', 'H') :
201                mediasource = self.mediasources.get(value, str(value))
202                self.mediasourcesvalues.append(mediasource)
203                self.setPageDict("mediasource", mediasource)
204                #self.logdebug("MEDIASOURCE %s" % mediasource)
205            elif end in ('a', 'A') :
206                mediasize = self.mediasizes.get(value, str(value))
207                self.mediasizesvalues.append(mediasize)
208                self.setPageDict("mediasize", mediasize)
209                #self.logdebug("MEDIASIZE %s" % mediasize)
210            elif end in ('o', 'O') :
211                orientation = self.orientations.get(value, str(value))
212                self.orientationsvalues.append(orientation)
213                self.setPageDict("orientation", orientation)
214                #self.logdebug("ORIENTATION %s" % orientation)
215            elif end in ('m', 'M') :
216                mediatype = self.mediatypes.get(value, str(value))
217                self.mediatypesvalues.append(mediatype)
218                self.setPageDict("mediatype", mediatype)
219                #self.logdebug("MEDIATYPE %s" % mediatype)
220            elif end == 'X' :
221                self.copies.append(value)
222                self.setPageDict("copies", value)
223                #self.logdebug("COPIES %i" % value)
224               
225    def escAmpa(self) :   
226        """Handles the ESC&a sequence."""
227        while 1 :
228            (value, end) = self.getInteger()
229            if value is None :
230                return
231            if end == 'G' :   
232                #self.logdebug("BACKSIDES %i" % value)
233                self.backsides.append(value)
234                self.setPageDict("duplex", value)
235               
236    def escAmpb(self) :   
237        """Handles the ESC&b sequence."""
238        while 1 :
239            (value, end) = self.getInteger()
240            if value is None :
241                return
242            if end == 'W' :   
243                self.pos += value
244                #self.logdebug("SKIPTO %08x" % self.pos)
245               
246    def escAmpn(self) :   
247        """Handles the ESC&n sequence."""
248        while 1 :
249            (value, end) = self.getInteger()
250            if value is None :
251                return
252            if end == 'W' :   
253                self.pos += value
254                #self.logdebug("SKIPTO %08x" % self.pos)
255               
256    def escAmpp(self) :   
257        """Handles the ESC&p sequence."""
258        while 1 :
259            (value, end) = self.getInteger()
260            if value is None :
261                return
262            if end == 'X' :   
263                self.pos += value
264                #self.logdebug("SKIPTO %08x" % self.pos)
265               
266    def escAmpu(self) :   
267        """Handles the ESC&u sequence."""
268        while 1 :
269            (value, end) = self.getInteger()
270            if value is None :
271                return
272               
273    def escStarb(self) :   
274        """Handles the ESC*b sequence."""
275        while 1 :
276            (value, end) = self.getInteger()
277            if (end is None) and (value is None) :
278                return
279            if end in ('V', 'W', 'v', 'w') :   
280                self.pos += (value or 0)
281                #self.logdebug("SKIPTO %08x" % self.pos)
282               
283    def escStarcgilmv(self) :   
284        """Handles the ESC*c, ESC*g, ESC*i, ESC*l, ESC*m, ESC*v sequences."""
285        while 1 :
286            (value, end) = self.getInteger()
287            if value is None :
288                return
289            if end == 'W' :   
290                self.pos += value
291                #self.logdebug("SKIPTO %08x" % self.pos)
292               
293    def escStaro(self) :   
294        """Handles the ESC*o sequence."""
295        while 1 :
296            (value, end) = self.getInteger()
297            if value is None :
298                return
299               
300    def escStarp(self) :   
301        """Handles the ESC*p sequence."""
302        while 1 :
303            (value, end) = self.getInteger()
304            if value is None :
305                return
306               
307    def escStarr(self) :   
308        """Handles the ESC*r sequence."""
309        while 1 :
310            (value, end) = self.getInteger()
311            if value is None :
312                if end is None :
313                    return
314                elif end in ('B', 'C') :       
315                    #self.logdebug("EndGFX")
316                    if self.startgfx :
317                        self.endgfx.append(1)
318                    else :   
319                        #self.logdebug("EndGFX found before StartGFX, ignored.")
320                        pass
321            if end == 'A' and (0 <= value <= 3) :
322                #self.logdebug("StartGFX %i" % value)
323                self.startgfx.append(value)
324               
325    def escStart(self) :   
326        """Handles the ESC*t sequence."""
327        while 1 :
328            (value, end) = self.getInteger()
329            if value is None :
330                return
331       
332    def escRightorLeftParsf(self) :   
333        """Handles the ESC(s, ESC)s, ESC(f sequences."""
334        while 1 :
335            (value, end) = self.getInteger()
336            if value is None :
337                return
338            if end == 'W' :   
339                self.pos += value
340                #self.logdebug("SKIPTO %08x" % self.pos)
341               
342    def getInteger(self) :   
343        """Returns an integer value and the end character."""
344        sign = 1
345        value = None
346        while 1 :
347            char = chr(self.readByte())
348            if char in (NUL, ESCAPE, FORMFEED, ASCIILIMIT) :
349                self.pos -= 1 # Adjust position
350                return (None, None)
351            if char == '-' :
352                sign = -1
353            elif not char.isdigit() :
354                if value is not None :
355                    return (sign*value, char)
356                else :
357                    return (value, char)
358            else :   
359                value = ((value or 0) * 10) + int(char)   
360       
361    def skipByte(self) :   
362        """Skips a byte."""
363        #self.logdebug("SKIPBYTE %08x ===> %02x" % (self.pos, ord(self.minfile[self.pos])))
364        self.pos += 1
365       
366    def getJobSize(self) :     
367        """Count pages in a PCL5 document.
368         
369           Should also work for PCL3 and PCL4 documents.
370           
371           Algorithm from pclcount
372           (c) 2003, by Eduardo Gielamo Oliveira & Rodolfo Broco Manin
373           published under the terms of the GNU General Public Licence v2.
374         
375           Backported from C to Python by Jerome Alet, then enhanced
376           with more PCL tags detected. I think all the necessary PCL tags
377           are recognized to correctly handle PCL5 files wrt their number
378           of pages. The documentation used for this was :
379         
380           HP PCL/PJL Reference Set
381           PCL5 Printer Language Technical Quick Reference Guide
382           http://h20000.www2.hp.com/bc/docs/support/SupportManual/bpl13205/bpl13205.pdf
383        """
384        infileno = self.infile.fileno()
385        self.minfile = minfile = mmap.mmap(infileno, os.fstat(infileno)[6], prot=mmap.PROT_READ, flags=mmap.MAP_SHARED)
386        self.pages = {}
387        self.pagecount = 0
388        self.resets = 0
389        self.backsides = []
390        self.copies = []
391        self.mediasourcesvalues = []
392        self.mediasizesvalues = []
393        self.orientationsvalues = []
394        self.mediatypesvalues = []
395        self.startgfx = []
396        self.endgfx = []
397        self.hpgl2 = False
398       
399        tags = [ lambda : None] * 256
400        tags[ord(FORMFEED)] = self.endPage
401        tags[ord(ESCAPE)] = self.escape
402        tags[ord(ASCIILIMIT)] = self.skipByte
403       
404        self.esctags = [ lambda : None ] * 256
405        self.esctags[ord('%')] = self.escPercent
406        self.esctags[ord('*')] = self.escStar
407        self.esctags[ord('&')] = self.escAmp
408        self.esctags[ord('(')] = self.escLeftPar
409        self.esctags[ord(')')] = self.escRightPar
410        self.esctags[ord('E')] = self.escE
411       
412        self.escamptags = [lambda : None ] * 256
413        self.escamptags[ord('a')] = self.escAmpa
414        self.escamptags[ord('b')] = self.escAmpb
415        self.escamptags[ord('l')] = self.escAmpl
416        self.escamptags[ord('n')] = self.escAmpn
417        self.escamptags[ord('p')] = self.escAmpp
418        self.escamptags[ord('u')] = self.escAmpu
419       
420        self.escstartags = [ lambda : None ] * 256
421        self.escstartags[ord('b')] = self.escStarb
422        self.escstartags[ord('o')] = self.escStaro
423        self.escstartags[ord('p')] = self.escStarp
424        self.escstartags[ord('r')] = self.escStarr
425        self.escstartags[ord('t')] = self.escStart
426        self.escstartags[ord('c')] = self.escStarcgilmv
427        self.escstartags[ord('g')] = self.escStarcgilmv
428        self.escstartags[ord('i')] = self.escStarcgilmv
429        self.escstartags[ord('l')] = self.escStarcgilmv
430        self.escstartags[ord('m')] = self.escStarcgilmv
431        self.escstartags[ord('v')] = self.escStarcgilmv
432       
433        self.escleftpartags = [ lambda : None ] * 256
434        self.escleftpartags[ord('s')] = self.escRightorLeftParsf
435        self.escleftpartags[ord('f')] = self.escRightorLeftParsf
436       
437        self.escrightpartags = [ lambda : None ] * 256
438        self.escrightpartags[ord('s')] = self.escRightorLeftParsf
439       
440        self.pos = 0
441        try :
442            try :
443                while 1 :
444                    tags[self.readByte()]()
445            except IndexError : # EOF ?           
446                pass
447        finally :
448            self.minfile.close()
449       
450        self.logdebug("Pagecount : \t\t\t%i" % self.pagecount)
451        self.logdebug("Resets : \t\t\t%i" % self.resets)
452        self.logdebug("Copies : \t\t\t%s" % self.copies)
453        self.logdebug("NbCopiesMarks : \t\t%i" % len(self.copies))
454        self.logdebug("MediaTypes : \t\t\t%s" % self.mediatypesvalues)
455        self.logdebug("NbMediaTypes : \t\t\t%i" % len(self.mediatypesvalues))
456        self.logdebug("MediaSizes : \t\t\t%s" % self.mediasizesvalues)
457        self.logdebug("NbMediaSizes : \t\t\t%i" % len(self.mediasizesvalues))
458        self.logdebug("MediaSources : \t\t\t%s" % self.mediasourcesvalues)
459        nbmediasourcesdefault = len([m for m in self.mediasourcesvalues if m == 'Default'])
460        self.logdebug("MediaSourcesDefault : \t\t%i" % nbmediasourcesdefault)
461        self.logdebug("MediaSourcesNOTDefault : \t%i" % (len(self.mediasourcesvalues) - nbmediasourcesdefault))
462        self.logdebug("Orientations : \t\t\t%s" % self.orientationsvalues)
463        nborientations = len(self.orientationsvalues)
464        self.logdebug("NbOrientations : \t\t\t%i" % nborientations)
465        self.logdebug("StartGfx : \t\t\t%s" % len(self.startgfx))
466        self.logdebug("EndGfx : \t\t\t%s" % len(self.endgfx))
467        self.logdebug("BackSides : \t\t\t%s" % self.backsides)
468        self.logdebug("NbBackSides : \t\t\t%i" % len(self.backsides))
469       
470        if len(self.startgfx) == len(self.endgfx) == 0 :
471            if self.resets % 2 :
472                if nborientations == self.pagecount + 1 :
473                    self.logdebug("Adjusting PageCount : +1")
474                    self.pagecount += 1
475                elif nborientations == self.pagecount - 1 :
476                    self.logdebug("Adjusting PageCount : -1")
477                    self.pagecount -= 1
478        return self.pagecount or nbmediasourcesdefault
479       
480def test() :       
481    """Test function."""
482    if (len(sys.argv) < 2) or ((not sys.stdin.isatty()) and ("-" not in sys.argv[1:])) :
483        sys.argv.append("-")
484    totalsize = 0   
485    for arg in sys.argv[1:] :
486        if arg == "-" :
487            infile = sys.stdin
488            mustclose = 0
489        else :   
490            infile = open(arg, "rb")
491            mustclose = 1
492        try :
493            parser = Parser(infile, debug=1)
494            totalsize += parser.getJobSize()
495        except pdlparser.PDLParserError, msg :   
496            sys.stderr.write("ERROR: %s\n" % msg)
497            sys.stderr.flush()
498        if mustclose :   
499            infile.close()
500    print "%s" % totalsize
501   
502if __name__ == "__main__" :   
503    test()
Note: See TracBrowser for help on using the browser.