patacrep/songbook/index.py

#!/usr/bin/python
# -*- coding: utf-8 -*-

"""Manage indexes.

Generate indexes files for the songbook compilation. This is a replacement for
the original makeindex program written in C that produces an index file (.sbx)
from a file generated by the latex compilation of the songbook (.sxd).
"""

from unidecode import unidecode
import locale
import re
import sys

from songbook.authors import processauthors
from songbook.plastex import simpleparse

EOL = "\n"

# Pattern set to ignore latex command in title prefix
keywordPattern = re.compile(r"^%(\w+)\s?(.*)$")
firstLetterPattern = re.compile(r"^(?:\{?\\\w+\}?)*[^\w]*(\w)")


def sortkey(value):
    '''
    From a title, return something usable for sorting. It handles locale (but
    don't forget to call locale.setlocale(locale.LC_ALL, '')). It also handles
    the sort with  latex escape sequences.
    '''
    return locale.strxfrm(unidecode(simpleparse(value).replace(' ', 'A')))


def processSXD(filename):
    """Parse sxd file.

    Return an Index object.
    """
    index_file = open(filename)
    data = []
    for line in index_file:
        data.append(line.strip())
    index_file.close()

    i = 1
    idx = Index(data[0])

    while len(data) > i and data[i].startswith('%'):
        keywords = keywordPattern.match(data[i]).groups()
        idx.keyword(keywords[0], keywords[1])
        i += 1

    idx.compileKeywords()
    for i in range(i, len(data), 3):
        entry = data[i:i + 3]
        idx.add(entry[0], entry[1], entry[2])

    return idx


class Index:
    """Title, author or scripture Index representation."""

    def __init__(self, indextype):
        self.data = dict()
        self.keywords = dict()
        self.prefix_patterns = []
        self.authwords = {"after": [], "ignore": [], "sep": []}
        if indextype == "TITLE INDEX DATA FILE":
            self.indextype = "TITLE"
        elif indextype == "SCRIPTURE INDEX DATA FILE":
            self.indextype = "SCRIPTURE"
        elif indextype == "AUTHOR INDEX DATA FILE":
            self.indextype = "AUTHOR"
        else:
            self.indextype = ""

    def filter(self, key):
        letter = firstLetterPattern.match(key).group(1)
        if re.match('\d', letter):
            letter = '0-9'
        return (letter.upper(), key)

    def keyword(self, key, word):
        if not key in self.keywords.keys():
            self.keywords[key] = []
        self.keywords[key].append(word)

    def compileKeywords(self):
        if self.indextype == "TITLE":
            if 'prefix' in self.keywords:
                for prefix in self.keywords['prefix']:
                    self.prefix_patterns.append(re.compile(
                            r"^({prefix})(\b|\\)(\s*.*)$".format(prefix=prefix)
                            ))

        if self.indextype == "AUTHOR":
            for key in self.keywords:
                if key in self.authwords:
                    self.authwords[key] = self.keywords[key]
            for word in self.authwords.keys():
                if word in self.keywords:
                    if word == "after":
                        self.authwords[word] = [
                            re.compile(r"^.*{after}\b(.*)".format(after=after))
                            for after in self.keywords[word]
                            ]
                    elif word == "sep":
                        self.authwords[word] = [" {sep}".format(sep=sep)
                                            for sep in self.authwords[word]
                                            ] + [","]
                        self.authwords[word] = [
                                re.compile(r"^(.*){sep} (.*)$".format(sep=sep))
                                for sep in self.authwords[word]
                                ]
                    else:
                        self.authwords[word] = self.keywords[word]

    def _raw_add(self, key, number, link):
        (first, key) = self.filter(key)
        if not first in self.data.keys():
            self.data[first] = dict()
        if not key in self.data[first].keys():
            self.data[first][key] = []
        self.data[first][key].append({'num': number, 'link': link})

    def add(self, key, number, link):
        if self.indextype == "TITLE":
            # Removing prefixes before titles
            for pattern in self.prefix_patterns:
                match = pattern.match(key)
                if match:
                    self._raw_add(
                                  "{} ({})".format(
                                        match.group(2) + match.group(3),
                                        match.group(1)),
                                  number, link)
                    return
            self._raw_add(key, number, link)

        if self.indextype == "AUTHOR":
            # Processing authors
            for author in processauthors(
                    key,
                    **self.authwords):
                self._raw_add(author, number, link)

    def refToStr(self, ref):
        if sys.version_info >= (2, 6):
            return r'\hyperlink{{{0[link]}}}{{{0[num]}}}'.format(ref)
        else:
            return r'\hyperlink{%(link)s}{%(num)s}' % ref

    def entryToStr(self, key, entry):
        if sys.version_info >= (2, 6):
            return unicode(r'\idxentry{{{0}}}{{{1}}}' + EOL).format(key, r'\\'.join(map(self.refToStr, entry)))
        else:
            return unicode(r'\idxentry{%s}{%s}' + EOL) % (key, r'\\'.join(map(self.refToStr, entry)))

    def idxBlockToStr(self, letter, entries):
        string = r'\begin{idxblock}{' + letter + '}' + EOL
        for key in sorted(entries.keys(), key=sortkey):
            string += self.entryToStr(key, entries[key])
        string += r'\end{idxblock}' + EOL
        return string

    def entriesToStr(self):
        string = ""
        for letter in sorted(self.data.keys()):
            string += self.idxBlockToStr(letter, self.data[letter])
        return string
wip 12 years ago			`#!/usr/bin/python`
			`# -- coding: utf-8 --`
Added docstrings 11 years ago
			`"""Manage indexes.`

			`Generate indexes files for the songbook compilation. This is a replacement for`
			`the original makeindex program written in C that produces an index file (.sbx)`
			`from a file generated by the latex compilation of the songbook (.sxd).`
			`"""`
wip 12 years ago
Remplacement de la table de conversion \IeC => ASCII par un traitement par PlasTeX Le code est plus propre, et tous les caractères sont gérés. 12 years ago			`from unidecode import unidecode`
wip 12 years ago			`import locale`
Réorganisation ; Création d'un module digne de ce nom 11 years ago			`import re`
			`import sys`
wip 12 years ago
Réorganisation ; Création d'un module digne de ce nom 11 years ago			`from songbook.authors import processauthors`
			`from songbook.plastex import simpleparse`
Les auteurs sont désormais triés par nom de famille 12 years ago
Remplacement des \\ par des chaines r"\" où necessaire 11 years ago			`EOL = "\n"`

wip 12 years ago			`# Pattern set to ignore latex command in title prefix`
			`keywordPattern = re.compile(r"^%(\w+)\s?(.*)$")`
			`firstLetterPattern = re.compile(r"^(?:\{?\\\w+\}?)[^\w](\w)")`

Début de la mise à niveau pep8 (#4) 11 years ago
wip 12 years ago			`def sortkey(value):`
			`'''`
			`From a title, return something usable for sorting. It handles locale (but`
Remplacement de la table de conversion \IeC => ASCII par un traitement par PlasTeX Le code est plus propre, et tous les caractères sont gérés. 12 years ago			`don't forget to call locale.setlocale(locale.LC_ALL, '')). It also handles`
			`the sort with latex escape sequences.`
wip 12 years ago			`'''`
Les auteurs sont désormais triés par nom de famille 12 years ago			`return locale.strxfrm(unidecode(simpleparse(value).replace(' ', 'A')))`
wip 12 years ago
Début de la mise à niveau pep8 (#4) 11 years ago
wip 12 years ago			`def processSXD(filename):`
Added docstrings 11 years ago			`"""Parse sxd file.`

Cleaning and some python 3 compatibility. 11 years ago			`Return an Index object.`
Added docstrings 11 years ago			`"""`
Début de la mise à niveau pep8 (#4) 11 years ago			`index_file = open(filename)`
wip 12 years ago			`data = []`
Début de la mise à niveau pep8 (#4) 11 years ago			`for line in index_file:`
wip 12 years ago			`data.append(line.strip())`
Début de la mise à niveau pep8 (#4) 11 years ago			`index_file.close()`
wip 12 years ago
			`i = 1`
Cleaning and some python 3 compatibility. 11 years ago			`idx = Index(data[0])`
wip 12 years ago
Correction d'un bug apparaissant lorsqu'un carnet ne contenait aucune chanson 11 years ago			`while len(data) > i and data[i].startswith('%'):`
			`keywords = keywordPattern.match(data[i]).groups()`
Début de la mise à niveau pep8 (#4) 11 years ago			`idx.keyword(keywords[0], keywords[1])`
Correction d'un bug apparaissant lorsqu'un carnet ne contenait aucune chanson 11 years ago			`i += 1`
wip 12 years ago
			`idx.compileKeywords()`
Début de la mise à niveau pep8 (#4) 11 years ago			`for i in range(i, len(data), 3):`
Added docstrings 11 years ago			`entry = data[i:i + 3]`
Début de la mise à niveau pep8 (#4) 11 years ago			`idx.add(entry[0], entry[1], entry[2])`
Les auteurs sont désormais triés par nom de famille 12 years ago
wip 12 years ago			`return idx`

Début de la mise à niveau pep8 (#4) 11 years ago
Cleaning and some python 3 compatibility. 11 years ago			`class Index:`
			`"""Title, author or scripture Index representation."""`
Added docstrings 11 years ago
Les auteurs sont désormais triés par nom de famille 12 years ago			`def __init__(self, indextype):`
Correction de bug : l'index des auteurs incluait l'index des titres 12 years ago			`self.data = dict()`
			`self.keywords = dict()`
Début de la mise à niveau pep8 (#4) 11 years ago			`self.prefix_patterns = []`
			`self.authwords = {"after": [], "ignore": [], "sep": []}`
Les auteurs sont désormais triés par nom de famille 12 years ago			`if indextype == "TITLE INDEX DATA FILE":`
			`self.indextype = "TITLE"`
			`elif indextype == "SCRIPTURE INDEX DATA FILE":`
			`self.indextype = "SCRIPTURE"`
			`elif indextype == "AUTHOR INDEX DATA FILE":`
			`self.indextype = "AUTHOR"`
			`else:`
			`self.indextype = ""`
wip 12 years ago
			`def filter(self, key):`
			`letter = firstLetterPattern.match(key).group(1)`
Début de la mise à niveau pep8 (#4) 11 years ago			`if re.match('\d', letter):`
wip 12 years ago			`letter = '0-9'`
			`return (letter.upper(), key)`

			`def keyword(self, key, word):`
Début de la mise à niveau pep8 (#4) 11 years ago			`if not key in self.keywords.keys():`
wip 12 years ago			`self.keywords[key] = []`
			`self.keywords[key].append(word)`

			`def compileKeywords(self):`
Les auteurs sont désormais triés par nom de famille 12 years ago			`if self.indextype == "TITLE":`
			`if 'prefix' in self.keywords:`
			`for prefix in self.keywords['prefix']:`
Cleaning and some python 3 compatibility. 11 years ago			`self.prefix_patterns.append(re.compile(`
			`r"^({prefix})(\b\|\\)(\s.)$".format(prefix=prefix)`
			`))`
Les auteurs sont désormais triés par nom de famille 12 years ago
			`if self.indextype == "AUTHOR":`
			`for key in self.keywords:`
			`if key in self.authwords:`
			`self.authwords[key] = self.keywords[key]`
			`for word in self.authwords.keys():`
			`if word in self.keywords:`
			`if word == "after":`
Cleaning and some python 3 compatibility. 11 years ago			`self.authwords[word] = [`
			`re.compile(r"^.{after}\b(.)".format(after=after))`
			`for after in self.keywords[word]`
			`]`
Les auteurs sont désormais triés par nom de famille 12 years ago			`elif word == "sep":`
Cleaning and some python 3 compatibility. 11 years ago			`self.authwords[word] = [" {sep}".format(sep=sep)`
			`for sep in self.authwords[word]`
			`] + [","]`
			`self.authwords[word] = [`
			`re.compile(r"^(.){sep} (.)$".format(sep=sep))`
			`for sep in self.authwords[word]`
			`]`
Les auteurs sont désormais triés par nom de famille 12 years ago			`else:`
			`self.authwords[word] = self.keywords[word]`

			`def _raw_add(self, key, number, link):`
wip 12 years ago			`(first, key) = self.filter(key)`
Début de la mise à niveau pep8 (#4) 11 years ago			`if not first in self.data.keys():`
wip 12 years ago			`self.data[first] = dict()`
Début de la mise à niveau pep8 (#4) 11 years ago			`if not key in self.data[first].keys():`
wip 12 years ago			`self.data[first][key] = []`
Début de la mise à niveau pep8 (#4) 11 years ago			`self.data[first][key].append({'num': number, 'link': link})`
wip 12 years ago
Les auteurs sont désormais triés par nom de famille 12 years ago			`def add(self, key, number, link):`
			`if self.indextype == "TITLE":`
			`# Removing prefixes before titles`
			`for pattern in self.prefix_patterns:`
			`match = pattern.match(key)`
			`if match:`
			`self._raw_add(`
Cleaning and some python 3 compatibility. 11 years ago			`"{} ({})".format(`
			`match.group(2) + match.group(3),`
			`match.group(1)),`
			`number, link)`
Les auteurs sont désormais triés par nom de famille 12 years ago			`return`
			`self._raw_add(key, number, link)`

			`if self.indextype == "AUTHOR":`
			`# Processing authors`
			`for author in processauthors(`
			`key,`
			`**self.authwords):`
			`self._raw_add(author, number, link)`

wip 12 years ago			`def refToStr(self, ref):`
Début de la mise à niveau pep8 (#4) 11 years ago			`if sys.version_info >= (2, 6):`
Remplacement des \\ par des chaines r"\" où necessaire 11 years ago			`return r'\hyperlink{{{0[link]}}}{{{0[num]}}}'.format(ref)`
wip 12 years ago			`else:`
Remplacement des \\ par des chaines r"\" où necessaire 11 years ago			`return r'\hyperlink{%(link)s}{%(num)s}' % ref`
wip 12 years ago
			`def entryToStr(self, key, entry):`
Début de la mise à niveau pep8 (#4) 11 years ago			`if sys.version_info >= (2, 6):`
Remplacement des \\ par des chaines r"\" où necessaire 11 years ago			`return unicode(r'\idxentry{{{0}}}{{{1}}}' + EOL).format(key, r'\\'.join(map(self.refToStr, entry)))`
wip 12 years ago			`else:`
Remplacement des \\ par des chaines r"\" où necessaire 11 years ago			`return unicode(r'\idxentry{%s}{%s}' + EOL) % (key, r'\\'.join(map(self.refToStr, entry)))`
wip 12 years ago
			`def idxBlockToStr(self, letter, entries):`
Remplacement des \\ par des chaines r"\" où necessaire 11 years ago			`string = r'\begin{idxblock}{' + letter + '}' + EOL`
wip 12 years ago			`for key in sorted(entries.keys(), key=sortkey):`
Début de la mise à niveau pep8 (#4) 11 years ago			`string += self.entryToStr(key, entries[key])`
Remplacement des \\ par des chaines r"\" où necessaire 11 years ago			`string += r'\end{idxblock}' + EOL`
Début de la mise à niveau pep8 (#4) 11 years ago			`return string`
wip 12 years ago
			`def entriesToStr(self):`
Début de la mise à niveau pep8 (#4) 11 years ago			`string = ""`
wip 12 years ago			`for letter in sorted(self.data.keys()):`
Début de la mise à niveau pep8 (#4) 11 years ago			`string += self.idxBlockToStr(letter, self.data[letter])`
			`return string`