patacrep/songbook_core/index.py

#!/usr/bin/python
# -*- coding: utf-8 -*-

"""Manage indexes.

Generate indexes files for the songbook compilation. This is a replacement for
the original makeindex program written in C that produces an index file (.sbx)
from a file generated by the latex compilation of the songbook (.sxd).
"""

from unidecode import unidecode
import locale
import re
import codecs

from songbook_core.authors import processauthors
from songbook_core.plastex import simpleparse

EOL = u"\n"

# Pattern set to ignore latex command in title prefix
KEYWORD_PATTERN = re.compile(r"^%(\w+)\s?(.*)$")
FIRST_LETTER_PATTERN = re.compile(r"^(?:\{?\\\w+\}?)*[^\w]*(\w)")


def sortkey(value):
    """From a title, return something usable for sorting.

    It handles locale (but
    don't forget to call locale.setlocale(locale.LC_ALL, '')). It also handles
    the sort with  latex escape sequences.
    """
    return locale.strxfrm(unidecode(simpleparse(value).replace(' ', 'A')))


def process_sxd(filename):
    """Parse sxd file.

    Return an Index object.
    """
    data = []
    with codecs.open(filename, 'r', 'utf-8') as index_file:
        for line in index_file:
            data.append(line.strip())

    i = 1
    idx = Index(data[0])

    while len(data) > i and data[i].startswith('%'):
        keywords = KEYWORD_PATTERN.match(data[i]).groups()
        idx.add_keyword(keywords[0], keywords[1])
        i += 1

    idx.compile_keywords()
    for i in range(i, len(data), 3):
        entry = data[i:i + 3]
        idx.add(entry[0], entry[1], entry[2])

    return idx


class Index(object):
    """Title, author or scripture Index representation."""

    def __init__(self, indextype):
        self.data = dict()
        self.keywords = dict()
        self.prefix_patterns = []
        self.authwords = {"after": [], "ignore": [], "sep": []}
        if indextype == "TITLE INDEX DATA FILE":
            self.indextype = "TITLE"
        elif indextype == "SCRIPTURE INDEX DATA FILE":
            self.indextype = "SCRIPTURE"
        elif indextype == "AUTHOR INDEX DATA FILE":
            self.indextype = "AUTHOR"
        else:
            self.indextype = ""

    @staticmethod
    def get_first_letter(key):
        """Return the uppercase first letter of key."""
        letter = FIRST_LETTER_PATTERN.match(key).group(1)
        if re.match(r'\d', letter):
            letter = '0-9'
        return letter.upper()

    def add_keyword(self, key, word):
        """Add 'word' to self.keywords[key]."""
        if not key in self.keywords.keys():
            self.keywords[key] = []
        self.keywords[key].append(word)

    def compile_keywords(self):
        """Turn keywords (self.keywords) into regular expressions."""
        if self.indextype == "TITLE":
            if 'prefix' in self.keywords:
                for prefix in self.keywords['prefix']:
                    self.prefix_patterns.append(re.compile(
                            r"^({prefix})(\b|\\)(\s*.*)$".format(prefix=prefix)
                            ))

        if self.indextype == "AUTHOR":
            for key in self.keywords:
                if key in self.authwords:
                    self.authwords[key] = self.keywords[key]
            for word in self.authwords.keys():
                if word in self.keywords:
                    if word == "after":
                        self.authwords[word] = [
                            re.compile(r"^.*{after}\b(.*)".format(after=after))
                            for after in self.keywords[word]
                            ]
                    elif word == "sep":
                        self.authwords[word] = [" {sep}".format(sep=sep)
                                            for sep in self.authwords[word]
                                            ] + [","]
                        self.authwords[word] = [
                                re.compile(r"^(.*){sep} (.*)$".format(sep=sep))
                                for sep in self.authwords[word]
                                ]
                    else:
                        self.authwords[word] = self.keywords[word]

    def _raw_add(self, key, number, link):
        """Add a song to the list.

        No processing is done on data. It is added raw. See add() for a
        similar method with processing.
        """
        first = self.get_first_letter(key)
        if not first in self.data.keys():
            self.data[first] = dict()
        if not key in self.data[first].keys():
            self.data[first][key] = []
        self.data[first][key].append({'num': number, 'link': link})

    def add(self, key, number, link):
        """Add a song to the list.

        Process data before adding it.
        """
        if self.indextype == "TITLE":
            # Removing prefixes before titles
            for pattern in self.prefix_patterns:
                match = pattern.match(key.encode('utf-8'))
                if match:
                    self._raw_add(
                                  "{} ({})".format(
                                        match.group(2) + match.group(3),
                                        match.group(1)
                                        ),
                                    number,
                                    link
                                    )
                    return
            self._raw_add(key, number, link)

        if self.indextype == "AUTHOR":
            # Processing authors
            for author in processauthors(
                    key,
                    **self.authwords):
                self._raw_add(author, number, link)

    @staticmethod
    def ref_to_str(ref):
        """Return the LaTeX code corresponding to the reference."""
        return r'\hyperlink{{{0[link]}}}{{{0[num]}}}'.format(ref)

    def entry_to_str(self, key, entry):
        """Return the LaTeX code corresponding to the entry."""
        if not isinstance(key, unicode):
            key = unicode(key, "UTF-8")
        return unicode(ur'\idxentry{{{0}}}{{{1}}}' + EOL).format(
                key,
                ur'\\'.join([self.ref_to_str(ref) for ref in entry]),
                )

    def idxblock_to_str(self, letter, entries):
        """Return the LaTeX code corresponding to an index block.

        Here, an index block is a letter, and all data beginning with this
        letter.
        """
        string = r'\begin{idxblock}{' + letter + '}' + EOL
        for key in sorted(entries.keys(), key=sortkey):
            string += self.entry_to_str(key, entries[key])
        string += r'\end{idxblock}' + EOL
        return string

    def entries_to_str(self):
        """Return the LaTeX code corresponding to the index."""
        string = ""
        for letter in sorted(self.data.keys()):
            string += self.idxblock_to_str(letter, self.data[letter])
        return string
wip 12 years ago			`#!/usr/bin/python`
			`# -- coding: utf-8 --`
Added docstrings 11 years ago
			`"""Manage indexes.`

			`Generate indexes files for the songbook compilation. This is a replacement for`
			`the original makeindex program written in C that produces an index file (.sbx)`
			`from a file generated by the latex compilation of the songbook (.sxd).`
			`"""`
wip 12 years ago
Remplacement de la table de conversion \IeC => ASCII par un traitement par PlasTeX Le code est plus propre, et tous les caractères sont gérés. 12 years ago			`from unidecode import unidecode`
wip 12 years ago			`import locale`
Réorganisation ; Création d'un module digne de ce nom 11 years ago			`import re`
WIP: gestion des problemes d'encodages des index 11 years ago			`import codecs`
wip 12 years ago
More Pylint formatting. Almost done! (#4) 11 years ago			`from songbook_core.authors import processauthors`
			`from songbook_core.plastex import simpleparse`
Les auteurs sont désormais triés par nom de famille 12 years ago
WIP: gestion des problemes d'encodages des index 11 years ago			`EOL = u"\n"`
Remplacement des \\ par des chaines r"\" où necessaire 11 years ago
wip 12 years ago			`# Pattern set to ignore latex command in title prefix`
More Pylint formatting. Almost done! (#4) 11 years ago			`KEYWORD_PATTERN = re.compile(r"^%(\w+)\s?(.*)$")`
			`FIRST_LETTER_PATTERN = re.compile(r"^(?:\{?\\\w+\}?)[^\w](\w)")`
wip 12 years ago
Début de la mise à niveau pep8 (#4) 11 years ago
wip 12 years ago			`def sortkey(value):`
Presque fin de la conformité Pxlint (#4). Reste quelques éléments qui disparaitront avec #9 11 years ago			`"""From a title, return something usable for sorting.`

			`It handles locale (but`
Remplacement de la table de conversion \IeC => ASCII par un traitement par PlasTeX Le code est plus propre, et tous les caractères sont gérés. 12 years ago			`don't forget to call locale.setlocale(locale.LC_ALL, '')). It also handles`
			`the sort with latex escape sequences.`
Presque fin de la conformité Pxlint (#4). Reste quelques éléments qui disparaitront avec #9 11 years ago			`"""`
Les auteurs sont désormais triés par nom de famille 12 years ago			`return locale.strxfrm(unidecode(simpleparse(value).replace(' ', 'A')))`
wip 12 years ago
Début de la mise à niveau pep8 (#4) 11 years ago
More Pylint formatting. Almost done! (#4) 11 years ago			`def process_sxd(filename):`
Added docstrings 11 years ago			`"""Parse sxd file.`

Cleaning and some python 3 compatibility. 11 years ago			`Return an Index object.`
Added docstrings 11 years ago			`"""`
wip 12 years ago			`data = []`
WIP: gestion des problemes d'encodages des index 11 years ago			`with codecs.open(filename, 'r', 'utf-8') as index_file:`
Corrected indentation errors (tabs instead of spaces) 11 years ago			`for line in index_file:`
WIP: gestion des problemes d'encodages des index 11 years ago			`data.append(line.strip())`
wip 12 years ago
			`i = 1`
Cleaning and some python 3 compatibility. 11 years ago			`idx = Index(data[0])`
wip 12 years ago
Correction d'un bug apparaissant lorsqu'un carnet ne contenait aucune chanson 11 years ago			`while len(data) > i and data[i].startswith('%'):`
More Pylint formatting. Almost done! (#4) 11 years ago			`keywords = KEYWORD_PATTERN.match(data[i]).groups()`
Presque fin de la conformité Pxlint (#4). Reste quelques éléments qui disparaitront avec #9 11 years ago			`idx.add_keyword(keywords[0], keywords[1])`
Correction d'un bug apparaissant lorsqu'un carnet ne contenait aucune chanson 11 years ago			`i += 1`
wip 12 years ago
More Pylint formatting. Almost done! (#4) 11 years ago			`idx.compile_keywords()`
Début de la mise à niveau pep8 (#4) 11 years ago			`for i in range(i, len(data), 3):`
Added docstrings 11 years ago			`entry = data[i:i + 3]`
Début de la mise à niveau pep8 (#4) 11 years ago			`idx.add(entry[0], entry[1], entry[2])`
Les auteurs sont désormais triés par nom de famille 12 years ago
wip 12 years ago			`return idx`

Début de la mise à niveau pep8 (#4) 11 years ago
More Pylint formatting. Almost done! (#4) 11 years ago			`class Index(object):`
Cleaning and some python 3 compatibility. 11 years ago			`"""Title, author or scripture Index representation."""`
Added docstrings 11 years ago
Les auteurs sont désormais triés par nom de famille 12 years ago			`def __init__(self, indextype):`
Correction de bug : l'index des auteurs incluait l'index des titres 12 years ago			`self.data = dict()`
			`self.keywords = dict()`
Début de la mise à niveau pep8 (#4) 11 years ago			`self.prefix_patterns = []`
			`self.authwords = {"after": [], "ignore": [], "sep": []}`
Les auteurs sont désormais triés par nom de famille 12 years ago			`if indextype == "TITLE INDEX DATA FILE":`
			`self.indextype = "TITLE"`
			`elif indextype == "SCRIPTURE INDEX DATA FILE":`
			`self.indextype = "SCRIPTURE"`
			`elif indextype == "AUTHOR INDEX DATA FILE":`
			`self.indextype = "AUTHOR"`
			`else:`
			`self.indextype = ""`
wip 12 years ago
More Pylint formatting. Almost done! (#4) 11 years ago			`@staticmethod`
Presque fin de la conformité Pxlint (#4). Reste quelques éléments qui disparaitront avec #9 11 years ago			`def get_first_letter(key):`
			`"""Return the uppercase first letter of key."""`
More Pylint formatting. Almost done! (#4) 11 years ago			`letter = FIRST_LETTER_PATTERN.match(key).group(1)`
			`if re.match(r'\d', letter):`
wip 12 years ago			`letter = '0-9'`
Presque fin de la conformité Pxlint (#4). Reste quelques éléments qui disparaitront avec #9 11 years ago			`return letter.upper()`
wip 12 years ago
Presque fin de la conformité Pxlint (#4). Reste quelques éléments qui disparaitront avec #9 11 years ago			`def add_keyword(self, key, word):`
			`"""Add 'word' to self.keywords[key]."""`
Début de la mise à niveau pep8 (#4) 11 years ago			`if not key in self.keywords.keys():`
wip 12 years ago			`self.keywords[key] = []`
			`self.keywords[key].append(word)`

More Pylint formatting. Almost done! (#4) 11 years ago			`def compile_keywords(self):`
Presque fin de la conformité Pxlint (#4). Reste quelques éléments qui disparaitront avec #9 11 years ago			`"""Turn keywords (self.keywords) into regular expressions."""`
Les auteurs sont désormais triés par nom de famille 12 years ago			`if self.indextype == "TITLE":`
			`if 'prefix' in self.keywords:`
			`for prefix in self.keywords['prefix']:`
Cleaning and some python 3 compatibility. 11 years ago			`self.prefix_patterns.append(re.compile(`
			`r"^({prefix})(\b\|\\)(\s.)$".format(prefix=prefix)`
			`))`
Les auteurs sont désormais triés par nom de famille 12 years ago
			`if self.indextype == "AUTHOR":`
			`for key in self.keywords:`
			`if key in self.authwords:`
			`self.authwords[key] = self.keywords[key]`
			`for word in self.authwords.keys():`
			`if word in self.keywords:`
			`if word == "after":`
Cleaning and some python 3 compatibility. 11 years ago			`self.authwords[word] = [`
			`re.compile(r"^.{after}\b(.)".format(after=after))`
			`for after in self.keywords[word]`
			`]`
Les auteurs sont désormais triés par nom de famille 12 years ago			`elif word == "sep":`
Cleaning and some python 3 compatibility. 11 years ago			`self.authwords[word] = [" {sep}".format(sep=sep)`
			`for sep in self.authwords[word]`
			`] + [","]`
			`self.authwords[word] = [`
			`re.compile(r"^(.){sep} (.)$".format(sep=sep))`
			`for sep in self.authwords[word]`
			`]`
Les auteurs sont désormais triés par nom de famille 12 years ago			`else:`
			`self.authwords[word] = self.keywords[word]`

			`def _raw_add(self, key, number, link):`
Presque fin de la conformité Pxlint (#4). Reste quelques éléments qui disparaitront avec #9 11 years ago			`"""Add a song to the list.`

WIP: gestion des problemes d'encodages des index 11 years ago			`No processing is done on data. It is added raw. See add() for a`
Presque fin de la conformité Pxlint (#4). Reste quelques éléments qui disparaitront avec #9 11 years ago			`similar method with processing.`
			`"""`
			`first = self.get_first_letter(key)`
Début de la mise à niveau pep8 (#4) 11 years ago			`if not first in self.data.keys():`
wip 12 years ago			`self.data[first] = dict()`
Début de la mise à niveau pep8 (#4) 11 years ago			`if not key in self.data[first].keys():`
wip 12 years ago			`self.data[first][key] = []`
Début de la mise à niveau pep8 (#4) 11 years ago			`self.data[first][key].append({'num': number, 'link': link})`
wip 12 years ago
Les auteurs sont désormais triés par nom de famille 12 years ago			`def add(self, key, number, link):`
Presque fin de la conformité Pxlint (#4). Reste quelques éléments qui disparaitront avec #9 11 years ago			`"""Add a song to the list.`

			`Process data before adding it.`
			`"""`
Les auteurs sont désormais triés par nom de famille 12 years ago			`if self.indextype == "TITLE":`
			`# Removing prefixes before titles`
			`for pattern in self.prefix_patterns:`
WIP: gestion des problemes d'encodages des index 11 years ago			`match = pattern.match(key.encode('utf-8'))`
Les auteurs sont désormais triés par nom de famille 12 years ago			`if match:`
			`self._raw_add(`
Cleaning and some python 3 compatibility. 11 years ago			`"{} ({})".format(`
			`match.group(2) + match.group(3),`
WIP: gestion des problemes d'encodages des index 11 years ago			`match.group(1)`
Corrected indentation errors (tabs instead of spaces) 11 years ago			`),`
WIP: gestion des problemes d'encodages des index 11 years ago			`number,`
Corrected indentation errors (tabs instead of spaces) 11 years ago			`link`
			`)`
Les auteurs sont désormais triés par nom de famille 12 years ago			`return`
			`self._raw_add(key, number, link)`

			`if self.indextype == "AUTHOR":`
			`# Processing authors`
			`for author in processauthors(`
			`key,`
			`**self.authwords):`
			`self._raw_add(author, number, link)`

More Pylint formatting. Almost done! (#4) 11 years ago			`@staticmethod`
			`def ref_to_str(ref):`
Presque fin de la conformité Pxlint (#4). Reste quelques éléments qui disparaitront avec #9 11 years ago			`"""Return the LaTeX code corresponding to the reference."""`
Corrected indentation errors (tabs instead of spaces) 11 years ago			`return r'\hyperlink{{{0[link]}}}{{{0[num]}}}'.format(ref)`
wip 12 years ago
More Pylint formatting. Almost done! (#4) 11 years ago			`def entry_to_str(self, key, entry):`
Presque fin de la conformité Pxlint (#4). Reste quelques éléments qui disparaitront avec #9 11 years ago			`"""Return the LaTeX code corresponding to the entry."""`
Corrected indentation errors (tabs instead of spaces) 11 years ago			`if not isinstance(key, unicode):`
			`key = unicode(key, "UTF-8")`
			`return unicode(ur'\idxentry{{{0}}}{{{1}}}' + EOL).format(`
typo #12 11 years ago			`key,`
WIP: gestion des problemes d'encodages des index 11 years ago			`ur'\\'.join([self.ref_to_str(ref) for ref in entry]),`
typo #12 11 years ago			`)`
wip 12 years ago
More Pylint formatting. Almost done! (#4) 11 years ago			`def idxblock_to_str(self, letter, entries):`
Presque fin de la conformité Pxlint (#4). Reste quelques éléments qui disparaitront avec #9 11 years ago			`"""Return the LaTeX code corresponding to an index block.`

			`Here, an index block is a letter, and all data beginning with this`
			`letter.`
			`"""`
Remplacement des \\ par des chaines r"\" où necessaire 11 years ago			`string = r'\begin{idxblock}{' + letter + '}' + EOL`
wip 12 years ago			`for key in sorted(entries.keys(), key=sortkey):`
More Pylint formatting. Almost done! (#4) 11 years ago			`string += self.entry_to_str(key, entries[key])`
Remplacement des \\ par des chaines r"\" où necessaire 11 years ago			`string += r'\end{idxblock}' + EOL`
Début de la mise à niveau pep8 (#4) 11 years ago			`return string`
wip 12 years ago
More Pylint formatting. Almost done! (#4) 11 years ago			`def entries_to_str(self):`
Presque fin de la conformité Pxlint (#4). Reste quelques éléments qui disparaitront avec #9 11 years ago			`"""Return the LaTeX code corresponding to the index."""`
Début de la mise à niveau pep8 (#4) 11 years ago			`string = ""`
wip 12 years ago			`for letter in sorted(self.data.keys()):`
More Pylint formatting. Almost done! (#4) 11 years ago			`string += self.idxblock_to_str(letter, self.data[letter])`
Début de la mise à niveau pep8 (#4) 11 years ago			`return string`