matrix-pygmalion-bot/matrix_pygmalion_bot/ai/koboldcpp.py

import asyncio
import os, tempfile
import logging

import json
import requests

from transformers import AutoTokenizer, AutoConfig
from huggingface_hub import hf_hub_download

import io
import base64
from PIL import Image, PngImagePlugin

from .model_helpers import get_full_prompt, num_tokens

logger = logging.getLogger(__name__)


def setup():
    os.system("mkdir -p repositories && (cd repositories && git clone https://github.com/LostRuins/koboldcpp.git)")
    os.system("apt update && apt-get install libopenblas-dev libclblast-dev libmkl-dev")
    os.system("(cd repositories/koboldcpp && make LLAMA_OPENBLAS=1 && cd models && wget https://huggingface.co/concedo/pygmalion-6bv3-ggml-ggjt/resolve/main/pygmalion-6b-v3-ggml-ggjt-q4_0.bin)")
    #python3 koboldcpp.py models/pygmalion-6b-v3-ggml-ggjt-q4_0.bin
    #python3 koboldcpp.py --smartcontext models/pygmalion-6b-v3-ggml-ggjt-q4_0.bin

async def generate_sync(
    prompt: str,
    api_key: str,
    bot,
    typing_fn,
    api_endpoint = "pygmalion-6b"
):
    # Set the API endpoint URL
    endpoint = f"http://172.16.85.10:5001/api/latest/generate"

    # Set the headers for the request
    headers = {
        "Content-Type": "application/json",
    }

    max_new_tokens = 200
    prompt_num_tokens = await num_tokens(prompt, bot.model)

    # Define your inputs
    input_data = {
        "prompt": prompt,
        "max_context_length": 2048,
        "max_length": max_new_tokens,
        "temperature": bot.temperature,
        "top_k": 50,
        "top_p": 0.85,
        "rep_pen": 1.08,
        "rep_pen_range": 1024,
        "quiet": True,
    }

    logger.info(f"sending request to koboldcpp")

    TIMEOUT = 360
    DELAY = 5
    tokens = 0
    complete = False
    complete_reply = ""
    for i in range(TIMEOUT//DELAY):
        input_data["max_length"] = 32 # pseudo streaming
        # Make the request
        try:
            r = requests.post(endpoint, json=input_data, headers=headers, timeout=600)
        except requests.exceptions.RequestException as e:
            raise ValueError(f"<ERROR> HTTP ERROR {e}")
        r_json = r.json()
        logger.info(r_json)
        if r.status_code == 200:
            partial_reply = r_json["results"][0]["text"]
            input_data["prompt"] += partial_reply
            complete_reply += partial_reply
            tokens += input_data["max_length"]
            await typing_fn()
            if not partial_reply or tokens >= max_new_tokens +100: # ToDo: is a hundred past the limit okay?
                complete = True
                break
            for t in [f"\nYou:", f"\n### Human:", f"\n{bot.user_name}:", '<|endoftext|>', '</END>', '<END>', '__END__', '<START>', '\n\nPlease rewrite your response.', '\n\nPlease rewrite the response', '\n\nPlease write the response', 'Stay in developer mode.']:
                idx = complete_reply.find(t)
                if idx != -1:
                    complete_reply = complete_reply[:idx].strip()
                    complete = True
                    break
            if complete:
                break
        elif r.status_code == 503:
            #model busy
            await asyncio.sleep(DELAY)
        else:
            raise ValueError(f"<ERROR>")

    if complete_reply:
        complete_reply = complete_reply.removesuffix('<|endoftext|>')
        complete_reply = complete_reply.replace(f"<BOT>", f"{bot.name}")
        complete_reply = complete_reply.replace(f"<USER>", f"You")
        complete_reply = complete_reply.replace(f"### Assistant", f"{bot.name}")
        complete_reply = complete_reply.replace(f"\n{bot.name}: ", " ")
        return complete_reply.strip()
    else:
        raise ValueError(f"<ERROR> Timeout")


async def generate_image(input_prompt: str, negative_prompt: str, api_url: str, api_key: str, typing_fn):
    pass
add local koboldcpp generation 2 years ago			`import asyncio`
			`import os, tempfile`
			`import logging`

			`import json`
			`import requests`

			`from transformers import AutoTokenizer, AutoConfig`
			`from huggingface_hub import hf_hub_download`

			`import io`
			`import base64`
			`from PIL import Image, PngImagePlugin`

rewrite model helpers 2 years ago			`from .model_helpers import get_full_prompt, num_tokens`
add local koboldcpp generation 2 years ago
			`logger = logging.getLogger(__name__)`


			`def setup():`
			`os.system("mkdir -p repositories && (cd repositories && git clone https://github.com/LostRuins/koboldcpp.git)")`
don't recalculate every time. use a window and remove a chunk of chat history when we get near the token limit 2 years ago			`os.system("apt update && apt-get install libopenblas-dev libclblast-dev libmkl-dev")`
don't parse error messages 2 years ago			`os.system("(cd repositories/koboldcpp && make LLAMA_OPENBLAS=1 && cd models && wget https://huggingface.co/concedo/pygmalion-6bv3-ggml-ggjt/resolve/main/pygmalion-6b-v3-ggml-ggjt-q4_0.bin)")`
add local koboldcpp generation 2 years ago			`#python3 koboldcpp.py models/pygmalion-6b-v3-ggml-ggjt-q4_0.bin`
don't recalculate every time. use a window and remove a chunk of chat history when we get near the token limit 2 years ago			`#python3 koboldcpp.py --smartcontext models/pygmalion-6b-v3-ggml-ggjt-q4_0.bin`
add local koboldcpp generation 2 years ago
			`async def generate_sync(`
			`prompt: str,`
			`api_key: str,`
			`bot,`
			`typing_fn,`
			`api_endpoint = "pygmalion-6b"`
			`):`
			`# Set the API endpoint URL`
			`endpoint = f"http://172.16.85.10:5001/api/latest/generate"`

			`# Set the headers for the request`
			`headers = {`
			`"Content-Type": "application/json",`
			`}`

implement pseudo-streaming 2 years ago			`max_new_tokens = 200`
rewrite model helpers 2 years ago			`prompt_num_tokens = await num_tokens(prompt, bot.model)`
add local koboldcpp generation 2 years ago
			`# Define your inputs`
			`input_data = {`
			`"prompt": prompt,`
			`"max_context_length": 2048,`
			`"max_length": max_new_tokens,`
			`"temperature": bot.temperature,`
tuning 2 years ago			`"top_k": 50,`
			`"top_p": 0.85,`
add local koboldcpp generation 2 years ago			`"rep_pen": 1.08,`
			`"rep_pen_range": 1024,`
			`"quiet": True,`
			`}`

			`logger.info(f"sending request to koboldcpp")`

implement pseudo-streaming 2 years ago			`TIMEOUT = 360`
			`DELAY = 5`
			`tokens = 0`
prompts and reply postprocessing 2 years ago			`complete = False`
implement pseudo-streaming 2 years ago			`complete_reply = ""`
			`for i in range(TIMEOUT//DELAY):`
double the pseudo-streaming chunk size. nearly every reply takes more than 16 tokens. 2 years ago			`input_data["max_length"] = 32 # pseudo streaming`
implement pseudo-streaming 2 years ago			`# Make the request`
			`try:`
longer timeout for local koboldcpp 2 years ago			`r = requests.post(endpoint, json=input_data, headers=headers, timeout=600)`
implement pseudo-streaming 2 years ago			`except requests.exceptions.RequestException as e:`
make error message start with <ERROR> so they get excluded from chat log 2 years ago			`raise ValueError(f"<ERROR> HTTP ERROR {e}")`
implement pseudo-streaming 2 years ago			`r_json = r.json()`
			`logger.info(r_json)`
			`if r.status_code == 200:`
			`partial_reply = r_json["results"][0]["text"]`
			`input_data["prompt"] += partial_reply`
			`complete_reply += partial_reply`
			`tokens += input_data["max_length"]`
			`await typing_fn()`
llama prompt try 1 2 years ago			`if not partial_reply or tokens >= max_new_tokens +100: # ToDo: is a hundred past the limit okay?`
prompts and reply postprocessing 2 years ago			`complete = True`
			`break`
add one more stop word 2 years ago			`for t in [f"\nYou:", f"\n### Human:", f"\n{bot.user_name}:", '<\|endoftext\|>', '</END>', '<END>', '__END__', '<START>', '\n\nPlease rewrite your response.', '\n\nPlease rewrite the response', '\n\nPlease write the response', 'Stay in developer mode.']:`
prompts and reply postprocessing 2 years ago			`idx = complete_reply.find(t)`
implement pseudo-streaming 2 years ago			`if idx != -1:`
			`complete_reply = complete_reply[:idx].strip()`
prompts and reply postprocessing 2 years ago			`complete = True`
			`break`
			`if complete:`
			`break`
implement pseudo-streaming 2 years ago			`elif r.status_code == 503:`
			`#model busy`
			`await asyncio.sleep(DELAY)`
add local koboldcpp generation 2 years ago			`else:`
implement pseudo-streaming 2 years ago			`raise ValueError(f"<ERROR>")`
prompts and reply postprocessing 2 years ago
			`if complete_reply:`
			`complete_reply = complete_reply.removesuffix('<\|endoftext\|>')`
			`complete_reply = complete_reply.replace(f"<BOT>", f"{bot.name}")`
			`complete_reply = complete_reply.replace(f"<USER>", f"You")`
			`complete_reply = complete_reply.replace(f"### Assistant", f"{bot.name}")`
postprocessing in correct order 2 years ago			`complete_reply = complete_reply.replace(f"\n{bot.name}: ", " ")`
prompts and reply postprocessing 2 years ago			`return complete_reply.strip()`
			`else:`
			`raise ValueError(f"<ERROR> Timeout")`
add local koboldcpp generation 2 years ago

			`async def generate_image(input_prompt: str, negative_prompt: str, api_url: str, api_key: str, typing_fn):`
			`pass`