langchain async

2 years ago · 00a2a65510
3 changed files with 95 additions and 10 deletions
--- a/matrix_pygmalion_bot/bot/ai/langchain.py
+++ b/matrix_pygmalion_bot/bot/ai/langchain.py
@ -73,7 +73,7 @@ class AI(object):
        else:
            memory = self.rooms[message.room_id]["memory"]
        print(f"memory: {memory.load_memory_variables({})}")
-        print(f"memory has an estimated {estimate_num_tokens(memory.buffer)} number of tokens")
+        print(f"memory has an estimated {self.llm_chat.get_num_tokens(memory.buffer)} number of tokens")
        return memory
@ -117,7 +117,7 @@ class AI(object):
            llm=self.llm_chat,
            prompt=PromptTemplate.from_template(prompt_template),
        )
-        output = chain.run(message.message)
+        output = await chain.arun(message.message)
        return output.strip()
    async def generate_roleplay(self, message, reply_fn, typing_fn):
@ -147,14 +147,11 @@ class AI(object):
        stop = ['<|endoftext|>', f"\n{message.user_name}:"]
        print(f"Message is: \"{message.message}\"")
-        output = chain.run({"input":message.message, "stop": stop})
+        output = await chain.arun({"input":message.message, "stop": stop})
        return output.strip()
 def estimate_num_tokens(input_text: str):
    return len(input_text)//4+1
 def replace_all(text, dic):
    for i, j in dic.items():
        text = text.replace(i, j)
--- a/matrix_pygmalion_bot/bot/wrappers/langchain_koboldcpp.py
+++ b/matrix_pygmalion_bot/bot/wrappers/langchain_koboldcpp.py
@ -1,6 +1,7 @@
 """KoboldCpp LLM wrapper for testing purposes."""
-import logging
+import asyncio
 import time
 import logging
 from typing import Any, List, Mapping, Optional
 import json
@ -8,6 +9,8 @@ import requests
 from langchain.llms.base import LLM
 from langchain.schema import BaseMessage
 logger = logging.getLogger(__name__)
@ -87,8 +90,93 @@ class KoboldCpp(LLM):
                raise ValueError(f"http error. unknown response code")
        for s in input_data["stop_sequence"]:
            response = response.removesuffix(s).rstrip()
-        return response.lstrip()
+        return response
    async def _acall(self, prompt: str, stop: Optional[List[str]] = None) -> str:
        """Call out to KoboldCpp's completion endpoint asynchronuosly."""
        #params = self.model_kwargs or {}
        input_data = {
            "prompt": prompt,
            "max_context_length": 2048,
            "max_length": self.max_tokens,
            "temperature": self.temperature,
            "top_k": self.top_k,
            "top_p": self.top_p,
            "rep_pen": self.repeat_penalty,
            "rep_pen_range": 256,
            "stop_sequence": self.stop,
        }
        if stop:
            input_data["stop_sequence"] = stop
        headers = {
            "Content-Type": "application/json",
        }
        logger.info(f"sending request to koboldcpp.")
        TRIES = 30
        for i in range(TRIES):
            try:
                r = requests.post(self.endpoint_url, json=input_data, headers=headers, timeout=600)
                r_json = r.json()
            except requests.exceptions.RequestException as e:
                raise ValueError(f"http connection error.")
            logger.info(r_json)
            if r.status_code == 200:
                try:
                    response = r_json["results"][0]["text"]
                except KeyError:
                    raise ValueError(f"LangChain requires 'results' key in response.")
                break
            elif r.status_code == 503:
                logger.info(f"api is busy. waiting...")
                await asyncio.sleep(5)
            else:
                raise ValueError(f"http error. unknown response code")
        for s in input_data["stop_sequence"]:
            response = response.removesuffix(s).rstrip()
        return response
    @property
    def _identifying_params(self) -> Mapping[str, Any]:
        return {}
    def get_num_tokens(self, text: str) -> int:
        """Estimate num tokens."""
        return len(text)//4+1
    def get_num_tokens_from_messages(self, messages: List[BaseMessage]) -> int:
        """Estimate num tokens."""
        tokens_per_message = 3
        tokens_per_name = 1
        num_tokens = 0
        messages_dict = [_convert_message_to_dict(m) for m in messages]
        for message in messages_dict:
            num_tokens += tokens_per_message
            for key, value in message.items():
                num_tokens += len(self.get_num_tokens(value))
                if key == "name":
                    num_tokens += tokens_per_name
        num_tokens += 3
        return num_tokens
 def _convert_message_to_dict(message: BaseMessage) -> dict:
    if isinstance(message, ChatMessage):
        message_dict = {"role": message.role, "content": message.content}
    elif isinstance(message, HumanMessage):
        message_dict = {"role": "user", "content": message.content}
    elif isinstance(message, AIMessage):
        message_dict = {"role": "assistant", "content": message.content}
    elif isinstance(message, SystemMessage):
        message_dict = {"role": "system", "content": message.content}
    else:
        raise ValueError(f"Got unknown type {message}")
    if "name" in message.additional_kwargs:
        message_dict["name"] = message.additional_kwargs["name"]
    return message_dict
--- a/matrix_pygmalion_bot/main.py
+++ b/matrix_pygmalion_bot/main.py
@ -64,13 +64,13 @@ async def main() -> None:
        if sys.version_info[0] == 3 and sys.version_info[1] < 11:
            tasks = []
            for bot in bots:
-                task = asyncio.create_task(bot.connection.sync_forever(timeout=0, full_state=True)) # timeout 30000
+                task = asyncio.create_task(bot.connection.sync_forever(timeout=30000, full_state=True))
                tasks.append(task)
            await asyncio.gather(*tasks)
        else:
            async with asyncio.TaskGroup() as tg:
                for bot in bots:
-                    task = tg.create_task(bot.connection.sync_forever(timeout=0, full_state=True)) # timeout 30000
+                    task = tg.create_task(bot.connection.sync_forever(timeout=30000, full_state=True))
    except Exception:
        print(traceback.format_exc())