Feature: xorbitsai/inference support

**Context**

for a better and stable inference performance

**Current Solution**
the client code
https://github.com/dbpunk-labs/octogen/blob/9fc446b16ecb1065cd52aae94950794085ee599a/agent/src/og_agent/codellama_client.py#L37-L56
the llama server 

https://github.com/dbpunk-labs/octogen/blob/9fc446b16ecb1065cd52aae94950794085ee599a/docker/start_all.sh#L24-L26

	prompt = f"""{self.prefix}
	{chat_history}
	{self.user_name}: {user_input}
	{self.ai_name}:"""
	logging.info(f"{prompt}")
	data = {
	"n_predict": 500,
	"grammar": self.grammar,
	"prompt": prompt,
	"temperature": temperature,
	"stream": True,
	"repeat_last_n": 256,
	"top_p": 0.9,
	"stop": [
	"</s>",
	"\n",
	"%s:" % self.ai_name,
	"%s:" % self.user_name,
	],
	}

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Feature: xorbitsai/inference support #122

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

	echo "start codellama with model name $3"
	mkdir -p ${ROOT_DIR}/model_server
	cd ${ROOT_DIR}/model_server && hap run -n codellama -- server -m ../model/$3 --alias codellama --host 127.0.0.1 --port 8080