Telugu_Vocab_Evaluation

Sleeping

App Files Files Community

Telugu_Vocab_Evaluation / app.py

salmankhanpm

include custom telugu tokenizer expansion of gemma3 tokenizer

0ee82fd verified 25 days ago

raw

history blame contribute delete

8.51 kB

	from cProfile import label
	import logging
	from pydoc import text
	from turtle import title

	import tiktoken
	from transformers import AutoTokenizer

	import gradio as gr

	import os
	from dotenv import load_dotenv
	load_dotenv()

	HF_TOKEN = os.getenv("HF_TOKEN") or None

	logger = logging.getLogger(__name__) # noqa


	def load_test_phrases(filename):
	with open(f"./data/{filename}", "r", encoding="utf-8") as file:
	return file.read().splitlines()


	models = ["salmankhanpm/gemma3-tokenizer-telugu", # Gemma 3 Telugu Expansion
	"HuggingFaceTB/SmolLM2-135M-Instruct", # SmolLM2
	"meta-llama/Llama-3.2-3B-Instruct", # LLAMA-3
	"Telugu-LLM-Labs/Telugu-Llama2-7B-v0-Instruct", # LLama 2 Finetuned for Improving Telugu
	"CohereForAI/aya-23-8B", # AYA
	"google/gemma-3-4b-it", # GEMMA 3
	"google/gemma-3-270m-it", # Gemma 3 270m
	"sarvamai/sarvam-1", # SarvamAI
	"gpt-4o", # GPT4o
	"openai/gpt-oss-20b", # OpenAI GPT OSS
	"Qwen/Qwen3-4B", # Qwen
	"TWO/sutra-mlt256-v2"] # SUTRA

	test_phrase_set = [
	"ఐదు వాక్యాలలో న్యూట్రాన్ స్కాటరింగ్ గురించి నాకు వివరణ ఇవ్వండి",
	"నటుడు బిల్ ముర్రే ఇంటి చిరునామా 445 నార్త్ బెడ్ఫోర్డ్ డ్రైవ్, లాస్ ఏంజిల్స్, CA 90049.",
	"హే, వీబ్ అంటే ఏమిటో మీకు తెలుసా?",
	"నాకు మరింత వివరాలు ఇవ్వండి",
	"కుక్కలు మరియు పిల్లుల మధ్య రెండు తేడాలు వాటి ప్రవర్తన మరియు వాటి శారీరక లక్షణాలు. కుక్కలు సాధారణంగా మరింత సామాజికంగా మరియు శిక్షణ పొందగలవు, అయితే పిల్లులు మరింత స్వతంత్రంగా ఉంటాయి. అదనంగా, పిల్లులతో పోలిస్తే కుక్కలు సాధారణంగా పెద్ద పరిమాణంలో ఉంటాయి.",
	"మేము టెక్స్ట్ మరియు వాయిస్‌కి మించి ఆంగ్లానికి మించిన అన్ని భాషల కోసం AIని రూపొందిస్తున్నాము. మేము అందరి కోసం AIని నిర్మిస్తున్నాము.",
	]

	test_phrase_set_long_1 = load_test_phrases('multilingualphrases01.txt')
	test_phrase_set_long_2 = load_test_phrases('multilingualphrases02.txt')
	test_phrase_set_long_3 = load_test_phrases('multilingualphrases03.txt')

	# Cache tokenizers at the top level to avoid reloading on every call
	hf_tokenizers = {}
	for model in models:
	print("Loading tokenizer for", model)
	if model != 'gpt-4o':
	hf_tokenizers[model] = AutoTokenizer.from_pretrained(model)
	else:
	hf_tokenizers[model] = tiktoken.encoding_for_model(model)


	def generate_tokens_as_table(text):
	table = []
	for model in models:
	tokenizer = hf_tokenizers[model]
	if model != 'gpt-4o':
	tokens = tokenizer.encode(text, add_special_tokens=False)
	else:
	tokens = tokenizer.encode(text)
	decoded = [tokenizer.decode([t]) for t in tokens]
	table.append([model] + decoded)
	return table

	def baseline_tokeizer_extractor(text):
	word_count = len(text.split(' '))
	base_tokenizer = hf_tokenizers[models[-1]]
	base_tokens = base_tokenizer.encode(text)
	base_tokens_count = len(base_tokens)
	vocab_size = base_tokenizer.vocab_size

	return [models[-1], vocab_size, word_count, base_tokens_count, f"{base_tokens_count / word_count:0.2f}" ]


	def generate_tokenizer_table(text):
	if not text:
	return []

	token_counts = {model: 0 for model in models}
	vocab_size = {model: 0 for model in models}

	for model in models:
	tokenizer = hf_tokenizers[model]
	if model != 'gpt-4o':
	vocab_size[model] = tokenizer.vocab_size
	token_counts[model] = len(tokenizer.encode(text, add_special_tokens=True))
	else:
	vocab_size[model] = tokenizer.n_vocab
	token_counts[model] = len(tokenizer.encode(text))

	word_count = len(text.split(' '))



	base_tokenizer = baseline_tokeizer_extractor(text)

	output = []
	for m in models:
	# if m == models[-1]:
	# row = [m, vocab_size[m], word_count, token_counts[m], f"{token_counts[m] / word_count:0.2f}", "1.0"]
	# else:
	row = [m, vocab_size[m], word_count, token_counts[m], f"{token_counts[m] / word_count:0.2f}", f"{token_counts[m] / base_tokenizer[3]:0.2f}"]

	output.append(row)

	return output



	def generate_split_token_table(text):
	if not text:
	return gr.Dataframe()

	table = generate_tokenizer_table(text)
	return gr.Dataframe(
	table,
	headers=['tokenizer', 'v size', '#word', '#token', '#tokens/word', "NSL Value"],
	datatype=["str", "number", "str"],
	row_count=len(models),
	col_count=(6, "fixed"),
	)

	def generate_baseline_tokenizer_insights(text):
	word_count = len(text.split(' '))
	base_tokenizer = hf_tokenizers[models[-1]]
	base_tokens = base_tokenizer.encode(text)
	base_tokens_count = len(base_tokens)

	# Table should be a list of rows (list of lists)
	table = [[models[-1], base_tokenizer.vocab_size, word_count, base_tokens_count, f"{base_tokens_count / word_count:0.2f}"]]

	return gr.Dataframe(
	table,
	headers=['tokenizer', 'v size', '#words', '#token', '#tokens/word'],
	datatype=["str", "number", "number", "number", "str"],
	row_count=1,
	col_count=(5, "fixed"),
	)

	def generate_tokens_table(text):
	table = generate_tokens_as_table(text)
	cols = len(table[0])
	return gr.Dataframe(
	table,
	headers=['model'] + [str(i) for i in range(cols - 1)],
	row_count=2,
	col_count=(cols, "fixed"),
	)


	with gr.Blocks() as sutra_tokenize:
	gr.Markdown(
	"""
	## Tokenize a sentence with various tokenizers and inspect how it's broken down.
	""")
	examples = test_phrase_set
	textbox = gr.Textbox(label="Input Text")
	with gr.Row():
	submit_button = gr.Button("Submit")
	gr.Examples(examples=examples, inputs=[textbox])
	example_display = gr.Textbox(label="Selected Example", interactive=False)
	textbox.change(lambda x: x, inputs=[textbox], outputs=[example_display])
	baseline_tokenizer = gr.Dataframe(label="Baseline Tokenizer")
	output_detailed = gr.Dataframe(label="Detailed Token Table")
	output_tokens = gr.Dataframe(label="Token Table")

	submit_button.click(lambda x: x, inputs=[textbox], outputs=[textbox])
	submit_button.click(generate_baseline_tokenizer_insights, inputs=[textbox], outputs=[baseline_tokenizer])
	submit_button.click(generate_split_token_table, inputs=[textbox], outputs=[output_detailed])
	submit_button.click(generate_tokens_table, inputs=[textbox], outputs=[output_tokens])



	if __name__ == '__main__':
	with gr.Blocks(analytics_enabled=False) as demo:
	with gr.Row():
	gr.Markdown(
	"""
	# Telugu Tokenizer Sentence Inspector & Evaluation.
	### Using Two SUTRA Tokenizer as Baseline.
	#### Paper :
	### [EVALUATING TOKENIZER PERFORMANCE OF LARGE LANGUAGE MODELS ACROSS OFFICIAL INDIAN LANGUAGES](https://arxiv.org/pdf/2411.12240v2) \n
	### [PERFORMANCE EVALUATION OF TOKENIZERS IN LARGE LANGUAGE MODELS FOR THE ASSAMESE LANGUAGE](https://arxiv.org/pdf/2410.03718)
	####

	"""
	)
	with gr.Row():
	gr.TabbedInterface(
	interface_list=[sutra_tokenize],
	tab_names=["Tokenize Text"]
	)

	demo.queue(default_concurrency_limit=5).launch(
	server_name="0.0.0.0",
	allowed_paths=["/"],
	)