Spaces:
Runtime error
Runtime error
Upload 69 files
Browse filesThis view is limited to 50 files because it contains too many changes.
See raw diff
- .gitignore +3 -0
- __init__.py +0 -0
- __pycache__/params.cpython-310.pyc +0 -0
- app.py +62 -0
- correct.py +69 -0
- data/binhvq/binhvq.vocab.pkl +3 -0
- data/binhvq/sentences.txt +0 -0
- data/checkpoints/tfmwtr/binhvq.weights.pth +3 -0
- dataset/__init__.py +0 -0
- dataset/__pycache__/__init__.cpython-310.pyc +0 -0
- dataset/__pycache__/autocorrect_dataset.cpython-310.pyc +0 -0
- dataset/__pycache__/noise.cpython-310.pyc +0 -0
- dataset/__pycache__/vocab.cpython-310.pyc +0 -0
- dataset/autocorrect_dataset.py +16 -0
- dataset/cleandata.sh +28 -0
- dataset/data_generation/all-vietnamese-syllables.txt +0 -0
- dataset/data_generation/all_nguyen_am_ba.py +44 -0
- dataset/data_generation/all_nguyen_am_don.py +26 -0
- dataset/data_generation/all_nguyen_am_hai.py +47 -0
- dataset/data_generation/all_phu_am_daucuoi.py +78 -0
- dataset/data_generation/common-vietnamese-syllables.txt +7184 -0
- dataset/data_generation/confusion_set.py +262 -0
- dataset/data_generation/keyboard_neighbor.py +79 -0
- dataset/data_generation/normalize.py +183 -0
- dataset/data_generation/typing_error_gen.py +13 -0
- dataset/log/prepare_data.log +0 -0
- dataset/noise.py +655 -0
- dataset/noising_resources/accents.json +498 -0
- dataset/noising_resources/confusion_set.json +0 -0
- dataset/noising_resources/homo_leter.json +27 -0
- dataset/noising_resources/kieu_go_dau_cu_moi.txt +78 -0
- dataset/noising_resources/typo.json +650 -0
- dataset/prepare_dataset.py +310 -0
- dataset/prepare_vsec.py +46 -0
- dataset/util.py +128 -0
- dataset/vocab.py +188 -0
- models/__init__.py +0 -0
- models/__pycache__/__init__.cpython-310.pyc +0 -0
- models/__pycache__/collator.cpython-310.pyc +0 -0
- models/__pycache__/corrector.cpython-310.pyc +0 -0
- models/__pycache__/model.cpython-310.pyc +0 -0
- models/__pycache__/sampler.cpython-310.pyc +0 -0
- models/__pycache__/tokenizer.cpython-310.pyc +0 -0
- models/__pycache__/transformer.cpython-310.pyc +0 -0
- models/__pycache__/util.cpython-310.pyc +0 -0
- models/collator.py +78 -0
- models/corrector.py +170 -0
- models/model.py +22 -0
- models/sampler.py +99 -0
- models/tokenizer.py +55 -0
.gitignore
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
data
|
| 2 |
+
__pycache__
|
| 3 |
+
log
|
__init__.py
ADDED
|
File without changes
|
__pycache__/params.cpython-310.pyc
ADDED
|
Binary file (539 Bytes). View file
|
|
|
app.py
ADDED
|
@@ -0,0 +1,62 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
from typing import Union
|
| 2 |
+
|
| 3 |
+
import sys
|
| 4 |
+
sys.path.append("..")
|
| 5 |
+
from params import *
|
| 6 |
+
from dataset.vocab import Vocab
|
| 7 |
+
from models.corrector import Corrector
|
| 8 |
+
from models.model import ModelWrapper
|
| 9 |
+
from models.util import load_weights
|
| 10 |
+
from dataset.noise import SynthesizeData
|
| 11 |
+
from utils.api_utils import correctFunction, postprocessing_result
|
| 12 |
+
|
| 13 |
+
|
| 14 |
+
model_name = "tfmwtr"
|
| 15 |
+
dataset = "binhvq"
|
| 16 |
+
vocab_path = f'data/{dataset}/{dataset}.vocab.pkl'
|
| 17 |
+
weight_path = f'data/checkpoints/tfmwtr/{dataset}.weights.pth'
|
| 18 |
+
vocab = Vocab("vi")
|
| 19 |
+
vocab.load_vocab_dict(vocab_path)
|
| 20 |
+
noiser = SynthesizeData(vocab)
|
| 21 |
+
model_wrapper = ModelWrapper(f"{model_name}", vocab)
|
| 22 |
+
corrector = Corrector(model_wrapper)
|
| 23 |
+
load_weights(corrector.model, weight_path)
|
| 24 |
+
|
| 25 |
+
def correct(string: str):
|
| 26 |
+
out = correctFunction(string, corrector)
|
| 27 |
+
result = postprocessing_result(out)
|
| 28 |
+
|
| 29 |
+
ret = []
|
| 30 |
+
for r in result:
|
| 31 |
+
r = [s.strip() for s in r if isinstance(s, str)]
|
| 32 |
+
|
| 33 |
+
if len(r) == 2:
|
| 34 |
+
ret.append((r[0], r[1]))
|
| 35 |
+
else:
|
| 36 |
+
ret.append((r[0], None))
|
| 37 |
+
ret.append((" ", None))
|
| 38 |
+
ret.pop()
|
| 39 |
+
print(ret, "RET")
|
| 40 |
+
return ret
|
| 41 |
+
|
| 42 |
+
import gradio as gr
|
| 43 |
+
if __name__ == "__main__":
|
| 44 |
+
css = """
|
| 45 |
+
#output {
|
| 46 |
+
.label {
|
| 47 |
+
background-color: green !important;
|
| 48 |
+
}
|
| 49 |
+
}
|
| 50 |
+
"""
|
| 51 |
+
gr.Interface(
|
| 52 |
+
correct,
|
| 53 |
+
inputs=gr.Textbox(label="Input", placeholder="Enter text to be corrected here..."),
|
| 54 |
+
outputs=gr.HighlightedText(
|
| 55 |
+
label="Output",
|
| 56 |
+
combine_adjacent=True,
|
| 57 |
+
show_label=True,
|
| 58 |
+
elem_id="output"
|
| 59 |
+
),
|
| 60 |
+
theme=gr.themes.Default(),
|
| 61 |
+
css=css
|
| 62 |
+
).launch()
|
correct.py
ADDED
|
@@ -0,0 +1,69 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
import os
|
| 2 |
+
from params import *
|
| 3 |
+
from dataset.vocab import Vocab
|
| 4 |
+
from dataset.util import load_dataset, load_vsec_dataset
|
| 5 |
+
|
| 6 |
+
if __name__ == "__main__":
|
| 7 |
+
import argparse
|
| 8 |
+
|
| 9 |
+
description = '''
|
| 10 |
+
Corrector:
|
| 11 |
+
|
| 12 |
+
Usage: python corrector.py --model tfmwtr --data_path ./data --dataset binhvq
|
| 13 |
+
|
| 14 |
+
Params:
|
| 15 |
+
--model
|
| 16 |
+
tfmwtr - Transformer with Tokenization Repair
|
| 17 |
+
--data_path: default to ./data
|
| 18 |
+
--dataset: default to 'binhvq'
|
| 19 |
+
|
| 20 |
+
'''
|
| 21 |
+
parser = argparse.ArgumentParser(description=description)
|
| 22 |
+
parser.add_argument('--model', type=str, default='tfmwtr')
|
| 23 |
+
parser.add_argument('--data_path', type=str, default='./data')
|
| 24 |
+
parser.add_argument('--dataset', type=str, default='binhvq')
|
| 25 |
+
parser.add_argument('--test_dataset', type=str, default='binhvq')
|
| 26 |
+
parser.add_argument("--beams", type=int, default=2)
|
| 27 |
+
parser.add_argument("--fraction", type=float, default= 1.0)
|
| 28 |
+
parser.add_argument('--text', type=str, default='Bình mnh ơi day ch ưa, café xáng vớitôi dược không?')
|
| 29 |
+
args = parser.parse_args()
|
| 30 |
+
|
| 31 |
+
dataset_path = os.path.join(args.data_path, f'{args.test_dataset}')
|
| 32 |
+
|
| 33 |
+
weight_ext = 'pth'
|
| 34 |
+
|
| 35 |
+
checkpoint_dir = os.path.join(args.data_path, f'checkpoints/{args.model}')
|
| 36 |
+
|
| 37 |
+
weight_path = os.path.join(checkpoint_dir, f'{args.dataset}.weights.{weight_ext}')
|
| 38 |
+
vocab_path = os.path.join(args.data_path, f'binhvq/binhvq.vocab.pkl')
|
| 39 |
+
|
| 40 |
+
correct_file = f'{args.test_dataset}.test'
|
| 41 |
+
incorrect_file = f'{args.test_dataset}.test.noise'
|
| 42 |
+
length_file = f'{args.dataset}.length.test'
|
| 43 |
+
|
| 44 |
+
if args.test_dataset != "vsec":
|
| 45 |
+
test_data = load_dataset(base_path=dataset_path, corr_file=correct_file, incorr_file=incorrect_file,
|
| 46 |
+
length_file=length_file)
|
| 47 |
+
else:
|
| 48 |
+
test_data = load_vsec_dataset(base_path=dataset_path, corr_file=correct_file, incorr_file=incorrect_file)
|
| 49 |
+
|
| 50 |
+
length_of_data = len(test_data)
|
| 51 |
+
test_data = test_data[0 : int(args.fraction * length_of_data) ]
|
| 52 |
+
|
| 53 |
+
vocab = Vocab()
|
| 54 |
+
vocab.load_vocab_dict(vocab_path)
|
| 55 |
+
|
| 56 |
+
from dataset.autocorrect_dataset import SpellCorrectDataset
|
| 57 |
+
from models.corrector import Corrector
|
| 58 |
+
from models.model import ModelWrapper
|
| 59 |
+
from models.util import load_weights
|
| 60 |
+
|
| 61 |
+
test_dataset = SpellCorrectDataset(dataset=test_data)
|
| 62 |
+
|
| 63 |
+
model_wrapper = ModelWrapper(args.model, vocab)
|
| 64 |
+
|
| 65 |
+
corrector = Corrector(model_wrapper)
|
| 66 |
+
|
| 67 |
+
load_weights(corrector.model, weight_path)
|
| 68 |
+
|
| 69 |
+
corrector.evaluate(test_dataset, beams = args.beams)
|
data/binhvq/binhvq.vocab.pkl
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:3f2d12d2fe63b67c7f8138c5a1e2a19c90c06bc8f0df4da127a3d1b1a0a5bece
|
| 3 |
+
size 2155566
|
data/binhvq/sentences.txt
ADDED
|
The diff for this file is too large to render.
See raw diff
|
|
|
data/checkpoints/tfmwtr/binhvq.weights.pth
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:a64a21d18d2faf349e84cea71ea045d9698a6520bf5fdee6aefb559848693401
|
| 3 |
+
size 600250423
|
dataset/__init__.py
ADDED
|
File without changes
|
dataset/__pycache__/__init__.cpython-310.pyc
ADDED
|
Binary file (163 Bytes). View file
|
|
|
dataset/__pycache__/autocorrect_dataset.cpython-310.pyc
ADDED
|
Binary file (1.2 kB). View file
|
|
|
dataset/__pycache__/noise.cpython-310.pyc
ADDED
|
Binary file (18.1 kB). View file
|
|
|
dataset/__pycache__/vocab.cpython-310.pyc
ADDED
|
Binary file (6.53 kB). View file
|
|
|
dataset/autocorrect_dataset.py
ADDED
|
@@ -0,0 +1,16 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
import torch
|
| 2 |
+
import numpy as np
|
| 3 |
+
|
| 4 |
+
class SpellCorrectDataset(torch.utils.data.Dataset):
|
| 5 |
+
def __init__(self, dataset):
|
| 6 |
+
self.dataset = dataset
|
| 7 |
+
|
| 8 |
+
def __getitem__(self, idx):
|
| 9 |
+
return self.dataset[idx]
|
| 10 |
+
|
| 11 |
+
def __len__(self):
|
| 12 |
+
return len(self.dataset)
|
| 13 |
+
|
| 14 |
+
def take(self, n = 1):
|
| 15 |
+
indies = np.random.choice(len(self.dataset), n)
|
| 16 |
+
return [self.dataset[idx] for idx in indies]
|
dataset/cleandata.sh
ADDED
|
@@ -0,0 +1,28 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
#!/bin/bash
|
| 2 |
+
corpus=$1
|
| 3 |
+
root=../data/$1/
|
| 4 |
+
echo "Clean corpus $1"
|
| 5 |
+
cat $root$corpus.train[0-9]* > $root$corpus.train
|
| 6 |
+
rm -r $root$corpus.train[0-9]*
|
| 7 |
+
cat $root$corpus.test[0-9]* > $root$corpus.test
|
| 8 |
+
rm -r $root$corpus.test[0-9]*
|
| 9 |
+
cat $root$corpus.train.noise[0-9]* > $root$corpus.train.noise
|
| 10 |
+
rm -r $root$corpus.train.noise[0-9]*
|
| 11 |
+
cat $root$corpus.test.noise[0-9]* > $root$corpus.test.noise
|
| 12 |
+
rm -r $root$corpus.test.noise[0-9]*
|
| 13 |
+
cat $root$corpus.length.train[0-9]* > $root$corpus.length.train
|
| 14 |
+
rm -r $root$corpus.length.train[0-9]*
|
| 15 |
+
cat $root$corpus.length.test[0-9]* > $root$corpus.length.test
|
| 16 |
+
rm -r $root$corpus.length.test[0-9]*
|
| 17 |
+
cat $root$corpus.valid.noise[0-9]* > $root$corpus.valid.noise
|
| 18 |
+
rm -r $root$corpus.valid.noise[0-9]*
|
| 19 |
+
cat $root$corpus.length.valid[0-9]* > $root$corpus.length.valid
|
| 20 |
+
rm -r $root$corpus.length.valid[0-9]*
|
| 21 |
+
cat $root$corpus.valid[0-9]* > $root$corpus.valid
|
| 22 |
+
rm -r $root$corpus.valid[0-9]*
|
| 23 |
+
cat $root$corpus.onehot.test[0-9]* > $root$corpus.onehot.test
|
| 24 |
+
rm -r $root$corpus.onehot.test[0-9]*
|
| 25 |
+
cat $root$corpus.onehot.train[0-9]* > $root$corpus.onehot.train
|
| 26 |
+
rm -r $root$corpus.onehot.train[0-9]*
|
| 27 |
+
cat $root$corpus.onehot.valid[0-9]* > $root$corpus.onehot.valid
|
| 28 |
+
rm -r $root$corpus.onehot.valid[0-9]*
|
dataset/data_generation/all-vietnamese-syllables.txt
ADDED
|
The diff for this file is too large to render.
See raw diff
|
|
|
dataset/data_generation/all_nguyen_am_ba.py
ADDED
|
@@ -0,0 +1,44 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
import re
|
| 2 |
+
from normalize import chuan_hoa_dau_tu_tieng_viet
|
| 3 |
+
import numpy as np
|
| 4 |
+
from keyboard_neighbor import getKeyboardNeighbors
|
| 5 |
+
|
| 6 |
+
with open("common-vietnamese-syllables.txt", "r") as file:
|
| 7 |
+
vi_syllables = [line.strip("\n") for line in file.readlines()]
|
| 8 |
+
|
| 9 |
+
vi_syllables_new = []
|
| 10 |
+
for syllable in vi_syllables:
|
| 11 |
+
normalized = chuan_hoa_dau_tu_tieng_viet(syllable)
|
| 12 |
+
vi_syllables_new.append(normalized)
|
| 13 |
+
|
| 14 |
+
nguyen_am_ba = 'oai|oao|uao|oeo|iêu|yêu|uôi|ươu|uyu|uyê|ươi|oay|uây|ươi|uya'
|
| 15 |
+
|
| 16 |
+
keyboardNeighbors = getKeyboardNeighbors()
|
| 17 |
+
for key in keyboardNeighbors.keys():
|
| 18 |
+
keyboardNeighbors[key] = keyboardNeighbors[key][0][np.argmax(keyboardNeighbors[key][1])]
|
| 19 |
+
|
| 20 |
+
result = set()
|
| 21 |
+
for am_ba in nguyen_am_ba.split("|"):
|
| 22 |
+
result.add(am_ba)
|
| 23 |
+
if am_ba == "uyê":
|
| 24 |
+
for candidate in keyboardNeighbors[am_ba[2]]:
|
| 25 |
+
result.add(am_ba[0] + am_ba[1] + candidate)
|
| 26 |
+
else:
|
| 27 |
+
for candidate in keyboardNeighbors[am_ba[1]]:
|
| 28 |
+
result.add(am_ba[0] + candidate + am_ba[2])
|
| 29 |
+
|
| 30 |
+
remove_list = set()
|
| 31 |
+
for syllable in result:
|
| 32 |
+
for idx in range(len(vi_syllables_new)):
|
| 33 |
+
if syllable in vi_syllables_new[idx]:
|
| 34 |
+
break
|
| 35 |
+
|
| 36 |
+
if idx == len(vi_syllables_new) - 1:
|
| 37 |
+
remove_list.add(syllable)
|
| 38 |
+
|
| 39 |
+
for el in remove_list:
|
| 40 |
+
result.discard(el)
|
| 41 |
+
|
| 42 |
+
print("|".join(result))
|
| 43 |
+
|
| 44 |
+
|
dataset/data_generation/all_nguyen_am_don.py
ADDED
|
@@ -0,0 +1,26 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
import re
|
| 2 |
+
from normalize import chuan_hoa_dau_tu_tieng_viet
|
| 3 |
+
from keyboard_neighbor import getKeyboardNeighbors
|
| 4 |
+
import numpy as np
|
| 5 |
+
|
| 6 |
+
with open("common-vietnamese-syllables.txt", "r") as file:
|
| 7 |
+
vi_syllables = [line.strip("\n") for line in file.readlines()]
|
| 8 |
+
|
| 9 |
+
vi_syllables_new = []
|
| 10 |
+
for syllable in vi_syllables:
|
| 11 |
+
normalized = chuan_hoa_dau_tu_tieng_viet(syllable)
|
| 12 |
+
vi_syllables_new.append(normalized)
|
| 13 |
+
|
| 14 |
+
nguyen_am_don = 'a|ă|â|e|ê|i|y|o|ô|ơ|u|ư'
|
| 15 |
+
|
| 16 |
+
keyboardNeighbors = getKeyboardNeighbors()
|
| 17 |
+
for key in keyboardNeighbors.keys():
|
| 18 |
+
keyboardNeighbors[key] = keyboardNeighbors[key][0][np.argmax(keyboardNeighbors[key][1])]
|
| 19 |
+
|
| 20 |
+
result = set()
|
| 21 |
+
for am_don in nguyen_am_don.split("|"):
|
| 22 |
+
result.add(am_don)
|
| 23 |
+
for candidate in keyboardNeighbors[am_don]:
|
| 24 |
+
result.add(candidate)
|
| 25 |
+
|
| 26 |
+
print("|".join(result))
|
dataset/data_generation/all_nguyen_am_hai.py
ADDED
|
@@ -0,0 +1,47 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
import re
|
| 2 |
+
from normalize import chuan_hoa_dau_tu_tieng_viet
|
| 3 |
+
from keyboard_neighbor import getKeyboardNeighbors
|
| 4 |
+
import numpy as np
|
| 5 |
+
|
| 6 |
+
with open("common-vietnamese-syllables.txt", "r") as file:
|
| 7 |
+
vi_syllables = [line.strip("\n") for line in file.readlines()]
|
| 8 |
+
|
| 9 |
+
vi_syllables_new = []
|
| 10 |
+
for syllable in vi_syllables:
|
| 11 |
+
normalized = chuan_hoa_dau_tu_tieng_viet(syllable)
|
| 12 |
+
vi_syllables_new.append(normalized)
|
| 13 |
+
|
| 14 |
+
nguyen_am_doi = 'ai|ao|au|ay|âu|ây|êu|eo|ia|iê|yê|iu|oă|oa|oi|oe|oo|ôô|ơi|uă|uâ|ue|ua|ui|ưi|uo|ươ|ưu|uơ|uy|ưa|ôi|uô|uê'
|
| 15 |
+
|
| 16 |
+
no_end_phu_am = 'ưu|ưi|ui|ưa|ơi|ôi|oi|iu|ia|êu|eo|ây|ay|âu|au|ao|ai'
|
| 17 |
+
must_end_phu_am = "yê|ươ|uô|uâ|iê|â"
|
| 18 |
+
|
| 19 |
+
keyboardNeighbors = getKeyboardNeighbors()
|
| 20 |
+
for key in keyboardNeighbors.keys():
|
| 21 |
+
keyboardNeighbors[key] = keyboardNeighbors[key][0][np.argmax(keyboardNeighbors[key][1])]
|
| 22 |
+
|
| 23 |
+
|
| 24 |
+
result = set()
|
| 25 |
+
for am_doi in nguyen_am_doi.split("|"):
|
| 26 |
+
result.add(am_doi)
|
| 27 |
+
if am_doi not in must_end_phu_am:
|
| 28 |
+
for candidate in keyboardNeighbors[am_doi[0]]:
|
| 29 |
+
result.add(candidate + am_doi[1])
|
| 30 |
+
if am_doi not in no_end_phu_am:
|
| 31 |
+
for candidate in keyboardNeighbors[am_doi[1]]:
|
| 32 |
+
result.add(am_doi[0] + candidate)
|
| 33 |
+
|
| 34 |
+
|
| 35 |
+
remove_list = set()
|
| 36 |
+
for syllable in result:
|
| 37 |
+
for idx in range(len(vi_syllables_new)):
|
| 38 |
+
if syllable in vi_syllables_new[idx]:
|
| 39 |
+
break
|
| 40 |
+
|
| 41 |
+
if idx == len(vi_syllables_new) - 1:
|
| 42 |
+
remove_list.add(syllable)
|
| 43 |
+
|
| 44 |
+
for el in remove_list:
|
| 45 |
+
result.discard(el)
|
| 46 |
+
|
| 47 |
+
print("|".join(result))
|
dataset/data_generation/all_phu_am_daucuoi.py
ADDED
|
@@ -0,0 +1,78 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
import re
|
| 2 |
+
from normalize import chuan_hoa_dau_tu_tieng_viet
|
| 3 |
+
import numpy as np
|
| 4 |
+
|
| 5 |
+
with open("common-vietnamese-syllables.txt", "r") as file:
|
| 6 |
+
vi_syllables = [line.strip("\n") for line in file.readlines()]
|
| 7 |
+
|
| 8 |
+
|
| 9 |
+
vi_syllables_new = []
|
| 10 |
+
for syllable in vi_syllables:
|
| 11 |
+
normalized = chuan_hoa_dau_tu_tieng_viet(syllable)
|
| 12 |
+
vi_syllables_new.append(normalized)
|
| 13 |
+
|
| 14 |
+
regex_am_ba = "ười|oeo|uyễ|uồi|ươi|uyê|uôi|ướu|oải|uyệ|oẹo|ưới|iễu|uối|yếu|oại|ưỡi|iêu|ưởi|oèo|uya|oáy|uổi|uỷu|uyế|uyể|ượu|uội|uao|uầy|uào|uẫy|ươu|yểu|oai|uyề|oài|uậy|iều|uỵu|iếu|oay|yều|uấy|oái|iểu|uẩy|yêu|uỗi|iệu|uây|ượi"
|
| 15 |
+
regex_am_hai = "áo|ay|ùy|ại|ậu|ỡi|èo|ọi|ào|ao|uấ|ãy|uề|uy|ảu|oạ|iê|ái|ảy|ội|ựa|ẻo|ời|ôi|iệ|oỏ|ủi|ía|oẻ|uệ|ọe|ẫy|ơi|ồi|uẹ|ũy|ấy|ủa|ùa|ỗi|ượ|uý|eo|ấu|ễu|iề|ướ|ưu|ụi|ụy|iễ|uỗ|âu|uồ|ửi|uã|ạo|ây|ia|ìa|àu|ểu|uả|oả|oo|ếu|ĩa|ué|ẽo|oà|uộ|ue|oẹ|uâ|ịu|uố|íu|yể|òe|uằ|uẳ|ùi|au|uo|iu|ựu|iể|uẽ|uở|õi|éo|ão|ới|uậ|uỹ|ìu|yệ|oặ|ui|ầy|yế|áu|óa|yê|ợi|oe|oè|ẫu|uơ|oó|uá|ửu|úa|uầ|ưở|ỏe|ĩu|oé|uể|ậy|úi|ỏi|uà|ủy|oằ|ữa|oã|ửa|uớ|oă|ổi|oò|uă|uắ|uờ|ườ|úy|ữu|ối|uó|oi|ừu|oá|ởi|ừa|ũi|ải|yề|ỉa|uặ|ưa|òa|òi|ệu|ạy|uổ|ịa|uê|ạu|ụa|ãi|oọ|ài|oẳ|uỷ|ưỡ|ẩy|uỳ|iế|ọa|uế|ua|ũa|óe|uẩ|oắ|ẩu|uẻ|ai|ỉu|ói|ầu|ươ|uè|ều|ảo|yễ|êu|uẫ|oa|ứu|ày|uỵ|oẵ|áy|ứa|ỏa|uô|õa|uạ|ẹo"
|
| 16 |
+
regex_am_don = "ề|e|a|ầ|è|ơ|ồ|ú|ỵ|ả|ắ|ỷ|ố|ẩ|ặ|ừ|ữ|ủ|ụ|é|ợ|ằ|á|ỉ|ỗ|ê|ờ|ạ|õ|o|y|ì|ỳ|ự|ấ|ế|ý|ẽ|ó|u|ể|ễ|i|â|ẻ|ẹ|ỏ|ớ|ẳ|ẵ|ỹ|à|ẫ|ị|ù|ư|ứ|ở|ộ|ỡ|ũ|ô|í|ổ|ệ|ò|ĩ|ọ|ã|ậ|ử|ă"
|
| 17 |
+
|
| 18 |
+
all_phu_am_dau = set()
|
| 19 |
+
all_phu_am_cuoi = set()
|
| 20 |
+
special_list = set()
|
| 21 |
+
for syllable in vi_syllables_new:
|
| 22 |
+
if syllable[0:2] in ["qu", "gi"]:
|
| 23 |
+
special_list.add(syllable)
|
| 24 |
+
continue
|
| 25 |
+
|
| 26 |
+
if len(result:=re.findall(regex_am_ba, syllable)) != 0:
|
| 27 |
+
nguyen_am = result[0]
|
| 28 |
+
elif len(result:=re.findall(regex_am_hai, syllable)) != 0:
|
| 29 |
+
nguyen_am = result[0]
|
| 30 |
+
elif len(result:=re.findall(regex_am_don, syllable)) != 0:
|
| 31 |
+
nguyen_am = result[0]
|
| 32 |
+
else:
|
| 33 |
+
raise Exception("Khong co nguyen am")
|
| 34 |
+
phu_am_dau, phu_am_cuoi = "", ""
|
| 35 |
+
if len(result:=re.findall(f"(.+){nguyen_am}", syllable)) !=0 :
|
| 36 |
+
phu_am_dau = result[0]
|
| 37 |
+
if len(result:=re.findall(f"{nguyen_am}(.+)", syllable)) !=0 :
|
| 38 |
+
phu_am_cuoi = result[0]
|
| 39 |
+
|
| 40 |
+
all_phu_am_dau.add(phu_am_dau)
|
| 41 |
+
all_phu_am_cuoi.add(phu_am_cuoi)
|
| 42 |
+
|
| 43 |
+
assert "".join([phu_am_dau, nguyen_am, phu_am_cuoi]) == syllable
|
| 44 |
+
|
| 45 |
+
|
| 46 |
+
for syllable in special_list:
|
| 47 |
+
|
| 48 |
+
if len(result:=re.findall(regex_am_don, syllable)) > 1:
|
| 49 |
+
phu_am_dau = syllable[0:2]
|
| 50 |
+
remained = syllable[2:]
|
| 51 |
+
else:
|
| 52 |
+
phu_am_dau = syllable[0]
|
| 53 |
+
remained = syllable[1:]
|
| 54 |
+
|
| 55 |
+
|
| 56 |
+
if len(result:=re.findall(regex_am_ba, remained)) != 0:
|
| 57 |
+
nguyen_am = result[0]
|
| 58 |
+
elif len(result:=re.findall(regex_am_hai, remained)) != 0:
|
| 59 |
+
nguyen_am = result[0]
|
| 60 |
+
elif len(result:=re.findall(regex_am_don, remained)) != 0:
|
| 61 |
+
nguyen_am = result[0]
|
| 62 |
+
else:
|
| 63 |
+
nguyen_am, phu_am_cuoi = "", ""
|
| 64 |
+
|
| 65 |
+
phu_am_cuoi = ""
|
| 66 |
+
|
| 67 |
+
if nguyen_am != "" and len(result:=re.findall(f"{nguyen_am}(.+)", remained)) !=0 :
|
| 68 |
+
phu_am_cuoi = result[0]
|
| 69 |
+
|
| 70 |
+
all_phu_am_dau.add(phu_am_dau)
|
| 71 |
+
all_phu_am_cuoi.add(phu_am_cuoi)
|
| 72 |
+
|
| 73 |
+
assert "".join([phu_am_dau, nguyen_am, phu_am_cuoi]) == syllable
|
| 74 |
+
|
| 75 |
+
print("Tất cả phụ âm đầu: ")
|
| 76 |
+
print(all_phu_am_dau)
|
| 77 |
+
print("Tất cả phụ âm cuối: ")
|
| 78 |
+
print(all_phu_am_cuoi)
|
dataset/data_generation/common-vietnamese-syllables.txt
ADDED
|
@@ -0,0 +1,7184 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
và
|
| 2 |
+
của
|
| 3 |
+
có
|
| 4 |
+
các
|
| 5 |
+
là
|
| 6 |
+
được
|
| 7 |
+
trong
|
| 8 |
+
cho
|
| 9 |
+
không
|
| 10 |
+
người
|
| 11 |
+
với
|
| 12 |
+
một
|
| 13 |
+
đã
|
| 14 |
+
công
|
| 15 |
+
để
|
| 16 |
+
những
|
| 17 |
+
khi
|
| 18 |
+
đến
|
| 19 |
+
về
|
| 20 |
+
này
|
| 21 |
+
tại
|
| 22 |
+
ở
|
| 23 |
+
cũng
|
| 24 |
+
tôi
|
| 25 |
+
ra
|
| 26 |
+
năm
|
| 27 |
+
nhiều
|
| 28 |
+
từ
|
| 29 |
+
việc
|
| 30 |
+
đồng
|
| 31 |
+
nhà
|
| 32 |
+
làm
|
| 33 |
+
đó
|
| 34 |
+
hiện
|
| 35 |
+
ông
|
| 36 |
+
vào
|
| 37 |
+
học
|
| 38 |
+
bị
|
| 39 |
+
trên
|
| 40 |
+
thể
|
| 41 |
+
theo
|
| 42 |
+
trường
|
| 43 |
+
như
|
| 44 |
+
ngày
|
| 45 |
+
anh
|
| 46 |
+
đầu
|
| 47 |
+
nước
|
| 48 |
+
phải
|
| 49 |
+
thành
|
| 50 |
+
định
|
| 51 |
+
bộ
|
| 52 |
+
nhân
|
| 53 |
+
sẽ
|
| 54 |
+
gia
|
| 55 |
+
quan
|
| 56 |
+
sự
|
| 57 |
+
nam
|
| 58 |
+
lại
|
| 59 |
+
chỉ
|
| 60 |
+
số
|
| 61 |
+
hàng
|
| 62 |
+
con
|
| 63 |
+
sinh
|
| 64 |
+
động
|
| 65 |
+
sau
|
| 66 |
+
điều
|
| 67 |
+
chính
|
| 68 |
+
dân
|
| 69 |
+
cơ
|
| 70 |
+
nhưng
|
| 71 |
+
việt
|
| 72 |
+
đi
|
| 73 |
+
quốc
|
| 74 |
+
thì
|
| 75 |
+
còn
|
| 76 |
+
biết
|
| 77 |
+
hội
|
| 78 |
+
hơn
|
| 79 |
+
thời
|
| 80 |
+
thông
|
| 81 |
+
an
|
| 82 |
+
trung
|
| 83 |
+
vụ
|
| 84 |
+
giá
|
| 85 |
+
viên
|
| 86 |
+
thực
|
| 87 |
+
lý
|
| 88 |
+
phát
|
| 89 |
+
nên
|
| 90 |
+
nhận
|
| 91 |
+
hành
|
| 92 |
+
nhất
|
| 93 |
+
chủ
|
| 94 |
+
hợp
|
| 95 |
+
rất
|
| 96 |
+
mình
|
| 97 |
+
đang
|
| 98 |
+
qua
|
| 99 |
+
xe
|
| 100 |
+
văn
|
| 101 |
+
trước
|
| 102 |
+
do
|
| 103 |
+
cao
|
| 104 |
+
mới
|
| 105 |
+
trình
|
| 106 |
+
cùng
|
| 107 |
+
mà
|
| 108 |
+
đại
|
| 109 |
+
vì
|
| 110 |
+
bạn
|
| 111 |
+
thế
|
| 112 |
+
thị
|
| 113 |
+
sản
|
| 114 |
+
em
|
| 115 |
+
đây
|
| 116 |
+
tế
|
| 117 |
+
đường
|
| 118 |
+
cả
|
| 119 |
+
đối
|
| 120 |
+
bệnh
|
| 121 |
+
hai
|
| 122 |
+
án
|
| 123 |
+
nói
|
| 124 |
+
thi
|
| 125 |
+
tiếp
|
| 126 |
+
chức
|
| 127 |
+
tư
|
| 128 |
+
hình
|
| 129 |
+
nghiệp
|
| 130 |
+
nội
|
| 131 |
+
tình
|
| 132 |
+
hà
|
| 133 |
+
nguyễn
|
| 134 |
+
tiền
|
| 135 |
+
dự
|
| 136 |
+
lượng
|
| 137 |
+
lên
|
| 138 |
+
tin
|
| 139 |
+
điểm
|
| 140 |
+
bình
|
| 141 |
+
cấp
|
| 142 |
+
báo
|
| 143 |
+
kinh
|
| 144 |
+
đề
|
| 145 |
+
tác
|
| 146 |
+
dụng
|
| 147 |
+
bảo
|
| 148 |
+
xã
|
| 149 |
+
tâm
|
| 150 |
+
xuất
|
| 151 |
+
tỉnh
|
| 152 |
+
cô
|
| 153 |
+
nay
|
| 154 |
+
thanh
|
| 155 |
+
bà
|
| 156 |
+
tài
|
| 157 |
+
kết
|
| 158 |
+
tuổi
|
| 159 |
+
cách
|
| 160 |
+
vẫn
|
| 161 |
+
thu
|
| 162 |
+
khác
|
| 163 |
+
đình
|
| 164 |
+
cầu
|
| 165 |
+
tăng
|
| 166 |
+
toàn
|
| 167 |
+
năng
|
| 168 |
+
phương
|
| 169 |
+
phòng
|
| 170 |
+
chúng
|
| 171 |
+
thấy
|
| 172 |
+
tra
|
| 173 |
+
tháng
|
| 174 |
+
doanh
|
| 175 |
+
giải
|
| 176 |
+
cần
|
| 177 |
+
khách
|
| 178 |
+
thương
|
| 179 |
+
tự
|
| 180 |
+
bản
|
| 181 |
+
thường
|
| 182 |
+
chị
|
| 183 |
+
chưa
|
| 184 |
+
ảnh
|
| 185 |
+
ngoài
|
| 186 |
+
tới
|
| 187 |
+
sở
|
| 188 |
+
quy
|
| 189 |
+
giao
|
| 190 |
+
lớn
|
| 191 |
+
diễn
|
| 192 |
+
tổ
|
| 193 |
+
ý
|
| 194 |
+
yêu
|
| 195 |
+
liên
|
| 196 |
+
lực
|
| 197 |
+
pháp
|
| 198 |
+
ăn
|
| 199 |
+
gian
|
| 200 |
+
tập
|
| 201 |
+
khu
|
| 202 |
+
ban
|
| 203 |
+
cuộc
|
| 204 |
+
sống
|
| 205 |
+
quyết
|
| 206 |
+
phạm
|
| 207 |
+
sĩ
|
| 208 |
+
hoá
|
| 209 |
+
mặt
|
| 210 |
+
triển
|
| 211 |
+
triệu
|
| 212 |
+
nào
|
| 213 |
+
phần
|
| 214 |
+
trẻ
|
| 215 |
+
hay
|
| 216 |
+
lần
|
| 217 |
+
bằng
|
| 218 |
+
chất
|
| 219 |
+
minh
|
| 220 |
+
độ
|
| 221 |
+
nếu
|
| 222 |
+
trưởng
|
| 223 |
+
rằng
|
| 224 |
+
giới
|
| 225 |
+
tạo
|
| 226 |
+
quả
|
| 227 |
+
nhiên
|
| 228 |
+
trọng
|
| 229 |
+
vị
|
| 230 |
+
quá
|
| 231 |
+
mẹ
|
| 232 |
+
bán
|
| 233 |
+
thủ
|
| 234 |
+
trị
|
| 235 |
+
địa
|
| 236 |
+
đưa
|
| 237 |
+
khoảng
|
| 238 |
+
họ
|
| 239 |
+
đạo
|
| 240 |
+
tục
|
| 241 |
+
tổng
|
| 242 |
+
tiêu
|
| 243 |
+
ty
|
| 244 |
+
thức
|
| 245 |
+
viện
|
| 246 |
+
tham
|
| 247 |
+
điện
|
| 248 |
+
tính
|
| 249 |
+
sử
|
| 250 |
+
mua
|
| 251 |
+
gần
|
| 252 |
+
cảm
|
| 253 |
+
huyện
|
| 254 |
+
hiệu
|
| 255 |
+
phẩm
|
| 256 |
+
cảnh
|
| 257 |
+
hệ
|
| 258 |
+
bên
|
| 259 |
+
luật
|
| 260 |
+
máy
|
| 261 |
+
sáng
|
| 262 |
+
kỳ
|
| 263 |
+
nguyên
|
| 264 |
+
cứu
|
| 265 |
+
vực
|
| 266 |
+
giáo
|
| 267 |
+
giờ
|
| 268 |
+
mỹ
|
| 269 |
+
hoạt
|
| 270 |
+
bắt
|
| 271 |
+
vậy
|
| 272 |
+
kiến
|
| 273 |
+
kiểm
|
| 274 |
+
đổi
|
| 275 |
+
xây
|
| 276 |
+
đất
|
| 277 |
+
vừa
|
| 278 |
+
sát
|
| 279 |
+
khó
|
| 280 |
+
nghệ
|
| 281 |
+
tỷ
|
| 282 |
+
trở
|
| 283 |
+
gây
|
| 284 |
+
hoàn
|
| 285 |
+
vấn
|
| 286 |
+
tuy
|
| 287 |
+
đơn
|
| 288 |
+
khai
|
| 289 |
+
tốt
|
| 290 |
+
mạnh
|
| 291 |
+
giảm
|
| 292 |
+
biệt
|
| 293 |
+
nhiệm
|
| 294 |
+
dựng
|
| 295 |
+
thống
|
| 296 |
+
lúc
|
| 297 |
+
bất
|
| 298 |
+
trang
|
| 299 |
+
vi
|
| 300 |
+
thứ
|
| 301 |
+
rồi
|
| 302 |
+
phố
|
| 303 |
+
nghị
|
| 304 |
+
tiếng
|
| 305 |
+
đều
|
| 306 |
+
đặc
|
| 307 |
+
chồng
|
| 308 |
+
cáo
|
| 309 |
+
hồ
|
| 310 |
+
mức
|
| 311 |
+
chí
|
| 312 |
+
chế
|
| 313 |
+
xử
|
| 314 |
+
tượng
|
| 315 |
+
mỗi
|
| 316 |
+
nhau
|
| 317 |
+
ta
|
| 318 |
+
gì
|
| 319 |
+
giúp
|
| 320 |
+
nữ
|
| 321 |
+
chuyển
|
| 322 |
+
thêm
|
| 323 |
+
đánh
|
| 324 |
+
loại
|
| 325 |
+
trí
|
| 326 |
+
tiến
|
| 327 |
+
khiến
|
| 328 |
+
chi
|
| 329 |
+
tìm
|
| 330 |
+
muốn
|
| 331 |
+
phụ
|
| 332 |
+
cá
|
| 333 |
+
thân
|
| 334 |
+
chuyện
|
| 335 |
+
đoàn
|
| 336 |
+
quyền
|
| 337 |
+
vợ
|
| 338 |
+
quản
|
| 339 |
+
đông
|
| 340 |
+
bố
|
| 341 |
+
chia
|
| 342 |
+
hoặc
|
| 343 |
+
sách
|
| 344 |
+
tích
|
| 345 |
+
phim
|
| 346 |
+
mang
|
| 347 |
+
sức
|
| 348 |
+
hoa
|
| 349 |
+
lời
|
| 350 |
+
dùng
|
| 351 |
+
ngân
|
| 352 |
+
chương
|
| 353 |
+
giám
|
| 354 |
+
nhập
|
| 355 |
+
ngành
|
| 356 |
+
từng
|
| 357 |
+
nạn
|
| 358 |
+
hết
|
| 359 |
+
diện
|
| 360 |
+
chuyên
|
| 361 |
+
tay
|
| 362 |
+
tịch
|
| 363 |
+
ngay
|
| 364 |
+
nơi
|
| 365 |
+
khoa
|
| 366 |
+
dịch
|
| 367 |
+
lập
|
| 368 |
+
giữ
|
| 369 |
+
lợi
|
| 370 |
+
chứng
|
| 371 |
+
hải
|
| 372 |
+
hộ
|
| 373 |
+
thiết
|
| 374 |
+
hướng
|
| 375 |
+
phó
|
| 376 |
+
tiên
|
| 377 |
+
phục
|
| 378 |
+
mọi
|
| 379 |
+
bao
|
| 380 |
+
xét
|
| 381 |
+
dẫn
|
| 382 |
+
truyền
|
| 383 |
+
biểu
|
| 384 |
+
phí
|
| 385 |
+
ca
|
| 386 |
+
biển
|
| 387 |
+
thư
|
| 388 |
+
bé
|
| 389 |
+
bỏ
|
| 390 |
+
lịch
|
| 391 |
+
trần
|
| 392 |
+
chung
|
| 393 |
+
xác
|
| 394 |
+
vật
|
| 395 |
+
rõ
|
| 396 |
+
giữa
|
| 397 |
+
giả
|
| 398 |
+
bài
|
| 399 |
+
sao
|
| 400 |
+
cái
|
| 401 |
+
y
|
| 402 |
+
du
|
| 403 |
+
ứng
|
| 404 |
+
tử
|
| 405 |
+
đẹp
|
| 406 |
+
xem
|
| 407 |
+
hoàng
|
| 408 |
+
hoà
|
| 409 |
+
dù
|
| 410 |
+
trả
|
| 411 |
+
sẻ
|
| 412 |
+
chiếc
|
| 413 |
+
đủ
|
| 414 |
+
dài
|
| 415 |
+
kiện
|
| 416 |
+
cổ
|
| 417 |
+
vàng
|
| 418 |
+
thay
|
| 419 |
+
đạt
|
| 420 |
+
thuộc
|
| 421 |
+
kế
|
| 422 |
+
gái
|
| 423 |
+
trợ
|
| 424 |
+
lê
|
| 425 |
+
ba
|
| 426 |
+
nhỏ
|
| 427 |
+
ký
|
| 428 |
+
chọn
|
| 429 |
+
chiến
|
| 430 |
+
câu
|
| 431 |
+
thuật
|
| 432 |
+
sơn
|
| 433 |
+
mất
|
| 434 |
+
hỏi
|
| 435 |
+
gặp
|
| 436 |
+
thái
|
| 437 |
+
chiều
|
| 438 |
+
biến
|
| 439 |
+
lấy
|
| 440 |
+
vệ
|
| 441 |
+
bàn
|
| 442 |
+
luôn
|
| 443 |
+
tên
|
| 444 |
+
phủ
|
| 445 |
+
xảy
|
| 446 |
+
danh
|
| 447 |
+
quận
|
| 448 |
+
đức
|
| 449 |
+
đúng
|
| 450 |
+
thích
|
| 451 |
+
dục
|
| 452 |
+
đảm
|
| 453 |
+
bởi
|
| 454 |
+
ấy
|
| 455 |
+
tiết
|
| 456 |
+
bác
|
| 457 |
+
hạn
|
| 458 |
+
hậu
|
| 459 |
+
đời
|
| 460 |
+
quân
|
| 461 |
+
ai
|
| 462 |
+
hưởng
|
| 463 |
+
cây
|
| 464 |
+
quảng
|
| 465 |
+
tranh
|
| 466 |
+
so
|
| 467 |
+
sang
|
| 468 |
+
đội
|
| 469 |
+
tố
|
| 470 |
+
cửa
|
| 471 |
+
vùng
|
| 472 |
+
kể
|
| 473 |
+
nguồn
|
| 474 |
+
trạng
|
| 475 |
+
vốn
|
| 476 |
+
nhóm
|
| 477 |
+
căn
|
| 478 |
+
phân
|
| 479 |
+
xuống
|
| 480 |
+
cuối
|
| 481 |
+
tất
|
| 482 |
+
cứ
|
| 483 |
+
bay
|
| 484 |
+
nghiệm
|
| 485 |
+
thí
|
| 486 |
+
chuẩn
|
| 487 |
+
cố
|
| 488 |
+
tàu
|
| 489 |
+
lao
|
| 490 |
+
mở
|
| 491 |
+
liệu
|
| 492 |
+
nữa
|
| 493 |
+
tướng
|
| 494 |
+
tối
|
| 495 |
+
uỷ
|
| 496 |
+
lưu
|
| 497 |
+
đăng
|
| 498 |
+
ít
|
| 499 |
+
nhạc
|
| 500 |
+
mắt
|
| 501 |
+
lãnh
|
| 502 |
+
ngọc
|
| 503 |
+
đoạn
|
| 504 |
+
xin
|
| 505 |
+
đốc
|
| 506 |
+
trực
|
| 507 |
+
đặt
|
| 508 |
+
trách
|
| 509 |
+
bắc
|
| 510 |
+
tuyển
|
| 511 |
+
vận
|
| 512 |
+
dương
|
| 513 |
+
riêng
|
| 514 |
+
ngoại
|
| 515 |
+
luận
|
| 516 |
+
mạng
|
| 517 |
+
cụ
|
| 518 |
+
sơ
|
| 519 |
+
đa
|
| 520 |
+
phía
|
| 521 |
+
đóng
|
| 522 |
+
tương
|
| 523 |
+
nông
|
| 524 |
+
yếu
|
| 525 |
+
ninh
|
| 526 |
+
tội
|
| 527 |
+
khăn
|
| 528 |
+
xuân
|
| 529 |
+
mục
|
| 530 |
+
nghĩa
|
| 531 |
+
cạnh
|
| 532 |
+
cháu
|
| 533 |
+
lớp
|
| 534 |
+
đào
|
| 535 |
+
hoạch
|
| 536 |
+
khẩu
|
| 537 |
+
long
|
| 538 |
+
phong
|
| 539 |
+
vũ
|
| 540 |
+
phú
|
| 541 |
+
nghĩ
|
| 542 |
+
môi
|
| 543 |
+
thiếu
|
| 544 |
+
thật
|
| 545 |
+
hiểu
|
| 546 |
+
nổi
|
| 547 |
+
chạy
|
| 548 |
+
trái
|
| 549 |
+
cán
|
| 550 |
+
thuốc
|
| 551 |
+
kỹ
|
| 552 |
+
hữu
|
| 553 |
+
cục
|
| 554 |
+
áp
|
| 555 |
+
cộng
|
| 556 |
+
thuận
|
| 557 |
+
tinh
|
| 558 |
+
nhật
|
| 559 |
+
chân
|
| 560 |
+
lòng
|
| 561 |
+
càng
|
| 562 |
+
dưới
|
| 563 |
+
nó
|
| 564 |
+
nhìn
|
| 565 |
+
đêm
|
| 566 |
+
quang
|
| 567 |
+
nhanh
|
| 568 |
+
nghiên
|
| 569 |
+
gửi
|
| 570 |
+
hỗ
|
| 571 |
+
châu
|
| 572 |
+
khá
|
| 573 |
+
phúc
|
| 574 |
+
phép
|
| 575 |
+
trai
|
| 576 |
+
tải
|
| 577 |
+
đảng
|
| 578 |
+
chơi
|
| 579 |
+
chết
|
| 580 |
+
gọi
|
| 581 |
+
đàn
|
| 582 |
+
môn
|
| 583 |
+
tuần
|
| 584 |
+
lễ
|
| 585 |
+
dung
|
| 586 |
+
góp
|
| 587 |
+
huy
|
| 588 |
+
tân
|
| 589 |
+
khả
|
| 590 |
+
hồi
|
| 591 |
+
hôm
|
| 592 |
+
biên
|
| 593 |
+
lan
|
| 594 |
+
độc
|
| 595 |
+
linh
|
| 596 |
+
cung
|
| 597 |
+
toán
|
| 598 |
+
giấy
|
| 599 |
+
cường
|
| 600 |
+
đáng
|
| 601 |
+
tai
|
| 602 |
+
tuyến
|
| 603 |
+
nằm
|
| 604 |
+
gồm
|
| 605 |
+
xúc
|
| 606 |
+
duy
|
| 607 |
+
sắc
|
| 608 |
+
giang
|
| 609 |
+
trao
|
| 610 |
+
lo
|
| 611 |
+
bí
|
| 612 |
+
buổi
|
| 613 |
+
thần
|
| 614 |
+
sân
|
| 615 |
+
đồ
|
| 616 |
+
thuỷ
|
| 617 |
+
cử
|
| 618 |
+
tây
|
| 619 |
+
khoẻ
|
| 620 |
+
nghe
|
| 621 |
+
rộng
|
| 622 |
+
vui
|
| 623 |
+
toà
|
| 624 |
+
hồng
|
| 625 |
+
dành
|
| 626 |
+
phối
|
| 627 |
+
kim
|
| 628 |
+
khoản
|
| 629 |
+
tấn
|
| 630 |
+
vai
|
| 631 |
+
chống
|
| 632 |
+
lệ
|
| 633 |
+
khí
|
| 634 |
+
vô
|
| 635 |
+
lương
|
| 636 |
+
dễ
|
| 637 |
+
đầy
|
| 638 |
+
sư
|
| 639 |
+
nặng
|
| 640 |
+
mai
|
| 641 |
+
trò
|
| 642 |
+
hương
|
| 643 |
+
nguy
|
| 644 |
+
hại
|
| 645 |
+
thảo
|
| 646 |
+
đảo
|
| 647 |
+
thiện
|
| 648 |
+
nuôi
|
| 649 |
+
ghi
|
| 650 |
+
quán
|
| 651 |
+
chịu
|
| 652 |
+
tưởng
|
| 653 |
+
phường
|
| 654 |
+
niên
|
| 655 |
+
tết
|
| 656 |
+
mong
|
| 657 |
+
lộ
|
| 658 |
+
cực
|
| 659 |
+
vài
|
| 660 |
+
bước
|
| 661 |
+
đô
|
| 662 |
+
nghiêm
|
| 663 |
+
đà
|
| 664 |
+
chấp
|
| 665 |
+
thuế
|
| 666 |
+
thoại
|
| 667 |
+
đứng
|
| 668 |
+
đôi
|
| 669 |
+
di
|
| 670 |
+
uống
|
| 671 |
+
phản
|
| 672 |
+
nghề
|
| 673 |
+
vọng
|
| 674 |
+
thấp
|
| 675 |
+
âm
|
| 676 |
+
tiện
|
| 677 |
+
lĩnh
|
| 678 |
+
thẩm
|
| 679 |
+
dầu
|
| 680 |
+
khám
|
| 681 |
+
màu
|
| 682 |
+
hát
|
| 683 |
+
đau
|
| 684 |
+
xa
|
| 685 |
+
hiểm
|
| 686 |
+
lâu
|
| 687 |
+
mô
|
| 688 |
+
kiếm
|
| 689 |
+
mặc
|
| 690 |
+
nghỉ
|
| 691 |
+
viết
|
| 692 |
+
phù
|
| 693 |
+
nhằm
|
| 694 |
+
xuyên
|
| 695 |
+
kỷ
|
| 696 |
+
ngờ
|
| 697 |
+
yên
|
| 698 |
+
mưa
|
| 699 |
+
hạ
|
| 700 |
+
nghi
|
| 701 |
+
kéo
|
| 702 |
+
khởi
|
| 703 |
+
ương
|
| 704 |
+
nâng
|
| 705 |
+
khẳng
|
| 706 |
+
cư
|
| 707 |
+
mẫu
|
| 708 |
+
trương
|
| 709 |
+
quý
|
| 710 |
+
mại
|
| 711 |
+
phá
|
| 712 |
+
chú
|
| 713 |
+
sai
|
| 714 |
+
ô
|
| 715 |
+
chăm
|
| 716 |
+
hùng
|
| 717 |
+
suất
|
| 718 |
+
sâu
|
| 719 |
+
tuấn
|
| 720 |
+
bức
|
| 721 |
+
đọc
|
| 722 |
+
lâm
|
| 723 |
+
nợ
|
| 724 |
+
khỏi
|
| 725 |
+
phạt
|
| 726 |
+
tín
|
| 727 |
+
vượt
|
| 728 |
+
đấu
|
| 729 |
+
thiên
|
| 730 |
+
thưởng
|
| 731 |
+
sông
|
| 732 |
+
sớm
|
| 733 |
+
dạy
|
| 734 |
+
cha
|
| 735 |
+
bổ
|
| 736 |
+
cải
|
| 737 |
+
tuyên
|
| 738 |
+
chỗ
|
| 739 |
+
áo
|
| 740 |
+
hạnh
|
| 741 |
+
tầng
|
| 742 |
+
da
|
| 743 |
+
tạm
|
| 744 |
+
đẩy
|
| 745 |
+
dưỡng
|
| 746 |
+
chữa
|
| 747 |
+
vòng
|
| 748 |
+
phiên
|
| 749 |
+
đá
|
| 750 |
+
mùa
|
| 751 |
+
vay
|
| 752 |
+
hôn
|
| 753 |
+
đâu
|
| 754 |
+
chứ
|
| 755 |
+
xanh
|
| 756 |
+
quê
|
| 757 |
+
hút
|
| 758 |
+
máu
|
| 759 |
+
hiệp
|
| 760 |
+
nhờ
|
| 761 |
+
thăm
|
| 762 |
+
trú
|
| 763 |
+
thuê
|
| 764 |
+
tránh
|
| 765 |
+
khán
|
| 766 |
+
chẳng
|
| 767 |
+
tiểu
|
| 768 |
+
ánh
|
| 769 |
+
quay
|
| 770 |
+
soát
|
| 771 |
+
nhiệt
|
| 772 |
+
ngôi
|
| 773 |
+
thắng
|
| 774 |
+
dũng
|
| 775 |
+
món
|
| 776 |
+
thừa
|
| 777 |
+
ung
|
| 778 |
+
cháy
|
| 779 |
+
khắc
|
| 780 |
+
ngồi
|
| 781 |
+
phê
|
| 782 |
+
họp
|
| 783 |
+
trì
|
| 784 |
+
tô
|
| 785 |
+
quen
|
| 786 |
+
vinh
|
| 787 |
+
miền
|
| 788 |
+
chợ
|
| 789 |
+
nhu
|
| 790 |
+
chắc
|
| 791 |
+
nền
|
| 792 |
+
giống
|
| 793 |
+
nga
|
| 794 |
+
nóng
|
| 795 |
+
thôn
|
| 796 |
+
phút
|
| 797 |
+
giai
|
| 798 |
+
ổn
|
| 799 |
+
bầu
|
| 800 |
+
ưu
|
| 801 |
+
thầy
|
| 802 |
+
nhớ
|
| 803 |
+
mắc
|
| 804 |
+
dấu
|
| 805 |
+
sóc
|
| 806 |
+
quanh
|
| 807 |
+
trời
|
| 808 |
+
mối
|
| 809 |
+
cà
|
| 810 |
+
tỉ
|
| 811 |
+
thậm
|
| 812 |
+
chờ
|
| 813 |
+
chỉnh
|
| 814 |
+
khánh
|
| 815 |
+
ma
|
| 816 |
+
thúc
|
| 817 |
+
lai
|
| 818 |
+
ngủ
|
| 819 |
+
siêu
|
| 820 |
+
thịt
|
| 821 |
+
chiếm
|
| 822 |
+
tức
|
| 823 |
+
đứa
|
| 824 |
+
may
|
| 825 |
+
nẵng
|
| 826 |
+
thơ
|
| 827 |
+
bày
|
| 828 |
+
song
|
| 829 |
+
nhiễm
|
| 830 |
+
hãy
|
| 831 |
+
đón
|
| 832 |
+
ấn
|
| 833 |
+
chuyến
|
| 834 |
+
khảo
|
| 835 |
+
phóng
|
| 836 |
+
can
|
| 837 |
+
bánh
|
| 838 |
+
suy
|
| 839 |
+
cân
|
| 840 |
+
đáp
|
| 841 |
+
vẻ
|
| 842 |
+
khoá
|
| 843 |
+
lựa
|
| 844 |
+
hưng
|
| 845 |
+
trải
|
| 846 |
+
truy
|
| 847 |
+
lái
|
| 848 |
+
sợ
|
| 849 |
+
trồng
|
| 850 |
+
thú
|
| 851 |
+
kịp
|
| 852 |
+
dòng
|
| 853 |
+
ích
|
| 854 |
+
lạc
|
| 855 |
+
tỏ
|
| 856 |
+
hàn
|
| 857 |
+
khối
|
| 858 |
+
tặng
|
| 859 |
+
suốt
|
| 860 |
+
khuyến
|
| 861 |
+
đổ
|
| 862 |
+
á
|
| 863 |
+
đỏ
|
| 864 |
+
phan
|
| 865 |
+
rút
|
| 866 |
+
tái
|
| 867 |
+
mấy
|
| 868 |
+
cũ
|
| 869 |
+
rau
|
| 870 |
+
nghèo
|
| 871 |
+
mời
|
| 872 |
+
gắn
|
| 873 |
+
thụ
|
| 874 |
+
cầm
|
| 875 |
+
tờ
|
| 876 |
+
tốc
|
| 877 |
+
buộc
|
| 878 |
+
cam
|
| 879 |
+
ước
|
| 880 |
+
dư
|
| 881 |
+
biện
|
| 882 |
+
quần
|
| 883 |
+
tim
|
| 884 |
+
phi
|
| 885 |
+
thất
|
| 886 |
+
thai
|
| 887 |
+
vong
|
| 888 |
+
bạc
|
| 889 |
+
lãi
|
| 890 |
+
tắc
|
| 891 |
+
the
|
| 892 |
+
khúc
|
| 893 |
+
sài
|
| 894 |
+
giác
|
| 895 |
+
ngữ
|
| 896 |
+
cắt
|
| 897 |
+
hài
|
| 898 |
+
bè
|
| 899 |
+
phiếu
|
| 900 |
+
niệm
|
| 901 |
+
sửa
|
| 902 |
+
dừng
|
| 903 |
+
la
|
| 904 |
+
thiệt
|
| 905 |
+
xếp
|
| 906 |
+
tận
|
| 907 |
+
tĩnh
|
| 908 |
+
sung
|
| 909 |
+
thử
|
| 910 |
+
đài
|
| 911 |
+
thẳng
|
| 912 |
+
to
|
| 913 |
+
dịp
|
| 914 |
+
thôi
|
| 915 |
+
trăm
|
| 916 |
+
chở
|
| 917 |
+
vĩnh
|
| 918 |
+
nhẹ
|
| 919 |
+
sữa
|
| 920 |
+
nguyện
|
| 921 |
+
nêu
|
| 922 |
+
trắng
|
| 923 |
+
sạch
|
| 924 |
+
tộc
|
| 925 |
+
cận
|
| 926 |
+
bóng
|
| 927 |
+
chục
|
| 928 |
+
ly
|
| 929 |
+
dần
|
| 930 |
+
phổ
|
| 931 |
+
vé
|
| 932 |
+
thác
|
| 933 |
+
sỹ
|
| 934 |
+
xong
|
| 935 |
+
lỗi
|
| 936 |
+
chóng
|
| 937 |
+
niềm
|
| 938 |
+
tri
|
| 939 |
+
gốc
|
| 940 |
+
đỡ
|
| 941 |
+
nhi
|
| 942 |
+
thoát
|
| 943 |
+
chặt
|
| 944 |
+
tù
|
| 945 |
+
a
|
| 946 |
+
sẵn
|
| 947 |
+
hãng
|
| 948 |
+
làng
|
| 949 |
+
loạt
|
| 950 |
+
gió
|
| 951 |
+
cười
|
| 952 |
+
vân
|
| 953 |
+
dạng
|
| 954 |
+
gòn
|
| 955 |
+
cưới
|
| 956 |
+
vững
|
| 957 |
+
lá
|
| 958 |
+
dây
|
| 959 |
+
hấp
|
| 960 |
+
nhắc
|
| 961 |
+
nộp
|
| 962 |
+
coi
|
| 963 |
+
liệt
|
| 964 |
+
nối
|
| 965 |
+
đỗ
|
| 966 |
+
kém
|
| 967 |
+
võ
|
| 968 |
+
luyện
|
| 969 |
+
lẽ
|
| 970 |
+
sắp
|
| 971 |
+
bến
|
| 972 |
+
rừng
|
| 973 |
+
nhấn
|
| 974 |
+
lạnh
|
| 975 |
+
hầu
|
| 976 |
+
tôn
|
| 977 |
+
huynh
|
| 978 |
+
cậu
|
| 979 |
+
cấu
|
| 980 |
+
chứa
|
| 981 |
+
cập
|
| 982 |
+
đám
|
| 983 |
+
xấu
|
| 984 |
+
kiên
|
| 985 |
+
gà
|
| 986 |
+
thiệu
|
| 987 |
+
lắng
|
| 988 |
+
lạ
|
| 989 |
+
lắm
|
| 990 |
+
sa
|
| 991 |
+
lửa
|
| 992 |
+
dao
|
| 993 |
+
sắt
|
| 994 |
+
sóng
|
| 995 |
+
tạp
|
| 996 |
+
đột
|
| 997 |
+
mê
|
| 998 |
+
chụp
|
| 999 |
+
kê
|
| 1000 |
+
giảng
|
| 1001 |
+
gắng
|
| 1002 |
+
hoạ
|
| 1003 |
+
cánh
|
| 1004 |
+
ngăn
|
| 1005 |
+
giàu
|
| 1006 |
+
trụ
|
| 1007 |
+
huyết
|
| 1008 |
+
quỹ
|
| 1009 |
+
đương
|
| 1010 |
+
cuốn
|
| 1011 |
+
tầm
|
| 1012 |
+
ngại
|
| 1013 |
+
tá
|
| 1014 |
+
giản
|
| 1015 |
+
đòi
|
| 1016 |
+
xăng
|
| 1017 |
+
cướp
|
| 1018 |
+
lộc
|
| 1019 |
+
thượng
|
| 1020 |
+
kích
|
| 1021 |
+
mật
|
| 1022 |
+
kịch
|
| 1023 |
+
ủng
|
| 1024 |
+
rơi
|
| 1025 |
+
tuý
|
| 1026 |
+
cặp
|
| 1027 |
+
núi
|
| 1028 |
+
dinh
|
| 1029 |
+
xung
|
| 1030 |
+
liền
|
| 1031 |
+
tồn
|
| 1032 |
+
trấn
|
| 1033 |
+
bào
|
| 1034 |
+
đích
|
| 1035 |
+
tuyệt
|
| 1036 |
+
buồn
|
| 1037 |
+
bồi
|
| 1038 |
+
hạng
|
| 1039 |
+
giết
|
| 1040 |
+
ngắn
|
| 1041 |
+
đợt
|
| 1042 |
+
vườn
|
| 1043 |
+
chắn
|
| 1044 |
+
thải
|
| 1045 |
+
cấm
|
| 1046 |
+
miễn
|
| 1047 |
+
phước
|
| 1048 |
+
quà
|
| 1049 |
+
trận
|
| 1050 |
+
nắng
|
| 1051 |
+
mái
|
| 1052 |
+
mạch
|
| 1053 |
+
bạch
|
| 1054 |
+
bãi
|
| 1055 |
+
trà
|
| 1056 |
+
mơ
|
| 1057 |
+
nắm
|
| 1058 |
+
chữ
|
| 1059 |
+
phẫu
|
| 1060 |
+
rượu
|
| 1061 |
+
buôn
|
| 1062 |
+
phận
|
| 1063 |
+
hơi
|
| 1064 |
+
hy
|
| 1065 |
+
hào
|
| 1066 |
+
đem
|
| 1067 |
+
nửa
|
| 1068 |
+
trưng
|
| 1069 |
+
mừng
|
| 1070 |
+
khổ
|
| 1071 |
+
tươi
|
| 1072 |
+
trinh
|
| 1073 |
+
khấu
|
| 1074 |
+
ngã
|
| 1075 |
+
băng
|
| 1076 |
+
bây
|
| 1077 |
+
đen
|
| 1078 |
+
nổ
|
| 1079 |
+
huế
|
| 1080 |
+
xế
|
| 1081 |
+
trúng
|
| 1082 |
+
hoang
|
| 1083 |
+
kêu
|
| 1084 |
+
bữa
|
| 1085 |
+
tùng
|
| 1086 |
+
vết
|
| 1087 |
+
dõi
|
| 1088 |
+
bờ
|
| 1089 |
+
chiếu
|
| 1090 |
+
lượt
|
| 1091 |
+
lào
|
| 1092 |
+
thăng
|
| 1093 |
+
chút
|
| 1094 |
+
cơm
|
| 1095 |
+
kháng
|
| 1096 |
+
tấm
|
| 1097 |
+
chậm
|
| 1098 |
+
thoả
|
| 1099 |
+
trộm
|
| 1100 |
+
sàng
|
| 1101 |
+
lũ
|
| 1102 |
+
ơn
|
| 1103 |
+
ngụ
|
| 1104 |
+
nghìn
|
| 1105 |
+
sạn
|
| 1106 |
+
hằng
|
| 1107 |
+
nỗi
|
| 1108 |
+
ngô
|
| 1109 |
+
âu
|
| 1110 |
+
gương
|
| 1111 |
+
chàng
|
| 1112 |
+
trúc
|
| 1113 |
+
vương
|
| 1114 |
+
ngược
|
| 1115 |
+
cơn
|
| 1116 |
+
kẻ
|
| 1117 |
+
bật
|
| 1118 |
+
đinh
|
| 1119 |
+
ngập
|
| 1120 |
+
khóc
|
| 1121 |
+
nỗ
|
| 1122 |
+
hạt
|
| 1123 |
+
đoạt
|
| 1124 |
+
ngàn
|
| 1125 |
+
thao
|
| 1126 |
+
kính
|
| 1127 |
+
ràng
|
| 1128 |
+
hè
|
| 1129 |
+
chào
|
| 1130 |
+
bò
|
| 1131 |
+
nhuận
|
| 1132 |
+
huỳnh
|
| 1133 |
+
mã
|
| 1134 |
+
cảng
|
| 1135 |
+
hoài
|
| 1136 |
+
bùi
|
| 1137 |
+
thọ
|
| 1138 |
+
trạm
|
| 1139 |
+
đừng
|
| 1140 |
+
đâm
|
| 1141 |
+
cát
|
| 1142 |
+
hiếu
|
| 1143 |
+
lừa
|
| 1144 |
+
lược
|
| 1145 |
+
mộ
|
| 1146 |
+
kiểu
|
| 1147 |
+
tệ
|
| 1148 |
+
khắp
|
| 1149 |
+
giam
|
| 1150 |
+
kia
|
| 1151 |
+
đàm
|
| 1152 |
+
trùng
|
| 1153 |
+
bậc
|
| 1154 |
+
túi
|
| 1155 |
+
mãi
|
| 1156 |
+
màn
|
| 1157 |
+
đẳng
|
| 1158 |
+
xóm
|
| 1159 |
+
giật
|
| 1160 |
+
đuổi
|
| 1161 |
+
khủng
|
| 1162 |
+
kênh
|
| 1163 |
+
tóc
|
| 1164 |
+
đậu
|
| 1165 |
+
đợi
|
| 1166 |
+
lẫn
|
| 1167 |
+
ngũ
|
| 1168 |
+
thách
|
| 1169 |
+
kiều
|
| 1170 |
+
giỏi
|
| 1171 |
+
dị
|
| 1172 |
+
ví
|
| 1173 |
+
dựa
|
| 1174 |
+
đoán
|
| 1175 |
+
kiệm
|
| 1176 |
+
viêm
|
| 1177 |
+
thuyết
|
| 1178 |
+
bão
|
| 1179 |
+
trốn
|
| 1180 |
+
tang
|
| 1181 |
+
gấp
|
| 1182 |
+
binh
|
| 1183 |
+
ngang
|
| 1184 |
+
rối
|
| 1185 |
+
não
|
| 1186 |
+
khẩn
|
| 1187 |
+
nhiêu
|
| 1188 |
+
ngư
|
| 1189 |
+
ấm
|
| 1190 |
+
vỡ
|
| 1191 |
+
lành
|
| 1192 |
+
thận
|
| 1193 |
+
tường
|
| 1194 |
+
gói
|
| 1195 |
+
xu
|
| 1196 |
+
khiển
|
| 1197 |
+
ngọt
|
| 1198 |
+
ho
|
| 1199 |
+
dàng
|
| 1200 |
+
gạo
|
| 1201 |
+
giọng
|
| 1202 |
+
hẹn
|
| 1203 |
+
sốt
|
| 1204 |
+
già
|
| 1205 |
+
ngon
|
| 1206 |
+
mùi
|
| 1207 |
+
hiến
|
| 1208 |
+
chảy
|
| 1209 |
+
thẻ
|
| 1210 |
+
hiền
|
| 1211 |
+
hề
|
| 1212 |
+
lệnh
|
| 1213 |
+
duyên
|
| 1214 |
+
trại
|
| 1215 |
+
rác
|
| 1216 |
+
trưa
|
| 1217 |
+
thuyền
|
| 1218 |
+
chánh
|
| 1219 |
+
bụng
|
| 1220 |
+
mổ
|
| 1221 |
+
giành
|
| 1222 |
+
ngôn
|
| 1223 |
+
ha
|
| 1224 |
+
lối
|
| 1225 |
+
chấn
|
| 1226 |
+
gỗ
|
| 1227 |
+
xương
|
| 1228 |
+
sứ
|
| 1229 |
+
quên
|
| 1230 |
+
mắn
|
| 1231 |
+
nấu
|
| 1232 |
+
loạn
|
| 1233 |
+
ga
|
| 1234 |
+
chấm
|
| 1235 |
+
nha
|
| 1236 |
+
trừ
|
| 1237 |
+
ruột
|
| 1238 |
+
trật
|
| 1239 |
+
dáng
|
| 1240 |
+
mẽ
|
| 1241 |
+
súng
|
| 1242 |
+
mũi
|
| 1243 |
+
uy
|
| 1244 |
+
bảng
|
| 1245 |
+
kèm
|
| 1246 |
+
đặng
|
| 1247 |
+
dám
|
| 1248 |
+
dược
|
| 1249 |
+
lẻ
|
| 1250 |
+
miệng
|
| 1251 |
+
rời
|
| 1252 |
+
hứng
|
| 1253 |
+
lục
|
| 1254 |
+
in
|
| 1255 |
+
chu
|
| 1256 |
+
nhũng
|
| 1257 |
+
đập
|
| 1258 |
+
ép
|
| 1259 |
+
chặn
|
| 1260 |
+
hung
|
| 1261 |
+
thở
|
| 1262 |
+
đèn
|
| 1263 |
+
béo
|
| 1264 |
+
túc
|
| 1265 |
+
cương
|
| 1266 |
+
hàm
|
| 1267 |
+
huyền
|
| 1268 |
+
huỷ
|
| 1269 |
+
khích
|
| 1270 |
+
bền
|
| 1271 |
+
khô
|
| 1272 |
+
dụ
|
| 1273 |
+
duyệt
|
| 1274 |
+
phức
|
| 1275 |
+
sàn
|
| 1276 |
+
sổ
|
| 1277 |
+
khen
|
| 1278 |
+
chúc
|
| 1279 |
+
thầu
|
| 1280 |
+
non
|
| 1281 |
+
thuý
|
| 1282 |
+
dâu
|
| 1283 |
+
bá
|
| 1284 |
+
tuỳ
|
| 1285 |
+
nai
|
| 1286 |
+
khuôn
|
| 1287 |
+
le
|
| 1288 |
+
bia
|
| 1289 |
+
dữ
|
| 1290 |
+
hiếm
|
| 1291 |
+
đãi
|
| 1292 |
+
ôm
|
| 1293 |
+
tật
|
| 1294 |
+
làn
|
| 1295 |
+
tiêm
|
| 1296 |
+
trông
|
| 1297 |
+
bốn
|
| 1298 |
+
điển
|
| 1299 |
+
lỗ
|
| 1300 |
+
gỡ
|
| 1301 |
+
kín
|
| 1302 |
+
trứng
|
| 1303 |
+
phán
|
| 1304 |
+
mềm
|
| 1305 |
+
tú
|
| 1306 |
+
dâm
|
| 1307 |
+
dày
|
| 1308 |
+
thập
|
| 1309 |
+
chăn
|
| 1310 |
+
bối
|
| 1311 |
+
ngừng
|
| 1312 |
+
rẻ
|
| 1313 |
+
thiểu
|
| 1314 |
+
nhắn
|
| 1315 |
+
nhảy
|
| 1316 |
+
dứt
|
| 1317 |
+
tổn
|
| 1318 |
+
phấn
|
| 1319 |
+
rào
|
| 1320 |
+
quỳnh
|
| 1321 |
+
góc
|
| 1322 |
+
táo
|
| 1323 |
+
ống
|
| 1324 |
+
mệt
|
| 1325 |
+
mạc
|
| 1326 |
+
dậy
|
| 1327 |
+
nhánh
|
| 1328 |
+
chạm
|
| 1329 |
+
mát
|
| 1330 |
+
hư
|
| 1331 |
+
nét
|
| 1332 |
+
gan
|
| 1333 |
+
căng
|
| 1334 |
+
lô
|
| 1335 |
+
kho
|
| 1336 |
+
hẳn
|
| 1337 |
+
thùng
|
| 1338 |
+
toả
|
| 1339 |
+
tiềm
|
| 1340 |
+
bột
|
| 1341 |
+
thang
|
| 1342 |
+
đồn
|
| 1343 |
+
cụm
|
| 1344 |
+
hỏng
|
| 1345 |
+
đam
|
| 1346 |
+
hảo
|
| 1347 |
+
khuyên
|
| 1348 |
+
rửa
|
| 1349 |
+
khoán
|
| 1350 |
+
tràn
|
| 1351 |
+
xinh
|
| 1352 |
+
tung
|
| 1353 |
+
van
|
| 1354 |
+
hô
|
| 1355 |
+
thù
|
| 1356 |
+
ẩn
|
| 1357 |
+
ghế
|
| 1358 |
+
thổ
|
| 1359 |
+
rà
|
| 1360 |
+
bó
|
| 1361 |
+
tông
|
| 1362 |
+
chẽ
|
| 1363 |
+
bếp
|
| 1364 |
+
đáo
|
| 1365 |
+
đấy
|
| 1366 |
+
trịnh
|
| 1367 |
+
doạ
|
| 1368 |
+
tụ
|
| 1369 |
+
tháo
|
| 1370 |
+
trữ
|
| 1371 |
+
lãng
|
| 1372 |
+
tắm
|
| 1373 |
+
cãi
|
| 1374 |
+
xưa
|
| 1375 |
+
lúa
|
| 1376 |
+
mưu
|
| 1377 |
+
tôm
|
| 1378 |
+
ngoái
|
| 1379 |
+
canh
|
| 1380 |
+
hứa
|
| 1381 |
+
ái
|
| 1382 |
+
lắp
|
| 1383 |
+
thạch
|
| 1384 |
+
sắm
|
| 1385 |
+
xứ
|
| 1386 |
+
trầm
|
| 1387 |
+
mỏi
|
| 1388 |
+
loan
|
| 1389 |
+
bổng
|
| 1390 |
+
cựu
|
| 1391 |
+
đỉnh
|
| 1392 |
+
bắn
|
| 1393 |
+
cai
|
| 1394 |
+
tán
|
| 1395 |
+
đua
|
| 1396 |
+
thịnh
|
| 1397 |
+
xâm
|
| 1398 |
+
thảm
|
| 1399 |
+
tốn
|
| 1400 |
+
mỡ
|
| 1401 |
+
thự
|
| 1402 |
+
hộp
|
| 1403 |
+
tran
|
| 1404 |
+
ẩm
|
| 1405 |
+
thép
|
| 1406 |
+
tiếc
|
| 1407 |
+
tam
|
| 1408 |
+
yến
|
| 1409 |
+
trào
|
| 1410 |
+
bù
|
| 1411 |
+
ngưỡng
|
| 1412 |
+
tan
|
| 1413 |
+
răng
|
| 1414 |
+
nàng
|
| 1415 |
+
nhãn
|
| 1416 |
+
khiếu
|
| 1417 |
+
hoảng
|
| 1418 |
+
mực
|
| 1419 |
+
giấu
|
| 1420 |
+
chối
|
| 1421 |
+
loài
|
| 1422 |
+
tàng
|
| 1423 |
+
cống
|
| 1424 |
+
chùa
|
| 1425 |
+
đền
|
| 1426 |
+
cổng
|
| 1427 |
+
chốt
|
| 1428 |
+
hoan
|
| 1429 |
+
lọc
|
| 1430 |
+
hoả
|
| 1431 |
+
giường
|
| 1432 |
+
hầm
|
| 1433 |
+
my
|
| 1434 |
+
cột
|
| 1435 |
+
bốc
|
| 1436 |
+
chín
|
| 1437 |
+
điệu
|
| 1438 |
+
đắt
|
| 1439 |
+
than
|
| 1440 |
+
thuẫn
|
| 1441 |
+
ro
|
| 1442 |
+
đe
|
| 1443 |
+
thạnh
|
| 1444 |
+
gợi
|
| 1445 |
+
rủi
|
| 1446 |
+
thơm
|
| 1447 |
+
niêm
|
| 1448 |
+
va
|
| 1449 |
+
mâu
|
| 1450 |
+
vũng
|
| 1451 |
+
củ
|
| 1452 |
+
dạ
|
| 1453 |
+
khống
|
| 1454 |
+
hồn
|
| 1455 |
+
thói
|
| 1456 |
+
sôi
|
| 1457 |
+
ven
|
| 1458 |
+
lưới
|
| 1459 |
+
trích
|
| 1460 |
+
tháp
|
| 1461 |
+
cản
|
| 1462 |
+
lang
|
| 1463 |
+
miếng
|
| 1464 |
+
cất
|
| 1465 |
+
lặng
|
| 1466 |
+
đạp
|
| 1467 |
+
điệp
|
| 1468 |
+
đốt
|
| 1469 |
+
pha
|
| 1470 |
+
bạo
|
| 1471 |
+
vỏ
|
| 1472 |
+
mầm
|
| 1473 |
+
khung
|
| 1474 |
+
cắp
|
| 1475 |
+
thờ
|
| 1476 |
+
treo
|
| 1477 |
+
huống
|
| 1478 |
+
chừng
|
| 1479 |
+
oan
|
| 1480 |
+
vả
|
| 1481 |
+
trọ
|
| 1482 |
+
lãm
|
| 1483 |
+
thoải
|
| 1484 |
+
lệch
|
| 1485 |
+
ấp
|
| 1486 |
+
lưng
|
| 1487 |
+
co
|
| 1488 |
+
bơi
|
| 1489 |
+
u
|
| 1490 |
+
ân
|
| 1491 |
+
mảnh
|
| 1492 |
+
ghép
|
| 1493 |
+
dàn
|
| 1494 |
+
lợn
|
| 1495 |
+
chai
|
| 1496 |
+
giấc
|
| 1497 |
+
cờ
|
| 1498 |
+
cẩm
|
| 1499 |
+
thua
|
| 1500 |
+
giáp
|
| 1501 |
+
xả
|
| 1502 |
+
đắk
|
| 1503 |
+
muối
|
| 1504 |
+
khuẩn
|
| 1505 |
+
váy
|
| 1506 |
+
lít
|
| 1507 |
+
huấn
|
| 1508 |
+
chủng
|
| 1509 |
+
trôi
|
| 1510 |
+
say
|
| 1511 |
+
heo
|
| 1512 |
+
ngực
|
| 1513 |
+
hối
|
| 1514 |
+
mau
|
| 1515 |
+
vẽ
|
| 1516 |
+
hâm
|
| 1517 |
+
ngừa
|
| 1518 |
+
khoe
|
| 1519 |
+
vất
|
| 1520 |
+
bỏng
|
| 1521 |
+
bớt
|
| 1522 |
+
i
|
| 1523 |
+
tuyết
|
| 1524 |
+
bận
|
| 1525 |
+
sót
|
| 1526 |
+
bát
|
| 1527 |
+
phỏng
|
| 1528 |
+
bông
|
| 1529 |
+
bang
|
| 1530 |
+
tuân
|
| 1531 |
+
lò
|
| 1532 |
+
che
|
| 1533 |
+
khát
|
| 1534 |
+
chém
|
| 1535 |
+
đậm
|
| 1536 |
+
bại
|
| 1537 |
+
tiệc
|
| 1538 |
+
nhịp
|
| 1539 |
+
mệnh
|
| 1540 |
+
đống
|
| 1541 |
+
mặn
|
| 1542 |
+
săn
|
| 1543 |
+
bích
|
| 1544 |
+
đo
|
| 1545 |
+
mây
|
| 1546 |
+
móc
|
| 1547 |
+
xứng
|
| 1548 |
+
hong
|
| 1549 |
+
viễn
|
| 1550 |
+
chua
|
| 1551 |
+
thả
|
| 1552 |
+
lam
|
| 1553 |
+
đẻ
|
| 1554 |
+
cứng
|
| 1555 |
+
sáu
|
| 1556 |
+
mì
|
| 1557 |
+
xoá
|
| 1558 |
+
vắng
|
| 1559 |
+
mãn
|
| 1560 |
+
triều
|
| 1561 |
+
cốt
|
| 1562 |
+
su
|
| 1563 |
+
giây
|
| 1564 |
+
nhung
|
| 1565 |
+
chó
|
| 1566 |
+
tiệm
|
| 1567 |
+
tròn
|
| 1568 |
+
khâu
|
| 1569 |
+
lậu
|
| 1570 |
+
chuỗi
|
| 1571 |
+
kiệt
|
| 1572 |
+
bám
|
| 1573 |
+
lạm
|
| 1574 |
+
bom
|
| 1575 |
+
bê
|
| 1576 |
+
trân
|
| 1577 |
+
hưu
|
| 1578 |
+
vải
|
| 1579 |
+
trăng
|
| 1580 |
+
đựng
|
| 1581 |
+
dọc
|
| 1582 |
+
gánh
|
| 1583 |
+
cỏ
|
| 1584 |
+
thuỳ
|
| 1585 |
+
nghiện
|
| 1586 |
+
vở
|
| 1587 |
+
đắc
|
| 1588 |
+
ngộ
|
| 1589 |
+
tre
|
| 1590 |
+
nở
|
| 1591 |
+
ngãi
|
| 1592 |
+
cẩn
|
| 1593 |
+
vĩ
|
| 1594 |
+
lầm
|
| 1595 |
+
tả
|
| 1596 |
+
trục
|
| 1597 |
+
dọn
|
| 1598 |
+
vội
|
| 1599 |
+
thiệp
|
| 1600 |
+
đai
|
| 1601 |
+
triệt
|
| 1602 |
+
sốc
|
| 1603 |
+
liêm
|
| 1604 |
+
mượn
|
| 1605 |
+
tắt
|
| 1606 |
+
tu
|
| 1607 |
+
bách
|
| 1608 |
+
truyện
|
| 1609 |
+
trống
|
| 1610 |
+
bọn
|
| 1611 |
+
cú
|
| 1612 |
+
phượng
|
| 1613 |
+
dưa
|
| 1614 |
+
ngõ
|
| 1615 |
+
tủ
|
| 1616 |
+
dập
|
| 1617 |
+
muộn
|
| 1618 |
+
vời
|
| 1619 |
+
chẩn
|
| 1620 |
+
buýt
|
| 1621 |
+
huệ
|
| 1622 |
+
vu
|
| 1623 |
+
ùn
|
| 1624 |
+
tụng
|
| 1625 |
+
mét
|
| 1626 |
+
vang
|
| 1627 |
+
tiễn
|
| 1628 |
+
yết
|
| 1629 |
+
gọn
|
| 1630 |
+
sập
|
| 1631 |
+
nại
|
| 1632 |
+
chim
|
| 1633 |
+
hôi
|
| 1634 |
+
phổi
|
| 1635 |
+
thuỵ
|
| 1636 |
+
xô
|
| 1637 |
+
nhàng
|
| 1638 |
+
vẹn
|
| 1639 |
+
vua
|
| 1640 |
+
giận
|
| 1641 |
+
chìm
|
| 1642 |
+
nhựa
|
| 1643 |
+
dường
|
| 1644 |
+
rạng
|
| 1645 |
+
ngọn
|
| 1646 |
+
chinh
|
| 1647 |
+
lở
|
| 1648 |
+
nề
|
| 1649 |
+
ngầm
|
| 1650 |
+
trộn
|
| 1651 |
+
pháo
|
| 1652 |
+
lân
|
| 1653 |
+
nhan
|
| 1654 |
+
tha
|
| 1655 |
+
nhậu
|
| 1656 |
+
nồng
|
| 1657 |
+
thợ
|
| 1658 |
+
pham
|
| 1659 |
+
trọn
|
| 1660 |
+
lăng
|
| 1661 |
+
thưa
|
| 1662 |
+
khuyết
|
| 1663 |
+
sánh
|
| 1664 |
+
mắm
|
| 1665 |
+
nhầm
|
| 1666 |
+
đạn
|
| 1667 |
+
chênh
|
| 1668 |
+
bảy
|
| 1669 |
+
lọt
|
| 1670 |
+
khôi
|
| 1671 |
+
xoay
|
| 1672 |
+
nụ
|
| 1673 |
+
hang
|
| 1674 |
+
toạ
|
| 1675 |
+
tách
|
| 1676 |
+
vướng
|
| 1677 |
+
múa
|
| 1678 |
+
bi
|
| 1679 |
+
e
|
| 1680 |
+
lão
|
| 1681 |
+
kì
|
| 1682 |
+
gò
|
| 1683 |
+
hi
|
| 1684 |
+
giày
|
| 1685 |
+
hẹp
|
| 1686 |
+
kẹt
|
| 1687 |
+
ốc
|
| 1688 |
+
ảo
|
| 1689 |
+
đắp
|
| 1690 |
+
dính
|
| 1691 |
+
nén
|
| 1692 |
+
ác
|
| 1693 |
+
hiển
|
| 1694 |
+
bề
|
| 1695 |
+
lồng
|
| 1696 |
+
mốc
|
| 1697 |
+
móng
|
| 1698 |
+
mạn
|
| 1699 |
+
ức
|
| 1700 |
+
suối
|
| 1701 |
+
uý
|
| 1702 |
+
lí
|
| 1703 |
+
cưỡng
|
| 1704 |
+
nướng
|
| 1705 |
+
bụi
|
| 1706 |
+
khói
|
| 1707 |
+
đói
|
| 1708 |
+
dĩ
|
| 1709 |
+
kiêm
|
| 1710 |
+
mến
|
| 1711 |
+
nhơn
|
| 1712 |
+
tuệ
|
| 1713 |
+
mù
|
| 1714 |
+
đeo
|
| 1715 |
+
khớp
|
| 1716 |
+
gãy
|
| 1717 |
+
vạn
|
| 1718 |
+
thước
|
| 1719 |
+
lấn
|
| 1720 |
+
trắc
|
| 1721 |
+
rèn
|
| 1722 |
+
xách
|
| 1723 |
+
điền
|
| 1724 |
+
mạo
|
| 1725 |
+
bơm
|
| 1726 |
+
sen
|
| 1727 |
+
phu
|
| 1728 |
+
khoáng
|
| 1729 |
+
gìn
|
| 1730 |
+
tàn
|
| 1731 |
+
nhạy
|
| 1732 |
+
nhượng
|
| 1733 |
+
nhẫn
|
| 1734 |
+
chán
|
| 1735 |
+
đớn
|
| 1736 |
+
lạng
|
| 1737 |
+
leo
|
| 1738 |
+
xá
|
| 1739 |
+
tráng
|
| 1740 |
+
ném
|
| 1741 |
+
thoái
|
| 1742 |
+
soạn
|
| 1743 |
+
nảy
|
| 1744 |
+
khê
|
| 1745 |
+
lạt
|
| 1746 |
+
lây
|
| 1747 |
+
thuần
|
| 1748 |
+
hò
|
| 1749 |
+
phật
|
| 1750 |
+
bàng
|
| 1751 |
+
com
|
| 1752 |
+
dỡ
|
| 1753 |
+
diệt
|
| 1754 |
+
ruộng
|
| 1755 |
+
diệu
|
| 1756 |
+
rạp
|
| 1757 |
+
phùng
|
| 1758 |
+
đĩa
|
| 1759 |
+
thô
|
| 1760 |
+
thắc
|
| 1761 |
+
tám
|
| 1762 |
+
tràng
|
| 1763 |
+
hổ
|
| 1764 |
+
quyên
|
| 1765 |
+
rét
|
| 1766 |
+
đành
|
| 1767 |
+
tảng
|
| 1768 |
+
thánh
|
| 1769 |
+
thuy
|
| 1770 |
+
nhé
|
| 1771 |
+
lấp
|
| 1772 |
+
vỉa
|
| 1773 |
+
mồ
|
| 1774 |
+
xạ
|
| 1775 |
+
lứa
|
| 1776 |
+
vươn
|
| 1777 |
+
mày
|
| 1778 |
+
xi
|
| 1779 |
+
sợi
|
| 1780 |
+
nhở
|
| 1781 |
+
bùng
|
| 1782 |
+
liều
|
| 1783 |
+
nguyệt
|
| 1784 |
+
tứ
|
| 1785 |
+
thạc
|
| 1786 |
+
san
|
| 1787 |
+
bế
|
| 1788 |
+
chiêu
|
| 1789 |
+
ám
|
| 1790 |
+
giãn
|
| 1791 |
+
dời
|
| 1792 |
+
mỏ
|
| 1793 |
+
đan
|
| 1794 |
+
dã
|
| 1795 |
+
trâu
|
| 1796 |
+
thoáng
|
| 1797 |
+
oanh
|
| 1798 |
+
son
|
| 1799 |
+
thâm
|
| 1800 |
+
ngắm
|
| 1801 |
+
vịnh
|
| 1802 |
+
út
|
| 1803 |
+
liêu
|
| 1804 |
+
dắt
|
| 1805 |
+
rộn
|
| 1806 |
+
úc
|
| 1807 |
+
xưởng
|
| 1808 |
+
khổng
|
| 1809 |
+
khanh
|
| 1810 |
+
bẩn
|
| 1811 |
+
dông
|
| 1812 |
+
nát
|
| 1813 |
+
ngạc
|
| 1814 |
+
bể
|
| 1815 |
+
khang
|
| 1816 |
+
kem
|
| 1817 |
+
bút
|
| 1818 |
+
phái
|
| 1819 |
+
ôn
|
| 1820 |
+
bón
|
| 1821 |
+
rãi
|
| 1822 |
+
ngoan
|
| 1823 |
+
luồng
|
| 1824 |
+
lông
|
| 1825 |
+
tạ
|
| 1826 |
+
rẫy
|
| 1827 |
+
luân
|
| 1828 |
+
vấp
|
| 1829 |
+
sạt
|
| 1830 |
+
hắn
|
| 1831 |
+
rủ
|
| 1832 |
+
chửi
|
| 1833 |
+
mộc
|
| 1834 |
+
im
|
| 1835 |
+
đằng
|
| 1836 |
+
sâm
|
| 1837 |
+
thoảng
|
| 1838 |
+
nút
|
| 1839 |
+
gũi
|
| 1840 |
+
nấm
|
| 1841 |
+
ngâm
|
| 1842 |
+
lồ
|
| 1843 |
+
bội
|
| 1844 |
+
dừa
|
| 1845 |
+
chúa
|
| 1846 |
+
cua
|
| 1847 |
+
măng
|
| 1848 |
+
xơ
|
| 1849 |
+
quế
|
| 1850 |
+
củng
|
| 1851 |
+
o
|
| 1852 |
+
quyến
|
| 1853 |
+
mũ
|
| 1854 |
+
mảng
|
| 1855 |
+
chả
|
| 1856 |
+
ngào
|
| 1857 |
+
tím
|
| 1858 |
+
gom
|
| 1859 |
+
ốm
|
| 1860 |
+
đầm
|
| 1861 |
+
khơi
|
| 1862 |
+
băn
|
| 1863 |
+
men
|
| 1864 |
+
vây
|
| 1865 |
+
địch
|
| 1866 |
+
khoăn
|
| 1867 |
+
sưu
|
| 1868 |
+
hụt
|
| 1869 |
+
lắk
|
| 1870 |
+
bồ
|
| 1871 |
+
dở
|
| 1872 |
+
bì
|
| 1873 |
+
trượt
|
| 1874 |
+
đùa
|
| 1875 |
+
ngạch
|
| 1876 |
+
dốc
|
| 1877 |
+
nhã
|
| 1878 |
+
gạch
|
| 1879 |
+
man
|
| 1880 |
+
mông
|
| 1881 |
+
bái
|
| 1882 |
+
bỗng
|
| 1883 |
+
soi
|
| 1884 |
+
mười
|
| 1885 |
+
khứ
|
| 1886 |
+
sương
|
| 1887 |
+
rũ
|
| 1888 |
+
khéo
|
| 1889 |
+
dồn
|
| 1890 |
+
lộn
|
| 1891 |
+
diễm
|
| 1892 |
+
lỏng
|
| 1893 |
+
khoảnh
|
| 1894 |
+
ổ
|
| 1895 |
+
cỡ
|
| 1896 |
+
gối
|
| 1897 |
+
manh
|
| 1898 |
+
ngơi
|
| 1899 |
+
cước
|
| 1900 |
+
bún
|
| 1901 |
+
hán
|
| 1902 |
+
hòn
|
| 1903 |
+
côn
|
| 1904 |
+
màng
|
| 1905 |
+
dâng
|
| 1906 |
+
ơi
|
| 1907 |
+
hận
|
| 1908 |
+
mẻ
|
| 1909 |
+
hở
|
| 1910 |
+
tựu
|
| 1911 |
+
dạo
|
| 1912 |
+
ngột
|
| 1913 |
+
hiếp
|
| 1914 |
+
hỗn
|
| 1915 |
+
lính
|
| 1916 |
+
thắn
|
| 1917 |
+
thắt
|
| 1918 |
+
trùm
|
| 1919 |
+
cay
|
| 1920 |
+
luỹ
|
| 1921 |
+
chanh
|
| 1922 |
+
đạm
|
| 1923 |
+
đồi
|
| 1924 |
+
ranh
|
| 1925 |
+
xao
|
| 1926 |
+
tạng
|
| 1927 |
+
chuột
|
| 1928 |
+
bọc
|
| 1929 |
+
ưa
|
| 1930 |
+
hố
|
| 1931 |
+
thầm
|
| 1932 |
+
voi
|
| 1933 |
+
cốc
|
| 1934 |
+
thấu
|
| 1935 |
+
mọc
|
| 1936 |
+
rể
|
| 1937 |
+
nhát
|
| 1938 |
+
ngón
|
| 1939 |
+
nhì
|
| 1940 |
+
sụt
|
| 1941 |
+
dịu
|
| 1942 |
+
dang
|
| 1943 |
+
phiền
|
| 1944 |
+
rạch
|
| 1945 |
+
thằng
|
| 1946 |
+
rắn
|
| 1947 |
+
lôi
|
| 1948 |
+
rỡ
|
| 1949 |
+
gắt
|
| 1950 |
+
xông
|
| 1951 |
+
ghen
|
| 1952 |
+
tê
|
| 1953 |
+
hoại
|
| 1954 |
+
đứt
|
| 1955 |
+
mò
|
| 1956 |
+
bắp
|
| 1957 |
+
nhí
|
| 1958 |
+
mờ
|
| 1959 |
+
chuyền
|
| 1960 |
+
dệt
|
| 1961 |
+
hãi
|
| 1962 |
+
má
|
| 1963 |
+
cắm
|
| 1964 |
+
nồi
|
| 1965 |
+
dối
|
| 1966 |
+
rải
|
| 1967 |
+
ớt
|
| 1968 |
+
ham
|
| 1969 |
+
chè
|
| 1970 |
+
cúng
|
| 1971 |
+
phụng
|
| 1972 |
+
nôn
|
| 1973 |
+
xót
|
| 1974 |
+
ngợi
|
| 1975 |
+
khoai
|
| 1976 |
+
chuối
|
| 1977 |
+
vành
|
| 1978 |
+
hoành
|
| 1979 |
+
nhặt
|
| 1980 |
+
nhĩ
|
| 1981 |
+
dò
|
| 1982 |
+
đán
|
| 1983 |
+
cám
|
| 1984 |
+
trạch
|
| 1985 |
+
na
|
| 1986 |
+
lùi
|
| 1987 |
+
chê
|
| 1988 |
+
chôn
|
| 1989 |
+
lề
|
| 1990 |
+
cạn
|
| 1991 |
+
nếp
|
| 1992 |
+
đới
|
| 1993 |
+
đuôi
|
| 1994 |
+
dội
|
| 1995 |
+
vy
|
| 1996 |
+
đáy
|
| 1997 |
+
hân
|
| 1998 |
+
bưu
|
| 1999 |
+
rồng
|
| 2000 |
+
nho
|
| 2001 |
+
ồn
|
| 2002 |
+
no
|
| 2003 |
+
kíp
|
| 2004 |
+
mộng
|
| 2005 |
+
khe
|
| 2006 |
+
nhiếp
|
| 2007 |
+
mỏng
|
| 2008 |
+
kĩ
|
| 2009 |
+
nã
|
| 2010 |
+
ong
|
| 2011 |
+
lật
|
| 2012 |
+
lường
|
| 2013 |
+
giáng
|
| 2014 |
+
uyên
|
| 2015 |
+
ạ
|
| 2016 |
+
phun
|
| 2017 |
+
vắc
|
| 2018 |
+
xích
|
| 2019 |
+
vịt
|
| 2020 |
+
thỉnh
|
| 2021 |
+
khải
|
| 2022 |
+
cự
|
| 2023 |
+
dán
|
| 2024 |
+
quãng
|
| 2025 |
+
đúc
|
| 2026 |
+
hước
|
| 2027 |
+
phế
|
| 2028 |
+
lát
|
| 2029 |
+
hái
|
| 2030 |
+
lưỡng
|
| 2031 |
+
lăn
|
| 2032 |
+
cởi
|
| 2033 |
+
vú
|
| 2034 |
+
tẩy
|
| 2035 |
+
ao
|
| 2036 |
+
bưởi
|
| 2037 |
+
be
|
| 2038 |
+
vóc
|
| 2039 |
+
quét
|
| 2040 |
+
vã
|
| 2041 |
+
buồng
|
| 2042 |
+
hoãn
|
| 2043 |
+
châm
|
| 2044 |
+
chặng
|
| 2045 |
+
cửu
|
| 2046 |
+
xát
|
| 2047 |
+
tần
|
| 2048 |
+
gã
|
| 2049 |
+
rịa
|
| 2050 |
+
cồn
|
| 2051 |
+
mi
|
| 2052 |
+
cậy
|
| 2053 |
+
cúc
|
| 2054 |
+
bồn
|
| 2055 |
+
lắc
|
| 2056 |
+
khoan
|
| 2057 |
+
thấm
|
| 2058 |
+
ghé
|
| 2059 |
+
buông
|
| 2060 |
+
nhạt
|
| 2061 |
+
đế
|
| 2062 |
+
dan
|
| 2063 |
+
vớt
|
| 2064 |
+
xà
|
| 2065 |
+
phở
|
| 2066 |
+
chuộng
|
| 2067 |
+
dẹp
|
| 2068 |
+
vặt
|
| 2069 |
+
chiên
|
| 2070 |
+
chậu
|
| 2071 |
+
gục
|
| 2072 |
+
gay
|
| 2073 |
+
điên
|
| 2074 |
+
chật
|
| 2075 |
+
lùng
|
| 2076 |
+
rực
|
| 2077 |
+
xôi
|
| 2078 |
+
khiêm
|
| 2079 |
+
lặn
|
| 2080 |
+
ngất
|
| 2081 |
+
giọt
|
| 2082 |
+
chép
|
| 2083 |
+
giặt
|
| 2084 |
+
vượng
|
| 2085 |
+
chăng
|
| 2086 |
+
đôn
|
| 2087 |
+
kẹo
|
| 2088 |
+
khép
|
| 2089 |
+
láng
|
| 2090 |
+
kí
|
| 2091 |
+
đọng
|
| 2092 |
+
dại
|
| 2093 |
+
đạc
|
| 2094 |
+
quái
|
| 2095 |
+
lụt
|
| 2096 |
+
đắn
|
| 2097 |
+
trễ
|
| 2098 |
+
cong
|
| 2099 |
+
kề
|
| 2100 |
+
xôn
|
| 2101 |
+
muỗi
|
| 2102 |
+
bộc
|
| 2103 |
+
dải
|
| 2104 |
+
ngưng
|
| 2105 |
+
thổi
|
| 2106 |
+
lỡ
|
| 2107 |
+
tỏi
|
| 2108 |
+
cáp
|
| 2109 |
+
phơi
|
| 2110 |
+
họng
|
| 2111 |
+
ào
|
| 2112 |
+
xỉ
|
| 2113 |
+
vứt
|
| 2114 |
+
bấy
|
| 2115 |
+
rắc
|
| 2116 |
+
cọc
|
| 2117 |
+
tui
|
| 2118 |
+
huân
|
| 2119 |
+
gác
|
| 2120 |
+
cóc
|
| 2121 |
+
hẻm
|
| 2122 |
+
ngựa
|
| 2123 |
+
giếng
|
| 2124 |
+
trăn
|
| 2125 |
+
nứt
|
| 2126 |
+
tưới
|
| 2127 |
+
cháo
|
| 2128 |
+
nốt
|
| 2129 |
+
tống
|
| 2130 |
+
dỗ
|
| 2131 |
+
khuất
|
| 2132 |
+
lữ
|
| 2133 |
+
mùng
|
| 2134 |
+
cành
|
| 2135 |
+
đuối
|
| 2136 |
+
qui
|
| 2137 |
+
sếp
|
| 2138 |
+
lận
|
| 2139 |
+
cẩu
|
| 2140 |
+
khuê
|
| 2141 |
+
văng
|
| 2142 |
+
khôn
|
| 2143 |
+
lau
|
| 2144 |
+
lốc
|
| 2145 |
+
khương
|
| 2146 |
+
mụn
|
| 2147 |
+
sướng
|
| 2148 |
+
quầy
|
| 2149 |
+
nhục
|
| 2150 |
+
quát
|
| 2151 |
+
diệp
|
| 2152 |
+
chui
|
| 2153 |
+
bấm
|
| 2154 |
+
giàn
|
| 2155 |
+
chen
|
| 2156 |
+
hóc
|
| 2157 |
+
cắn
|
| 2158 |
+
rẽ
|
| 2159 |
+
ê
|
| 2160 |
+
lơ
|
| 2161 |
+
trội
|
| 2162 |
+
thắm
|
| 2163 |
+
sáp
|
| 2164 |
+
khái
|
| 2165 |
+
dãy
|
| 2166 |
+
lội
|
| 2167 |
+
nhàn
|
| 2168 |
+
dặn
|
| 2169 |
+
đùi
|
| 2170 |
+
đếm
|
| 2171 |
+
me
|
| 2172 |
+
khuya
|
| 2173 |
+
nhị
|
| 2174 |
+
thối
|
| 2175 |
+
táng
|
| 2176 |
+
chiết
|
| 2177 |
+
lặp
|
| 2178 |
+
đắng
|
| 2179 |
+
kon
|
| 2180 |
+
bùn
|
| 2181 |
+
mòn
|
| 2182 |
+
nương
|
| 2183 |
+
cò
|
| 2184 |
+
pa
|
| 2185 |
+
mèo
|
| 2186 |
+
lưỡi
|
| 2187 |
+
ập
|
| 2188 |
+
khoái
|
| 2189 |
+
súc
|
| 2190 |
+
ngỡ
|
| 2191 |
+
sút
|
| 2192 |
+
bôi
|
| 2193 |
+
phì
|
| 2194 |
+
trâm
|
| 2195 |
+
đê
|
| 2196 |
+
xí
|
| 2197 |
+
thiêng
|
| 2198 |
+
hét
|
| 2199 |
+
lạp
|
| 2200 |
+
tóm
|
| 2201 |
+
xoài
|
| 2202 |
+
rong
|
| 2203 |
+
nghiêng
|
| 2204 |
+
túng
|
| 2205 |
+
mường
|
| 2206 |
+
tao
|
| 2207 |
+
gián
|
| 2208 |
+
đè
|
| 2209 |
+
khoác
|
| 2210 |
+
tum
|
| 2211 |
+
loa
|
| 2212 |
+
thắp
|
| 2213 |
+
dai
|
| 2214 |
+
đoan
|
| 2215 |
+
sọ
|
| 2216 |
+
nghịch
|
| 2217 |
+
léo
|
| 2218 |
+
xào
|
| 2219 |
+
lách
|
| 2220 |
+
dồi
|
| 2221 |
+
xen
|
| 2222 |
+
đặn
|
| 2223 |
+
mắng
|
| 2224 |
+
khao
|
| 2225 |
+
mác
|
| 2226 |
+
tò
|
| 2227 |
+
đính
|
| 2228 |
+
chay
|
| 2229 |
+
bỉ
|
| 2230 |
+
xì
|
| 2231 |
+
luộc
|
| 2232 |
+
bóc
|
| 2233 |
+
nhức
|
| 2234 |
+
nhắm
|
| 2235 |
+
rao
|
| 2236 |
+
dạn
|
| 2237 |
+
chèo
|
| 2238 |
+
nhường
|
| 2239 |
+
vo
|
| 2240 |
+
mía
|
| 2241 |
+
cuồng
|
| 2242 |
+
bẫy
|
| 2243 |
+
chau
|
| 2244 |
+
tấu
|
| 2245 |
+
sụp
|
| 2246 |
+
nạp
|
| 2247 |
+
chén
|
| 2248 |
+
bóp
|
| 2249 |
+
ướt
|
| 2250 |
+
đèo
|
| 2251 |
+
thám
|
| 2252 |
+
thiêu
|
| 2253 |
+
cấy
|
| 2254 |
+
hốt
|
| 2255 |
+
bú
|
| 2256 |
+
viếng
|
| 2257 |
+
gấu
|
| 2258 |
+
tước
|
| 2259 |
+
tẩu
|
| 2260 |
+
thèm
|
| 2261 |
+
ghét
|
| 2262 |
+
dong
|
| 2263 |
+
bơ
|
| 2264 |
+
li
|
| 2265 |
+
eo
|
| 2266 |
+
xài
|
| 2267 |
+
báu
|
| 2268 |
+
xổ
|
| 2269 |
+
giông
|
| 2270 |
+
điêu
|
| 2271 |
+
lột
|
| 2272 |
+
kỉ
|
| 2273 |
+
hao
|
| 2274 |
+
thoa
|
| 2275 |
+
tựa
|
| 2276 |
+
nhọn
|
| 2277 |
+
tấp
|
| 2278 |
+
ben
|
| 2279 |
+
ráo
|
| 2280 |
+
lót
|
| 2281 |
+
đệ
|
| 2282 |
+
mẫn
|
| 2283 |
+
rùa
|
| 2284 |
+
bẩm
|
| 2285 |
+
khoang
|
| 2286 |
+
sưng
|
| 2287 |
+
bính
|
| 2288 |
+
kè
|
| 2289 |
+
ngần
|
| 2290 |
+
khan
|
| 2291 |
+
hạch
|
| 2292 |
+
lầu
|
| 2293 |
+
xưng
|
| 2294 |
+
bạt
|
| 2295 |
+
quyển
|
| 2296 |
+
mâm
|
| 2297 |
+
chìa
|
| 2298 |
+
chuồng
|
| 2299 |
+
chiêm
|
| 2300 |
+
xuôi
|
| 2301 |
+
ti
|
| 2302 |
+
choáng
|
| 2303 |
+
tát
|
| 2304 |
+
bướu
|
| 2305 |
+
nghẹn
|
| 2306 |
+
chì
|
| 2307 |
+
đụng
|
| 2308 |
+
tơ
|
| 2309 |
+
bui
|
| 2310 |
+
tia
|
| 2311 |
+
quỵ
|
| 2312 |
+
rộ
|
| 2313 |
+
né
|
| 2314 |
+
dê
|
| 2315 |
+
thửa
|
| 2316 |
+
bực
|
| 2317 |
+
gầy
|
| 2318 |
+
gai
|
| 2319 |
+
đục
|
| 2320 |
+
đệm
|
| 2321 |
+
rung
|
| 2322 |
+
thục
|
| 2323 |
+
ủ
|
| 2324 |
+
gậy
|
| 2325 |
+
giòn
|
| 2326 |
+
xăm
|
| 2327 |
+
chốn
|
| 2328 |
+
mồi
|
| 2329 |
+
đun
|
| 2330 |
+
ngặt
|
| 2331 |
+
sườn
|
| 2332 |
+
liễu
|
| 2333 |
+
dép
|
| 2334 |
+
quất
|
| 2335 |
+
de
|
| 2336 |
+
sành
|
| 2337 |
+
neo
|
| 2338 |
+
ủi
|
| 2339 |
+
ráp
|
| 2340 |
+
nghiệt
|
| 2341 |
+
nành
|
| 2342 |
+
ứ
|
| 2343 |
+
xay
|
| 2344 |
+
rụng
|
| 2345 |
+
nàn
|
| 2346 |
+
ngà
|
| 2347 |
+
gầm
|
| 2348 |
+
thới
|
| 2349 |
+
chiểu
|
| 2350 |
+
à
|
| 2351 |
+
rước
|
| 2352 |
+
rớt
|
| 2353 |
+
hoạn
|
| 2354 |
+
còi
|
| 2355 |
+
kiềm
|
| 2356 |
+
vạch
|
| 2357 |
+
mịn
|
| 2358 |
+
thìa
|
| 2359 |
+
vác
|
| 2360 |
+
lõi
|
| 2361 |
+
nản
|
| 2362 |
+
nhộn
|
| 2363 |
+
hoán
|
| 2364 |
+
nâu
|
| 2365 |
+
quỳ
|
| 2366 |
+
hường
|
| 2367 |
+
tảo
|
| 2368 |
+
nắp
|
| 2369 |
+
rách
|
| 2370 |
+
tom
|
| 2371 |
+
nang
|
| 2372 |
+
ướp
|
| 2373 |
+
phanh
|
| 2374 |
+
thản
|
| 2375 |
+
sầm
|
| 2376 |
+
nới
|
| 2377 |
+
bới
|
| 2378 |
+
khốc
|
| 2379 |
+
tụi
|
| 2380 |
+
vuông
|
| 2381 |
+
chưng
|
| 2382 |
+
bạ
|
| 2383 |
+
nan
|
| 2384 |
+
lọ
|
| 2385 |
+
nhịn
|
| 2386 |
+
đòn
|
| 2387 |
+
siết
|
| 2388 |
+
dẻo
|
| 2389 |
+
nghênh
|
| 2390 |
+
thòi
|
| 2391 |
+
mập
|
| 2392 |
+
khiếp
|
| 2393 |
+
ngài
|
| 2394 |
+
khỉ
|
| 2395 |
+
triết
|
| 2396 |
+
toa
|
| 2397 |
+
tuyền
|
| 2398 |
+
tịnh
|
| 2399 |
+
trơn
|
| 2400 |
+
sỏi
|
| 2401 |
+
ngo
|
| 2402 |
+
nô
|
| 2403 |
+
ồ
|
| 2404 |
+
quạt
|
| 2405 |
+
nhăn
|
| 2406 |
+
tho
|
| 2407 |
+
run
|
| 2408 |
+
ngậm
|
| 2409 |
+
han
|
| 2410 |
+
xẻ
|
| 2411 |
+
vòi
|
| 2412 |
+
thuyên
|
| 2413 |
+
pin
|
| 2414 |
+
hấu
|
| 2415 |
+
cù
|
| 2416 |
+
nọ
|
| 2417 |
+
gạt
|
| 2418 |
+
lún
|
| 2419 |
+
toan
|
| 2420 |
+
rốt
|
| 2421 |
+
hoi
|
| 2422 |
+
nấy
|
| 2423 |
+
kiêng
|
| 2424 |
+
ngạt
|
| 2425 |
+
dưng
|
| 2426 |
+
rệt
|
| 2427 |
+
rỉ
|
| 2428 |
+
tà
|
| 2429 |
+
tụt
|
| 2430 |
+
khiêu
|
| 2431 |
+
chuông
|
| 2432 |
+
tí
|
| 2433 |
+
nhược
|
| 2434 |
+
lui
|
| 2435 |
+
quách
|
| 2436 |
+
bong
|
| 2437 |
+
bìa
|
| 2438 |
+
mí
|
| 2439 |
+
thính
|
| 2440 |
+
râu
|
| 2441 |
+
thiều
|
| 2442 |
+
mài
|
| 2443 |
+
xắn
|
| 2444 |
+
nức
|
| 2445 |
+
xướng
|
| 2446 |
+
đắm
|
| 2447 |
+
thon
|
| 2448 |
+
háo
|
| 2449 |
+
êm
|
| 2450 |
+
bã
|
| 2451 |
+
thuột
|
| 2452 |
+
khốn
|
| 2453 |
+
vỗ
|
| 2454 |
+
sẹo
|
| 2455 |
+
quynh
|
| 2456 |
+
náo
|
| 2457 |
+
nuốt
|
| 2458 |
+
răn
|
| 2459 |
+
sun
|
| 2460 |
+
ròng
|
| 2461 |
+
côi
|
| 2462 |
+
lung
|
| 2463 |
+
rang
|
| 2464 |
+
nuối
|
| 2465 |
+
vọt
|
| 2466 |
+
ve
|
| 2467 |
+
óc
|
| 2468 |
+
bịt
|
| 2469 |
+
xoáy
|
| 2470 |
+
cúm
|
| 2471 |
+
nhủ
|
| 2472 |
+
cưng
|
| 2473 |
+
tồi
|
| 2474 |
+
thốn
|
| 2475 |
+
khoả
|
| 2476 |
+
cài
|
| 2477 |
+
doãn
|
| 2478 |
+
giò
|
| 2479 |
+
chích
|
| 2480 |
+
quật
|
| 2481 |
+
rễ
|
| 2482 |
+
tem
|
| 2483 |
+
lánh
|
| 2484 |
+
hanh
|
| 2485 |
+
biếu
|
| 2486 |
+
khía
|
| 2487 |
+
lẩn
|
| 2488 |
+
ạt
|
| 2489 |
+
ngây
|
| 2490 |
+
liêng
|
| 2491 |
+
lụa
|
| 2492 |
+
xoa
|
| 2493 |
+
nhuộm
|
| 2494 |
+
doan
|
| 2495 |
+
rảnh
|
| 2496 |
+
ki
|
| 2497 |
+
hít
|
| 2498 |
+
gừng
|
| 2499 |
+
ngẫu
|
| 2500 |
+
trêu
|
| 2501 |
+
ngỏ
|
| 2502 |
+
miếu
|
| 2503 |
+
ngứa
|
| 2504 |
+
lũng
|
| 2505 |
+
chọc
|
| 2506 |
+
nhồi
|
| 2507 |
+
mươi
|
| 2508 |
+
diễu
|
| 2509 |
+
rụi
|
| 2510 |
+
sét
|
| 2511 |
+
mít
|
| 2512 |
+
tòng
|
| 2513 |
+
sầu
|
| 2514 |
+
hông
|
| 2515 |
+
keo
|
| 2516 |
+
lộng
|
| 2517 |
+
nêm
|
| 2518 |
+
quấy
|
| 2519 |
+
hức
|
| 2520 |
+
khiếm
|
| 2521 |
+
dì
|
| 2522 |
+
chọi
|
| 2523 |
+
chải
|
| 2524 |
+
vách
|
| 2525 |
+
thủng
|
| 2526 |
+
đàng
|
| 2527 |
+
sim
|
| 2528 |
+
đũa
|
| 2529 |
+
vắt
|
| 2530 |
+
cớ
|
| 2531 |
+
cày
|
| 2532 |
+
thốt
|
| 2533 |
+
phẳng
|
| 2534 |
+
dào
|
| 2535 |
+
trừng
|
| 2536 |
+
nhiễu
|
| 2537 |
+
oai
|
| 2538 |
+
cào
|
| 2539 |
+
tặc
|
| 2540 |
+
mạ
|
| 2541 |
+
úng
|
| 2542 |
+
mậu
|
| 2543 |
+
cuộn
|
| 2544 |
+
miện
|
| 2545 |
+
bén
|
| 2546 |
+
vờ
|
| 2547 |
+
ất
|
| 2548 |
+
kha
|
| 2549 |
+
kẽ
|
| 2550 |
+
sam
|
| 2551 |
+
xê
|
| 2552 |
+
nể
|
| 2553 |
+
té
|
| 2554 |
+
bung
|
| 2555 |
+
trãi
|
| 2556 |
+
hé
|
| 2557 |
+
xấp
|
| 2558 |
+
đò
|
| 2559 |
+
mương
|
| 2560 |
+
đu
|
| 2561 |
+
mìn
|
| 2562 |
+
dạt
|
| 2563 |
+
muôn
|
| 2564 |
+
đốn
|
| 2565 |
+
chảo
|
| 2566 |
+
võng
|
| 2567 |
+
miên
|
| 2568 |
+
lén
|
| 2569 |
+
ưng
|
| 2570 |
+
vỹ
|
| 2571 |
+
gặt
|
| 2572 |
+
dầm
|
| 2573 |
+
cọ
|
| 2574 |
+
xé
|
| 2575 |
+
phô
|
| 2576 |
+
rã
|
| 2577 |
+
nám
|
| 2578 |
+
trèo
|
| 2579 |
+
tẩm
|
| 2580 |
+
lười
|
| 2581 |
+
lanh
|
| 2582 |
+
phàn
|
| 2583 |
+
sừng
|
| 2584 |
+
ngàng
|
| 2585 |
+
chéo
|
| 2586 |
+
nhọc
|
| 2587 |
+
nghẽn
|
| 2588 |
+
lóc
|
| 2589 |
+
nhái
|
| 2590 |
+
ván
|
| 2591 |
+
cỗ
|
| 2592 |
+
xịt
|
| 2593 |
+
loét
|
| 2594 |
+
luỵ
|
| 2595 |
+
bồng
|
| 2596 |
+
nóc
|
| 2597 |
+
lẫy
|
| 2598 |
+
cưa
|
| 2599 |
+
nần
|
| 2600 |
+
ghe
|
| 2601 |
+
phác
|
| 2602 |
+
cúi
|
| 2603 |
+
phôi
|
| 2604 |
+
lì
|
| 2605 |
+
gốm
|
| 2606 |
+
ẩu
|
| 2607 |
+
thạo
|
| 2608 |
+
đả
|
| 2609 |
+
ni
|
| 2610 |
+
gang
|
| 2611 |
+
len
|
| 2612 |
+
bênh
|
| 2613 |
+
ầm
|
| 2614 |
+
séc
|
| 2615 |
+
thà
|
| 2616 |
+
mỳ
|
| 2617 |
+
tủi
|
| 2618 |
+
nguội
|
| 2619 |
+
ngoạn
|
| 2620 |
+
rạn
|
| 2621 |
+
phiêu
|
| 2622 |
+
khiết
|
| 2623 |
+
miêu
|
| 2624 |
+
ngửa
|
| 2625 |
+
ách
|
| 2626 |
+
gieo
|
| 2627 |
+
gõ
|
| 2628 |
+
uốn
|
| 2629 |
+
nạ
|
| 2630 |
+
vét
|
| 2631 |
+
dẫu
|
| 2632 |
+
kìm
|
| 2633 |
+
két
|
| 2634 |
+
hủ
|
| 2635 |
+
tràm
|
| 2636 |
+
tý
|
| 2637 |
+
kệ
|
| 2638 |
+
phao
|
| 2639 |
+
nạo
|
| 2640 |
+
xỉu
|
| 2641 |
+
tăm
|
| 2642 |
+
quấn
|
| 2643 |
+
búa
|
| 2644 |
+
sấu
|
| 2645 |
+
sào
|
| 2646 |
+
mu
|
| 2647 |
+
hen
|
| 2648 |
+
sờ
|
| 2649 |
+
loãng
|
| 2650 |
+
chèn
|
| 2651 |
+
day
|
| 2652 |
+
nón
|
| 2653 |
+
rập
|
| 2654 |
+
đấm
|
| 2655 |
+
am
|
| 2656 |
+
cụt
|
| 2657 |
+
xốp
|
| 2658 |
+
ư
|
| 2659 |
+
lướt
|
| 2660 |
+
miệt
|
| 2661 |
+
cừ
|
| 2662 |
+
chạp
|
| 2663 |
+
mận
|
| 2664 |
+
gam
|
| 2665 |
+
đái
|
| 2666 |
+
vôi
|
| 2667 |
+
tạt
|
| 2668 |
+
chùm
|
| 2669 |
+
lờ
|
| 2670 |
+
tốp
|
| 2671 |
+
tuỵ
|
| 2672 |
+
giềng
|
| 2673 |
+
ruồi
|
| 2674 |
+
giỏ
|
| 2675 |
+
bọt
|
| 2676 |
+
ghê
|
| 2677 |
+
ỏi
|
| 2678 |
+
giã
|
| 2679 |
+
khắt
|
| 2680 |
+
hiên
|
| 2681 |
+
giằng
|
| 2682 |
+
gân
|
| 2683 |
+
giỗ
|
| 2684 |
+
áng
|
| 2685 |
+
rán
|
| 2686 |
+
hả
|
| 2687 |
+
vun
|
| 2688 |
+
nhai
|
| 2689 |
+
xáo
|
| 2690 |
+
thiêm
|
| 2691 |
+
rưỡi
|
| 2692 |
+
rầm
|
| 2693 |
+
trù
|
| 2694 |
+
chợt
|
| 2695 |
+
cu
|
| 2696 |
+
hăng
|
| 2697 |
+
muỗng
|
| 2698 |
+
xảo
|
| 2699 |
+
dè
|
| 2700 |
+
đăk
|
| 2701 |
+
xám
|
| 2702 |
+
ngả
|
| 2703 |
+
rỗi
|
| 2704 |
+
rơm
|
| 2705 |
+
tuỷ
|
| 2706 |
+
trói
|
| 2707 |
+
nhốt
|
| 2708 |
+
thuở
|
| 2709 |
+
cau
|
| 2710 |
+
vùi
|
| 2711 |
+
chan
|
| 2712 |
+
khoanh
|
| 2713 |
+
mốt
|
| 2714 |
+
roi
|
| 2715 |
+
bẻ
|
| 2716 |
+
lúng
|
| 2717 |
+
niệu
|
| 2718 |
+
ngán
|
| 2719 |
+
lẩu
|
| 2720 |
+
vung
|
| 2721 |
+
ả
|
| 2722 |
+
diều
|
| 2723 |
+
ế
|
| 2724 |
+
nạc
|
| 2725 |
+
phả
|
| 2726 |
+
uất
|
| 2727 |
+
nhang
|
| 2728 |
+
sô
|
| 2729 |
+
go
|
| 2730 |
+
phiến
|
| 2731 |
+
váng
|
| 2732 |
+
nhuyễn
|
| 2733 |
+
lựu
|
| 2734 |
+
quýt
|
| 2735 |
+
thâu
|
| 2736 |
+
gật
|
| 2737 |
+
lốp
|
| 2738 |
+
dằn
|
| 2739 |
+
trĩ
|
| 2740 |
+
on
|
| 2741 |
+
trán
|
| 2742 |
+
khử
|
| 2743 |
+
phà
|
| 2744 |
+
rót
|
| 2745 |
+
méo
|
| 2746 |
+
ngấm
|
| 2747 |
+
nếm
|
| 2748 |
+
ngóng
|
| 2749 |
+
xíu
|
| 2750 |
+
nem
|
| 2751 |
+
mứt
|
| 2752 |
+
sấy
|
| 2753 |
+
khoát
|
| 2754 |
+
mỉ
|
| 2755 |
+
rổ
|
| 2756 |
+
ấu
|
| 2757 |
+
nhào
|
| 2758 |
+
ngự
|
| 2759 |
+
thề
|
| 2760 |
+
uông
|
| 2761 |
+
vụn
|
| 2762 |
+
ten
|
| 2763 |
+
đao
|
| 2764 |
+
bọ
|
| 2765 |
+
nhổ
|
| 2766 |
+
gắm
|
| 2767 |
+
gươm
|
| 2768 |
+
ngùi
|
| 2769 |
+
chà
|
| 2770 |
+
trau
|
| 2771 |
+
kẽm
|
| 2772 |
+
lay
|
| 2773 |
+
hinh
|
| 2774 |
+
suýt
|
| 2775 |
+
mải
|
| 2776 |
+
trút
|
| 2777 |
+
mỉm
|
| 2778 |
+
năn
|
| 2779 |
+
súp
|
| 2780 |
+
xiếc
|
| 2781 |
+
thềm
|
| 2782 |
+
ray
|
| 2783 |
+
chót
|
| 2784 |
+
bầm
|
| 2785 |
+
nhét
|
| 2786 |
+
bừa
|
| 2787 |
+
gót
|
| 2788 |
+
cộ
|
| 2789 |
+
quỷ
|
| 2790 |
+
lu
|
| 2791 |
+
mãnh
|
| 2792 |
+
cối
|
| 2793 |
+
mủ
|
| 2794 |
+
trót
|
| 2795 |
+
bứt
|
| 2796 |
+
kẹp
|
| 2797 |
+
níu
|
| 2798 |
+
que
|
| 2799 |
+
tiệp
|
| 2800 |
+
sắn
|
| 2801 |
+
sà
|
| 2802 |
+
sanh
|
| 2803 |
+
lích
|
| 2804 |
+
khâm
|
| 2805 |
+
cội
|
| 2806 |
+
sòng
|
| 2807 |
+
giơ
|
| 2808 |
+
sảnh
|
| 2809 |
+
trặc
|
| 2810 |
+
ngơ
|
| 2811 |
+
chập
|
| 2812 |
+
sum
|
| 2813 |
+
lán
|
| 2814 |
+
cúp
|
| 2815 |
+
mép
|
| 2816 |
+
ngắt
|
| 2817 |
+
chững
|
| 2818 |
+
ghềnh
|
| 2819 |
+
ươm
|
| 2820 |
+
toản
|
| 2821 |
+
đố
|
| 2822 |
+
giục
|
| 2823 |
+
nộ
|
| 2824 |
+
cuống
|
| 2825 |
+
quây
|
| 2826 |
+
nguỵ
|
| 2827 |
+
lon
|
| 2828 |
+
chốc
|
| 2829 |
+
si
|
| 2830 |
+
lượn
|
| 2831 |
+
thiền
|
| 2832 |
+
lừng
|
| 2833 |
+
hới
|
| 2834 |
+
bừng
|
| 2835 |
+
thung
|
| 2836 |
+
hãm
|
| 2837 |
+
giun
|
| 2838 |
+
muống
|
| 2839 |
+
tị
|
| 2840 |
+
rò
|
| 2841 |
+
nập
|
| 2842 |
+
phồng
|
| 2843 |
+
trứ
|
| 2844 |
+
rưng
|
| 2845 |
+
kiếp
|
| 2846 |
+
tạc
|
| 2847 |
+
xước
|
| 2848 |
+
búp
|
| 2849 |
+
quẩn
|
| 2850 |
+
luyến
|
| 2851 |
+
vẫy
|
| 2852 |
+
ngừ
|
| 2853 |
+
chư
|
| 2854 |
+
trổ
|
| 2855 |
+
điểu
|
| 2856 |
+
lửng
|
| 2857 |
+
vá
|
| 2858 |
+
kiêu
|
| 2859 |
+
củi
|
| 2860 |
+
sạp
|
| 2861 |
+
ngẫm
|
| 2862 |
+
chuộc
|
| 2863 |
+
gội
|
| 2864 |
+
cấn
|
| 2865 |
+
tuýp
|
| 2866 |
+
bo
|
| 2867 |
+
nặc
|
| 2868 |
+
kép
|
| 2869 |
+
tuông
|
| 2870 |
+
nhàm
|
| 2871 |
+
noi
|
| 2872 |
+
bèo
|
| 2873 |
+
nến
|
| 2874 |
+
ôi
|
| 2875 |
+
vàn
|
| 2876 |
+
pu
|
| 2877 |
+
se
|
| 2878 |
+
loay
|
| 2879 |
+
phượt
|
| 2880 |
+
hoay
|
| 2881 |
+
điếu
|
| 2882 |
+
giêng
|
| 2883 |
+
phẫn
|
| 2884 |
+
lều
|
| 2885 |
+
xua
|
| 2886 |
+
quăng
|
| 2887 |
+
nà
|
| 2888 |
+
úp
|
| 2889 |
+
chòi
|
| 2890 |
+
toát
|
| 2891 |
+
băm
|
| 2892 |
+
sê
|
| 2893 |
+
hất
|
| 2894 |
+
đãng
|
| 2895 |
+
ói
|
| 2896 |
+
duẩn
|
| 2897 |
+
đẫm
|
| 2898 |
+
teo
|
| 2899 |
+
lùm
|
| 2900 |
+
cáu
|
| 2901 |
+
gu
|
| 2902 |
+
chắt
|
| 2903 |
+
bửu
|
| 2904 |
+
hoằng
|
| 2905 |
+
giàng
|
| 2906 |
+
min
|
| 2907 |
+
nhạ
|
| 2908 |
+
xuồng
|
| 2909 |
+
tiếu
|
| 2910 |
+
mướn
|
| 2911 |
+
pho
|
| 2912 |
+
duệ
|
| 2913 |
+
giặc
|
| 2914 |
+
lươn
|
| 2915 |
+
cõi
|
| 2916 |
+
then
|
| 2917 |
+
ngó
|
| 2918 |
+
tỉa
|
| 2919 |
+
sưa
|
| 2920 |
+
ngoặt
|
| 2921 |
+
tòi
|
| 2922 |
+
gạc
|
| 2923 |
+
gào
|
| 2924 |
+
phách
|
| 2925 |
+
nghẹt
|
| 2926 |
+
oà
|
| 2927 |
+
kỵ
|
| 2928 |
+
chớp
|
| 2929 |
+
thêu
|
| 2930 |
+
rát
|
| 2931 |
+
chát
|
| 2932 |
+
trơ
|
| 2933 |
+
nòng
|
| 2934 |
+
gọt
|
| 2935 |
+
biếng
|
| 2936 |
+
phai
|
| 2937 |
+
hệt
|
| 2938 |
+
hun
|
| 2939 |
+
bịch
|
| 2940 |
+
húc
|
| 2941 |
+
cồng
|
| 2942 |
+
vạ
|
| 2943 |
+
điềm
|
| 2944 |
+
ia
|
| 2945 |
+
trệ
|
| 2946 |
+
mẩn
|
| 2947 |
+
rô
|
| 2948 |
+
vãn
|
| 2949 |
+
dí
|
| 2950 |
+
ơ
|
| 2951 |
+
ngao
|
| 2952 |
+
trảng
|
| 2953 |
+
ếch
|
| 2954 |
+
nạt
|
| 2955 |
+
gàng
|
| 2956 |
+
tro
|
| 2957 |
+
nhích
|
| 2958 |
+
ru
|
| 2959 |
+
phe
|
| 2960 |
+
múc
|
| 2961 |
+
sưởi
|
| 2962 |
+
hãn
|
| 2963 |
+
rỗng
|
| 2964 |
+
đậy
|
| 2965 |
+
tản
|
| 2966 |
+
thy
|
| 2967 |
+
dặm
|
| 2968 |
+
xuyến
|
| 2969 |
+
xoang
|
| 2970 |
+
cạo
|
| 2971 |
+
nhóc
|
| 2972 |
+
nỉ
|
| 2973 |
+
cược
|
| 2974 |
+
ngổn
|
| 2975 |
+
vòm
|
| 2976 |
+
sảng
|
| 2977 |
+
huyên
|
| 2978 |
+
chằng
|
| 2979 |
+
quyện
|
| 2980 |
+
rãnh
|
| 2981 |
+
bin
|
| 2982 |
+
diên
|
| 2983 |
+
cang
|
| 2984 |
+
rốn
|
| 2985 |
+
gáy
|
| 2986 |
+
trọt
|
| 2987 |
+
khinh
|
| 2988 |
+
vơ
|
| 2989 |
+
lư
|
| 2990 |
+
kiểng
|
| 2991 |
+
suôn
|
| 2992 |
+
rượt
|
| 2993 |
+
tỵ
|
| 2994 |
+
bon
|
| 2995 |
+
xiết
|
| 2996 |
+
phình
|
| 2997 |
+
mịt
|
| 2998 |
+
chước
|
| 2999 |
+
ngọ
|
| 3000 |
+
sỉ
|
| 3001 |
+
rằm
|
| 3002 |
+
còng
|
| 3003 |
+
tẻ
|
| 3004 |
+
chướng
|
| 3005 |
+
xùm
|
| 3006 |
+
diêm
|
| 3007 |
+
xộn
|
| 3008 |
+
ngách
|
| 3009 |
+
nậm
|
| 3010 |
+
cằm
|
| 3011 |
+
tớ
|
| 3012 |
+
xỉn
|
| 3013 |
+
ron
|
| 3014 |
+
nhậm
|
| 3015 |
+
ngời
|
| 3016 |
+
găng
|
| 3017 |
+
đực
|
| 3018 |
+
quậy
|
| 3019 |
+
mấu
|
| 3020 |
+
tít
|
| 3021 |
+
yếm
|
| 3022 |
+
lợp
|
| 3023 |
+
ngoãn
|
| 3024 |
+
sỡ
|
| 3025 |
+
thỏ
|
| 3026 |
+
nhúng
|
| 3027 |
+
nghiền
|
| 3028 |
+
ngan
|
| 3029 |
+
don
|
| 3030 |
+
chài
|
| 3031 |
+
tưng
|
| 3032 |
+
bục
|
| 3033 |
+
dìu
|
| 3034 |
+
nhôm
|
| 3035 |
+
rồ
|
| 3036 |
+
hắt
|
| 3037 |
+
nhỉ
|
| 3038 |
+
nghé
|
| 3039 |
+
hờ
|
| 3040 |
+
hễ
|
| 3041 |
+
dứa
|
| 3042 |
+
tơi
|
| 3043 |
+
trỗi
|
| 3044 |
+
mồng
|
| 3045 |
+
khay
|
| 3046 |
+
dụm
|
| 3047 |
+
kèn
|
| 3048 |
+
bỉnh
|
| 3049 |
+
ri
|
| 3050 |
+
vựa
|
| 3051 |
+
tuột
|
| 3052 |
+
sụn
|
| 3053 |
+
xệ
|
| 3054 |
+
sặc
|
| 3055 |
+
mẹo
|
| 3056 |
+
thệ
|
| 3057 |
+
sò
|
| 3058 |
+
trũng
|
| 3059 |
+
khuấy
|
| 3060 |
+
sáo
|
| 3061 |
+
quẹt
|
| 3062 |
+
hổng
|
| 3063 |
+
nung
|
| 3064 |
+
ngói
|
| 3065 |
+
chắp
|
| 3066 |
+
hãnh
|
| 3067 |
+
sùng
|
| 3068 |
+
mách
|
| 3069 |
+
riết
|
| 3070 |
+
triền
|
| 3071 |
+
ngủi
|
| 3072 |
+
liu
|
| 3073 |
+
xít
|
| 3074 |
+
mượt
|
| 3075 |
+
dột
|
| 3076 |
+
quí
|
| 3077 |
+
ngáo
|
| 3078 |
+
cẳng
|
| 3079 |
+
ngùng
|
| 3080 |
+
hắc
|
| 3081 |
+
mớ
|
| 3082 |
+
khăng
|
| 3083 |
+
lã
|
| 3084 |
+
sởi
|
| 3085 |
+
lim
|
| 3086 |
+
khóm
|
| 3087 |
+
đong
|
| 3088 |
+
chảnh
|
| 3089 |
+
bệ
|
| 3090 |
+
sửu
|
| 3091 |
+
xù
|
| 3092 |
+
khét
|
| 3093 |
+
hằn
|
| 3094 |
+
rai
|
| 3095 |
+
chôm
|
| 3096 |
+
nấc
|
| 3097 |
+
mè
|
| 3098 |
+
vựng
|
| 3099 |
+
vãi
|
| 3100 |
+
dậu
|
| 3101 |
+
gồng
|
| 3102 |
+
dăm
|
| 3103 |
+
dãi
|
| 3104 |
+
ngút
|
| 3105 |
+
ngu
|
| 3106 |
+
gượng
|
| 3107 |
+
bậy
|
| 3108 |
+
vuốt
|
| 3109 |
+
ổi
|
| 3110 |
+
hạm
|
| 3111 |
+
ngục
|
| 3112 |
+
trệt
|
| 3113 |
+
oán
|
| 3114 |
+
cặn
|
| 3115 |
+
ren
|
| 3116 |
+
dấn
|
| 3117 |
+
vò
|
| 3118 |
+
nhâm
|
| 3119 |
+
dấy
|
| 3120 |
+
gắp
|
| 3121 |
+
vặn
|
| 3122 |
+
rêu
|
| 3123 |
+
túm
|
| 3124 |
+
gởi
|
| 3125 |
+
reo
|
| 3126 |
+
bai
|
| 3127 |
+
thê
|
| 3128 |
+
rơ
|
| 3129 |
+
chàm
|
| 3130 |
+
sục
|
| 3131 |
+
đản
|
| 3132 |
+
cõng
|
| 3133 |
+
vữa
|
| 3134 |
+
nách
|
| 3135 |
+
nhằn
|
| 3136 |
+
bời
|
| 3137 |
+
rành
|
| 3138 |
+
hốc
|
| 3139 |
+
lút
|
| 3140 |
+
vầy
|
| 3141 |
+
cốp
|
| 3142 |
+
thẳm
|
| 3143 |
+
rùng
|
| 3144 |
+
chao
|
| 3145 |
+
thét
|
| 3146 |
+
phen
|
| 3147 |
+
kiệu
|
| 3148 |
+
dơi
|
| 3149 |
+
cuốc
|
| 3150 |
+
lầy
|
| 3151 |
+
nham
|
| 3152 |
+
vợt
|
| 3153 |
+
sán
|
| 3154 |
+
múi
|
| 3155 |
+
kén
|
| 3156 |
+
bưng
|
| 3157 |
+
thừng
|
| 3158 |
+
hoai
|
| 3159 |
+
vơi
|
| 3160 |
+
trầy
|
| 3161 |
+
vảy
|
| 3162 |
+
ngạn
|
| 3163 |
+
sá
|
| 3164 |
+
lem
|
| 3165 |
+
mênh
|
| 3166 |
+
tuồng
|
| 3167 |
+
giăng
|
| 3168 |
+
gớm
|
| 3169 |
+
giấm
|
| 3170 |
+
ráng
|
| 3171 |
+
dỏm
|
| 3172 |
+
đùng
|
| 3173 |
+
thán
|
| 3174 |
+
cừu
|
| 3175 |
+
tắn
|
| 3176 |
+
nhựt
|
| 3177 |
+
mẩu
|
| 3178 |
+
mồm
|
| 3179 |
+
hũ
|
| 3180 |
+
sùi
|
| 3181 |
+
phông
|
| 3182 |
+
hờn
|
| 3183 |
+
nhuần
|
| 3184 |
+
rình
|
| 3185 |
+
tã
|
| 3186 |
+
ốt
|
| 3187 |
+
đoòng
|
| 3188 |
+
quai
|
| 3189 |
+
sảo
|
| 3190 |
+
von
|
| 3191 |
+
tanh
|
| 3192 |
+
lìa
|
| 3193 |
+
khuynh
|
| 3194 |
+
vụng
|
| 3195 |
+
thoai
|
| 3196 |
+
bộn
|
| 3197 |
+
rê
|
| 3198 |
+
bỉm
|
| 3199 |
+
đẽ
|
| 3200 |
+
thìn
|
| 3201 |
+
mon
|
| 3202 |
+
nhẹn
|
| 3203 |
+
nhện
|
| 3204 |
+
nắn
|
| 3205 |
+
lượm
|
| 3206 |
+
lẻo
|
| 3207 |
+
vệt
|
| 3208 |
+
bàu
|
| 3209 |
+
nguyền
|
| 3210 |
+
ngòi
|
| 3211 |
+
dẫm
|
| 3212 |
+
mướt
|
| 3213 |
+
sạm
|
| 3214 |
+
độn
|
| 3215 |
+
giẽ
|
| 3216 |
+
rầu
|
| 3217 |
+
ruốc
|
| 3218 |
+
tróc
|
| 3219 |
+
hẫng
|
| 3220 |
+
nhưỡng
|
| 3221 |
+
nguôi
|
| 3222 |
+
tẩn
|
| 3223 |
+
chang
|
| 3224 |
+
đốm
|
| 3225 |
+
gập
|
| 3226 |
+
chỉn
|
| 3227 |
+
xịn
|
| 3228 |
+
xoắn
|
| 3229 |
+
nom
|
| 3230 |
+
sạc
|
| 3231 |
+
tày
|
| 3232 |
+
nhờn
|
| 3233 |
+
khoắn
|
| 3234 |
+
bịa
|
| 3235 |
+
vâng
|
| 3236 |
+
ngót
|
| 3237 |
+
đút
|
| 3238 |
+
miến
|
| 3239 |
+
tép
|
| 3240 |
+
kềnh
|
| 3241 |
+
oi
|
| 3242 |
+
ngửi
|
| 3243 |
+
át
|
| 3244 |
+
by
|
| 3245 |
+
giở
|
| 3246 |
+
chội
|
| 3247 |
+
nôi
|
| 3248 |
+
chần
|
| 3249 |
+
trá
|
| 3250 |
+
điếc
|
| 3251 |
+
quặng
|
| 3252 |
+
dẻ
|
| 3253 |
+
chơn
|
| 3254 |
+
giầy
|
| 3255 |
+
buốt
|
| 3256 |
+
hụi
|
| 3257 |
+
đỗi
|
| 3258 |
+
nhoáng
|
| 3259 |
+
lùn
|
| 3260 |
+
lẫm
|
| 3261 |
+
vạt
|
| 3262 |
+
sảy
|
| 3263 |
+
hạc
|
| 3264 |
+
cộm
|
| 3265 |
+
rợn
|
| 3266 |
+
lênh
|
| 3267 |
+
găm
|
| 3268 |
+
phớt
|
| 3269 |
+
thun
|
| 3270 |
+
thỏi
|
| 3271 |
+
gio
|
| 3272 |
+
buồm
|
| 3273 |
+
sả
|
| 3274 |
+
cóp
|
| 3275 |
+
ngợp
|
| 3276 |
+
cạp
|
| 3277 |
+
ỷ
|
| 3278 |
+
nhớt
|
| 3279 |
+
hòm
|
| 3280 |
+
hăm
|
| 3281 |
+
lõm
|
| 3282 |
+
bỡ
|
| 3283 |
+
hổi
|
| 3284 |
+
rậm
|
| 3285 |
+
láo
|
| 3286 |
+
vỏn
|
| 3287 |
+
hàu
|
| 3288 |
+
thóc
|
| 3289 |
+
bẹp
|
| 3290 |
+
thớt
|
| 3291 |
+
hợi
|
| 3292 |
+
trớ
|
| 3293 |
+
râm
|
| 3294 |
+
xiêm
|
| 3295 |
+
cằn
|
| 3296 |
+
gỏi
|
| 3297 |
+
hùm
|
| 3298 |
+
chói
|
| 3299 |
+
xói
|
| 3300 |
+
sói
|
| 3301 |
+
rôn
|
| 3302 |
+
nheo
|
| 3303 |
+
nghia
|
| 3304 |
+
bấp
|
| 3305 |
+
khế
|
| 3306 |
+
siu
|
| 3307 |
+
nặn
|
| 3308 |
+
lức
|
| 3309 |
+
đóm
|
| 3310 |
+
căm
|
| 3311 |
+
uyển
|
| 3312 |
+
chông
|
| 3313 |
+
câm
|
| 3314 |
+
lăk
|
| 3315 |
+
vừng
|
| 3316 |
+
quàng
|
| 3317 |
+
núp
|
| 3318 |
+
đoá
|
| 3319 |
+
héo
|
| 3320 |
+
ắp
|
| 3321 |
+
lốt
|
| 3322 |
+
vớ
|
| 3323 |
+
nhút
|
| 3324 |
+
nhối
|
| 3325 |
+
trẻo
|
| 3326 |
+
thuấn
|
| 3327 |
+
thong
|
| 3328 |
+
ĩ
|
| 3329 |
+
hòng
|
| 3330 |
+
vén
|
| 3331 |
+
nong
|
| 3332 |
+
tột
|
| 3333 |
+
trọc
|
| 3334 |
+
nhác
|
| 3335 |
+
bợ
|
| 3336 |
+
bần
|
| 3337 |
+
gi
|
| 3338 |
+
trợn
|
| 3339 |
+
hon
|
| 3340 |
+
hởi
|
| 3341 |
+
bùa
|
| 3342 |
+
bẩy
|
| 3343 |
+
vần
|
| 3344 |
+
gộp
|
| 3345 |
+
hời
|
| 3346 |
+
dỗi
|
| 3347 |
+
nhuệ
|
| 3348 |
+
ngượng
|
| 3349 |
+
vụt
|
| 3350 |
+
bít
|
| 3351 |
+
nhỡ
|
| 3352 |
+
nháo
|
| 3353 |
+
sộ
|
| 3354 |
+
mích
|
| 3355 |
+
den
|
| 3356 |
+
lịm
|
| 3357 |
+
lăm
|
| 3358 |
+
rúng
|
| 3359 |
+
nghè
|
| 3360 |
+
ì
|
| 3361 |
+
nín
|
| 3362 |
+
phung
|
| 3363 |
+
tào
|
| 3364 |
+
luống
|
| 3365 |
+
sững
|
| 3366 |
+
tễ
|
| 3367 |
+
chổi
|
| 3368 |
+
đom
|
| 3369 |
+
ná
|
| 3370 |
+
dẳng
|
| 3371 |
+
bô
|
| 3372 |
+
ngốc
|
| 3373 |
+
bầy
|
| 3374 |
+
thỏm
|
| 3375 |
+
lạch
|
| 3376 |
+
hèn
|
| 3377 |
+
gỉ
|
| 3378 |
+
nhấp
|
| 3379 |
+
lậy
|
| 3380 |
+
vênh
|
| 3381 |
+
khoét
|
| 3382 |
+
giùm
|
| 3383 |
+
mào
|
| 3384 |
+
cút
|
| 3385 |
+
moi
|
| 3386 |
+
tuồn
|
| 3387 |
+
tợn
|
| 3388 |
+
ngẩn
|
| 3389 |
+
mị
|
| 3390 |
+
dũ
|
| 3391 |
+
mão
|
| 3392 |
+
he
|
| 3393 |
+
thinh
|
| 3394 |
+
trầu
|
| 3395 |
+
nhõm
|
| 3396 |
+
trồ
|
| 3397 |
+
giồng
|
| 3398 |
+
sủa
|
| 3399 |
+
phất
|
| 3400 |
+
chầu
|
| 3401 |
+
rườm
|
| 3402 |
+
cứa
|
| 3403 |
+
niu
|
| 3404 |
+
chừ
|
| 3405 |
+
ngưu
|
| 3406 |
+
seo
|
| 3407 |
+
nhũ
|
| 3408 |
+
nỡ
|
| 3409 |
+
gióng
|
| 3410 |
+
mó
|
| 3411 |
+
vin
|
| 3412 |
+
phồn
|
| 3413 |
+
suyễn
|
| 3414 |
+
miu
|
| 3415 |
+
ảm
|
| 3416 |
+
cưỡi
|
| 3417 |
+
tè
|
| 3418 |
+
choàng
|
| 3419 |
+
bổn
|
| 3420 |
+
đạ
|
| 3421 |
+
huyệt
|
| 3422 |
+
dùi
|
| 3423 |
+
tráo
|
| 3424 |
+
vãng
|
| 3425 |
+
vía
|
| 3426 |
+
ối
|
| 3427 |
+
nhấc
|
| 3428 |
+
tằm
|
| 3429 |
+
lép
|
| 3430 |
+
bim
|
| 3431 |
+
chạnh
|
| 3432 |
+
ốp
|
| 3433 |
+
nẻo
|
| 3434 |
+
bặm
|
| 3435 |
+
bướm
|
| 3436 |
+
nơ
|
| 3437 |
+
ngớt
|
| 3438 |
+
xẩm
|
| 3439 |
+
trĩu
|
| 3440 |
+
sệt
|
| 3441 |
+
hỷ
|
| 3442 |
+
gao
|
| 3443 |
+
nhầy
|
| 3444 |
+
tua
|
| 3445 |
+
gạ
|
| 3446 |
+
xui
|
| 3447 |
+
xén
|
| 3448 |
+
nôm
|
| 3449 |
+
mễ
|
| 3450 |
+
chiêng
|
| 3451 |
+
nậu
|
| 3452 |
+
vít
|
| 3453 |
+
cạy
|
| 3454 |
+
bành
|
| 3455 |
+
trác
|
| 3456 |
+
dượng
|
| 3457 |
+
ngợm
|
| 3458 |
+
ngậy
|
| 3459 |
+
xoè
|
| 3460 |
+
sần
|
| 3461 |
+
thiếp
|
| 3462 |
+
phím
|
| 3463 |
+
nhẹt
|
| 3464 |
+
hớn
|
| 3465 |
+
nao
|
| 3466 |
+
đéc
|
| 3467 |
+
nhọ
|
| 3468 |
+
sửng
|
| 3469 |
+
ghẹ
|
| 3470 |
+
lóng
|
| 3471 |
+
đấng
|
| 3472 |
+
nệm
|
| 3473 |
+
giời
|
| 3474 |
+
trướng
|
| 3475 |
+
vẹo
|
| 3476 |
+
tèo
|
| 3477 |
+
xở
|
| 3478 |
+
nghén
|
| 3479 |
+
dặt
|
| 3480 |
+
mĩ
|
| 3481 |
+
nghĩnh
|
| 3482 |
+
éo
|
| 3483 |
+
bói
|
| 3484 |
+
rông
|
| 3485 |
+
hoóc
|
| 3486 |
+
chít
|
| 3487 |
+
hỉnh
|
| 3488 |
+
hớt
|
| 3489 |
+
thẹo
|
| 3490 |
+
nhô
|
| 3491 |
+
ải
|
| 3492 |
+
sải
|
| 3493 |
+
phộng
|
| 3494 |
+
khít
|
| 3495 |
+
pia
|
| 3496 |
+
lẳng
|
| 3497 |
+
lả
|
| 3498 |
+
giãi
|
| 3499 |
+
bủa
|
| 3500 |
+
chiềng
|
| 3501 |
+
hóm
|
| 3502 |
+
chùi
|
| 3503 |
+
đùm
|
| 3504 |
+
thoi
|
| 3505 |
+
hến
|
| 3506 |
+
mửa
|
| 3507 |
+
nghêu
|
| 3508 |
+
choi
|
| 3509 |
+
bươn
|
| 3510 |
+
om
|
| 3511 |
+
mút
|
| 3512 |
+
đổng
|
| 3513 |
+
đờn
|
| 3514 |
+
lỏi
|
| 3515 |
+
hột
|
| 3516 |
+
nháy
|
| 3517 |
+
lèo
|
| 3518 |
+
khơ
|
| 3519 |
+
ken
|
| 3520 |
+
trụi
|
| 3521 |
+
ùa
|
| 3522 |
+
lồi
|
| 3523 |
+
tuất
|
| 3524 |
+
vồng
|
| 3525 |
+
hoè
|
| 3526 |
+
vút
|
| 3527 |
+
bả
|
| 3528 |
+
thoạt
|
| 3529 |
+
lẻn
|
| 3530 |
+
lác
|
| 3531 |
+
én
|
| 3532 |
+
óng
|
| 3533 |
+
vế
|
| 3534 |
+
sẫm
|
| 3535 |
+
thía
|
| 3536 |
+
tấc
|
| 3537 |
+
mọng
|
| 3538 |
+
tram
|
| 3539 |
+
bảnh
|
| 3540 |
+
tề
|
| 3541 |
+
đay
|
| 3542 |
+
đát
|
| 3543 |
+
ngáy
|
| 3544 |
+
sú
|
| 3545 |
+
mao
|
| 3546 |
+
thúng
|
| 3547 |
+
chồn
|
| 3548 |
+
viền
|
| 3549 |
+
vẹt
|
| 3550 |
+
lõng
|
| 3551 |
+
xới
|
| 3552 |
+
gấm
|
| 3553 |
+
chớ
|
| 3554 |
+
tong
|
| 3555 |
+
dát
|
| 3556 |
+
tì
|
| 3557 |
+
luồn
|
| 3558 |
+
kèo
|
| 3559 |
+
xoan
|
| 3560 |
+
mướp
|
| 3561 |
+
mo
|
| 3562 |
+
cốm
|
| 3563 |
+
tỳ
|
| 3564 |
+
khuân
|
| 3565 |
+
loang
|
| 3566 |
+
xiêu
|
| 3567 |
+
xắt
|
| 3568 |
+
khẽ
|
| 3569 |
+
phèn
|
| 3570 |
+
ngoai
|
| 3571 |
+
thiu
|
| 3572 |
+
trắm
|
| 3573 |
+
xiên
|
| 3574 |
+
vót
|
| 3575 |
+
rè
|
| 3576 |
+
khỉnh
|
| 3577 |
+
chây
|
| 3578 |
+
rụt
|
| 3579 |
+
vàm
|
| 3580 |
+
phết
|
| 3581 |
+
nhảm
|
| 3582 |
+
giẫm
|
| 3583 |
+
phiện
|
| 3584 |
+
xoăn
|
| 3585 |
+
nấp
|
| 3586 |
+
cọng
|
| 3587 |
+
diết
|
| 3588 |
+
quẫn
|
| 3589 |
+
khiêng
|
| 3590 |
+
càn
|
| 3591 |
+
hót
|
| 3592 |
+
ỉ
|
| 3593 |
+
nực
|
| 3594 |
+
tươm
|
| 3595 |
+
gán
|
| 3596 |
+
cựa
|
| 3597 |
+
xèo
|
| 3598 |
+
nhếch
|
| 3599 |
+
nhả
|
| 3600 |
+
phào
|
| 3601 |
+
khờ
|
| 3602 |
+
rít
|
| 3603 |
+
ngác
|
| 3604 |
+
nài
|
| 3605 |
+
chuốt
|
| 3606 |
+
thụt
|
| 3607 |
+
cuông
|
| 3608 |
+
rôm
|
| 3609 |
+
chày
|
| 3610 |
+
sàm
|
| 3611 |
+
nhão
|
| 3612 |
+
toái
|
| 3613 |
+
um
|
| 3614 |
+
pô
|
| 3615 |
+
ny
|
| 3616 |
+
mỗ
|
| 3617 |
+
đờm
|
| 3618 |
+
giũ
|
| 3619 |
+
bở
|
| 3620 |
+
lấm
|
| 3621 |
+
chun
|
| 3622 |
+
lùa
|
| 3623 |
+
tậu
|
| 3624 |
+
kháu
|
| 3625 |
+
mầu
|
| 3626 |
+
đần
|
| 3627 |
+
khùng
|
| 3628 |
+
cơi
|
| 3629 |
+
hươu
|
| 3630 |
+
sọc
|
| 3631 |
+
ẵm
|
| 3632 |
+
ruổi
|
| 3633 |
+
huê
|
| 3634 |
+
thò
|
| 3635 |
+
loà
|
| 3636 |
+
suông
|
| 3637 |
+
pan
|
| 3638 |
+
nhoà
|
| 3639 |
+
đáu
|
| 3640 |
+
bèn
|
| 3641 |
+
nhói
|
| 3642 |
+
răm
|
| 3643 |
+
oải
|
| 3644 |
+
ngẩm
|
| 3645 |
+
móp
|
| 3646 |
+
đẩu
|
| 3647 |
+
tròng
|
| 3648 |
+
chệch
|
| 3649 |
+
chạc
|
| 3650 |
+
sến
|
| 3651 |
+
quáng
|
| 3652 |
+
nải
|
| 3653 |
+
rèm
|
| 3654 |
+
cật
|
| 3655 |
+
ừ
|
| 3656 |
+
phăng
|
| 3657 |
+
giỡn
|
| 3658 |
+
chùng
|
| 3659 |
+
mả
|
| 3660 |
+
lố
|
| 3661 |
+
bêu
|
| 3662 |
+
vỉ
|
| 3663 |
+
lạy
|
| 3664 |
+
khoé
|
| 3665 |
+
nhừ
|
| 3666 |
+
cữu
|
| 3667 |
+
húng
|
| 3668 |
+
chuồn
|
| 3669 |
+
lặt
|
| 3670 |
+
nghiến
|
| 3671 |
+
truỵ
|
| 3672 |
+
lin
|
| 3673 |
+
tiệt
|
| 3674 |
+
tét
|
| 3675 |
+
quới
|
| 3676 |
+
giếm
|
| 3677 |
+
dơ
|
| 3678 |
+
dĩnh
|
| 3679 |
+
phìn
|
| 3680 |
+
nhợt
|
| 3681 |
+
luông
|
| 3682 |
+
un
|
| 3683 |
+
nghê
|
| 3684 |
+
nhún
|
| 3685 |
+
bốt
|
| 3686 |
+
mãng
|
| 3687 |
+
ngông
|
| 3688 |
+
lọi
|
| 3689 |
+
duỗi
|
| 3690 |
+
ngưởng
|
| 3691 |
+
kham
|
| 3692 |
+
hoe
|
| 3693 |
+
dĩa
|
| 3694 |
+
soái
|
| 3695 |
+
goá
|
| 3696 |
+
bệt
|
| 3697 |
+
thảnh
|
| 3698 |
+
ổng
|
| 3699 |
+
sứa
|
| 3700 |
+
ton
|
| 3701 |
+
khò
|
| 3702 |
+
hẻo
|
| 3703 |
+
đằm
|
| 3704 |
+
thót
|
| 3705 |
+
mú
|
| 3706 |
+
rẩy
|
| 3707 |
+
víu
|
| 3708 |
+
xối
|
| 3709 |
+
toé
|
| 3710 |
+
rứa
|
| 3711 |
+
ngải
|
| 3712 |
+
dìm
|
| 3713 |
+
riêu
|
| 3714 |
+
thơi
|
| 3715 |
+
ngớ
|
| 3716 |
+
ky
|
| 3717 |
+
vạy
|
| 3718 |
+
há
|
| 3719 |
+
tía
|
| 3720 |
+
phui
|
| 3721 |
+
lài
|
| 3722 |
+
moóc
|
| 3723 |
+
thau
|
| 3724 |
+
nết
|
| 3725 |
+
đờ
|
| 3726 |
+
lâng
|
| 3727 |
+
xoong
|
| 3728 |
+
tuôn
|
| 3729 |
+
dấm
|
| 3730 |
+
him
|
| 3731 |
+
sủ
|
| 3732 |
+
ran
|
| 3733 |
+
nớt
|
| 3734 |
+
tóp
|
| 3735 |
+
gành
|
| 3736 |
+
bướng
|
| 3737 |
+
lặc
|
| 3738 |
+
cui
|
| 3739 |
+
bềnh
|
| 3740 |
+
miết
|
| 3741 |
+
lẽo
|
| 3742 |
+
náu
|
| 3743 |
+
gù
|
| 3744 |
+
cáng
|
| 3745 |
+
banh
|
| 3746 |
+
rả
|
| 3747 |
+
quệt
|
| 3748 |
+
ngạo
|
| 3749 |
+
chằm
|
| 3750 |
+
quệ
|
| 3751 |
+
hú
|
| 3752 |
+
chực
|
| 3753 |
+
hiu
|
| 3754 |
+
re
|
| 3755 |
+
khiên
|
| 3756 |
+
nọc
|
| 3757 |
+
bôn
|
| 3758 |
+
bết
|
| 3759 |
+
rú
|
| 3760 |
+
bét
|
| 3761 |
+
mẩy
|
| 3762 |
+
loát
|
| 3763 |
+
chĩa
|
| 3764 |
+
nhá
|
| 3765 |
+
liếng
|
| 3766 |
+
sấp
|
| 3767 |
+
rinh
|
| 3768 |
+
hoắc
|
| 3769 |
+
ắt
|
| 3770 |
+
vẩy
|
| 3771 |
+
khất
|
| 3772 |
+
nấng
|
| 3773 |
+
nái
|
| 3774 |
+
nhẩm
|
| 3775 |
+
lảng
|
| 3776 |
+
sin
|
| 3777 |
+
cữ
|
| 3778 |
+
rục
|
| 3779 |
+
rìa
|
| 3780 |
+
nhăng
|
| 3781 |
+
liếc
|
| 3782 |
+
dền
|
| 3783 |
+
núm
|
| 3784 |
+
kẻo
|
| 3785 |
+
xúi
|
| 3786 |
+
mạt
|
| 3787 |
+
cưu
|
| 3788 |
+
khuỷu
|
| 3789 |
+
búi
|
| 3790 |
+
hích
|
| 3791 |
+
bu
|
| 3792 |
+
chíp
|
| 3793 |
+
nháp
|
| 3794 |
+
kỉnh
|
| 3795 |
+
đểu
|
| 3796 |
+
chong
|
| 3797 |
+
chịt
|
| 3798 |
+
vằn
|
| 3799 |
+
sấm
|
| 3800 |
+
nhổn
|
| 3801 |
+
nhen
|
| 3802 |
+
lừ
|
| 3803 |
+
nhỉnh
|
| 3804 |
+
chiu
|
| 3805 |
+
xóc
|
| 3806 |
+
rủa
|
| 3807 |
+
nộm
|
| 3808 |
+
phốt
|
| 3809 |
+
ngát
|
| 3810 |
+
héc
|
| 3811 |
+
đanh
|
| 3812 |
+
mia
|
| 3813 |
+
vồ
|
| 3814 |
+
dốt
|
| 3815 |
+
đềm
|
| 3816 |
+
sẩy
|
| 3817 |
+
lụng
|
| 3818 |
+
nẻ
|
| 3819 |
+
ganh
|
| 3820 |
+
chầm
|
| 3821 |
+
nơm
|
| 3822 |
+
mọt
|
| 3823 |
+
ụ
|
| 3824 |
+
riềng
|
| 3825 |
+
nịnh
|
| 3826 |
+
nhẽo
|
| 3827 |
+
dôi
|
| 3828 |
+
chừa
|
| 3829 |
+
tùm
|
| 3830 |
+
ngóc
|
| 3831 |
+
mún
|
| 3832 |
+
xỏ
|
| 3833 |
+
vát
|
| 3834 |
+
vẩn
|
| 3835 |
+
thặng
|
| 3836 |
+
hám
|
| 3837 |
+
gài
|
| 3838 |
+
loi
|
| 3839 |
+
chưởng
|
| 3840 |
+
nhại
|
| 3841 |
+
muội
|
| 3842 |
+
rạ
|
| 3843 |
+
hớ
|
| 3844 |
+
xẻo
|
| 3845 |
+
nòi
|
| 3846 |
+
luẩn
|
| 3847 |
+
líu
|
| 3848 |
+
xy
|
| 3849 |
+
máng
|
| 3850 |
+
tấy
|
| 3851 |
+
nhảnh
|
| 3852 |
+
gổ
|
| 3853 |
+
cụi
|
| 3854 |
+
ắng
|
| 3855 |
+
trê
|
| 3856 |
+
rớm
|
| 3857 |
+
hóng
|
| 3858 |
+
ú
|
| 3859 |
+
trỏ
|
| 3860 |
+
nép
|
| 3861 |
+
lụi
|
| 3862 |
+
cùi
|
| 3863 |
+
rứt
|
| 3864 |
+
pôn
|
| 3865 |
+
đỉa
|
| 3866 |
+
ố
|
| 3867 |
+
đận
|
| 3868 |
+
choạng
|
| 3869 |
+
ngốn
|
| 3870 |
+
đoái
|
| 3871 |
+
diệm
|
| 3872 |
+
mền
|
| 3873 |
+
hợt
|
| 3874 |
+
siêng
|
| 3875 |
+
tánh
|
| 3876 |
+
nhấm
|
| 3877 |
+
đọ
|
| 3878 |
+
rựa
|
| 3879 |
+
ghẹo
|
| 3880 |
+
đênh
|
| 3881 |
+
sứt
|
| 3882 |
+
nít
|
| 3883 |
+
gẫy
|
| 3884 |
+
cỗi
|
| 3885 |
+
bịu
|
| 3886 |
+
loanh
|
| 3887 |
+
mánh
|
| 3888 |
+
lỉnh
|
| 3889 |
+
khư
|
| 3890 |
+
rết
|
| 3891 |
+
dế
|
| 3892 |
+
xâu
|
| 3893 |
+
nứa
|
| 3894 |
+
nhẽ
|
| 3895 |
+
diệc
|
| 3896 |
+
đác
|
| 3897 |
+
cợt
|
| 3898 |
+
nhím
|
| 3899 |
+
toại
|
| 3900 |
+
bặt
|
| 3901 |
+
cỏi
|
| 3902 |
+
xúm
|
| 3903 |
+
sính
|
| 3904 |
+
mói
|
| 3905 |
+
đùn
|
| 3906 |
+
tru
|
| 3907 |
+
đày
|
| 3908 |
+
xuýt
|
| 3909 |
+
thóp
|
| 3910 |
+
veo
|
| 3911 |
+
dúm
|
| 3912 |
+
cặm
|
| 3913 |
+
lỳ
|
| 3914 |
+
giẻ
|
| 3915 |
+
thỉ
|
| 3916 |
+
rịch
|
| 3917 |
+
phin
|
| 3918 |
+
mếu
|
| 3919 |
+
lự
|
| 3920 |
+
thố
|
| 3921 |
+
săm
|
| 3922 |
+
khảm
|
| 3923 |
+
pơ
|
| 3924 |
+
ghẻ
|
| 3925 |
+
hỉ
|
| 3926 |
+
chợp
|
| 3927 |
+
thảy
|
| 3928 |
+
quặc
|
| 3929 |
+
núc
|
| 3930 |
+
vạc
|
| 3931 |
+
thui
|
| 3932 |
+
thoắt
|
| 3933 |
+
ngỗng
|
| 3934 |
+
nớp
|
| 3935 |
+
mằn
|
| 3936 |
+
thuyển
|
| 3937 |
+
rọi
|
| 3938 |
+
trìu
|
| 3939 |
+
thẫn
|
| 3940 |
+
gặng
|
| 3941 |
+
khăm
|
| 3942 |
+
gianh
|
| 3943 |
+
guồng
|
| 3944 |
+
biếm
|
| 3945 |
+
nhúc
|
| 3946 |
+
khấn
|
| 3947 |
+
hấn
|
| 3948 |
+
thẹn
|
| 3949 |
+
quầng
|
| 3950 |
+
lù
|
| 3951 |
+
bập
|
| 3952 |
+
ắc
|
| 3953 |
+
loạng
|
| 3954 |
+
thào
|
| 3955 |
+
ngò
|
| 3956 |
+
tiều
|
| 3957 |
+
phom
|
| 3958 |
+
mỵ
|
| 3959 |
+
chum
|
| 3960 |
+
gút
|
| 3961 |
+
xéo
|
| 3962 |
+
ứa
|
| 3963 |
+
tuộc
|
| 3964 |
+
trạc
|
| 3965 |
+
phùn
|
| 3966 |
+
phàng
|
| 3967 |
+
rúp
|
| 3968 |
+
ngoi
|
| 3969 |
+
chẻ
|
| 3970 |
+
nhọt
|
| 3971 |
+
inh
|
| 3972 |
+
hí
|
| 3973 |
+
giễu
|
| 3974 |
+
rạc
|
| 3975 |
+
mịch
|
| 3976 |
+
lết
|
| 3977 |
+
cồ
|
| 3978 |
+
náy
|
| 3979 |
+
au
|
| 3980 |
+
đượm
|
| 3981 |
+
rầy
|
| 3982 |
+
phàm
|
| 3983 |
+
hửng
|
| 3984 |
+
ngầu
|
| 3985 |
+
nẹp
|
| 3986 |
+
phũ
|
| 3987 |
+
hù
|
| 3988 |
+
quặn
|
| 3989 |
+
nán
|
| 3990 |
+
rộp
|
| 3991 |
+
ợ
|
| 3992 |
+
hững
|
| 3993 |
+
tành
|
| 3994 |
+
mân
|
| 3995 |
+
xập
|
| 3996 |
+
ù
|
| 3997 |
+
trồi
|
| 3998 |
+
trịa
|
| 3999 |
+
ngùn
|
| 4000 |
+
kìa
|
| 4001 |
+
xiển
|
| 4002 |
+
hên
|
| 4003 |
+
sậm
|
| 4004 |
+
mụ
|
| 4005 |
+
gặm
|
| 4006 |
+
dả
|
| 4007 |
+
ngụt
|
| 4008 |
+
mui
|
| 4009 |
+
bống
|
| 4010 |
+
dầy
|
| 4011 |
+
chườm
|
| 4012 |
+
sới
|
| 4013 |
+
ngẩng
|
| 4014 |
+
áy
|
| 4015 |
+
đĩnh
|
| 4016 |
+
lủi
|
| 4017 |
+
en
|
| 4018 |
+
giuộc
|
| 4019 |
+
rợ
|
| 4020 |
+
lẹ
|
| 4021 |
+
hẹ
|
| 4022 |
+
gáp
|
| 4023 |
+
phiệt
|
| 4024 |
+
ngước
|
| 4025 |
+
chòm
|
| 4026 |
+
pù
|
| 4027 |
+
kình
|
| 4028 |
+
khàn
|
| 4029 |
+
nục
|
| 4030 |
+
mố
|
| 4031 |
+
trừu
|
| 4032 |
+
mỉa
|
| 4033 |
+
gả
|
| 4034 |
+
cọp
|
| 4035 |
+
ngấn
|
| 4036 |
+
nãy
|
| 4037 |
+
háng
|
| 4038 |
+
tót
|
| 4039 |
+
cộc
|
| 4040 |
+
chẵn
|
| 4041 |
+
beng
|
| 4042 |
+
vịn
|
| 4043 |
+
phuy
|
| 4044 |
+
cuồn
|
| 4045 |
+
táp
|
| 4046 |
+
nhứt
|
| 4047 |
+
miễu
|
| 4048 |
+
lắt
|
| 4049 |
+
khem
|
| 4050 |
+
cạm
|
| 4051 |
+
hùn
|
| 4052 |
+
lằn
|
| 4053 |
+
chùn
|
| 4054 |
+
bẹn
|
| 4055 |
+
xụp
|
| 4056 |
+
mề
|
| 4057 |
+
nua
|
| 4058 |
+
hục
|
| 4059 |
+
đẽo
|
| 4060 |
+
thổn
|
| 4061 |
+
hực
|
| 4062 |
+
nuông
|
| 4063 |
+
nu
|
| 4064 |
+
sình
|
| 4065 |
+
nhuế
|
| 4066 |
+
xém
|
| 4067 |
+
cheo
|
| 4068 |
+
viêng
|
| 4069 |
+
diêu
|
| 4070 |
+
hoen
|
| 4071 |
+
bẹ
|
| 4072 |
+
ngấy
|
| 4073 |
+
mé
|
| 4074 |
+
xộc
|
| 4075 |
+
rượi
|
| 4076 |
+
hừng
|
| 4077 |
+
xuể
|
| 4078 |
+
thình
|
| 4079 |
+
gồ
|
| 4080 |
+
xẻng
|
| 4081 |
+
cún
|
| 4082 |
+
trám
|
| 4083 |
+
thướt
|
| 4084 |
+
oái
|
| 4085 |
+
vánh
|
| 4086 |
+
típ
|
| 4087 |
+
sy
|
| 4088 |
+
rươi
|
| 4089 |
+
nướu
|
| 4090 |
+
mơn
|
| 4091 |
+
móm
|
| 4092 |
+
chãi
|
| 4093 |
+
tộ
|
| 4094 |
+
thớ
|
| 4095 |
+
nhạn
|
| 4096 |
+
ngai
|
| 4097 |
+
chấu
|
| 4098 |
+
hì
|
| 4099 |
+
rợp
|
| 4100 |
+
nhót
|
| 4101 |
+
ke
|
| 4102 |
+
chồi
|
| 4103 |
+
voọc
|
| 4104 |
+
uổng
|
| 4105 |
+
phiếm
|
| 4106 |
+
phèo
|
| 4107 |
+
đoài
|
| 4108 |
+
gãi
|
| 4109 |
+
uế
|
| 4110 |
+
khấm
|
| 4111 |
+
hộc
|
| 4112 |
+
xo
|
| 4113 |
+
mảy
|
| 4114 |
+
gấc
|
| 4115 |
+
ỳ
|
| 4116 |
+
lòi
|
| 4117 |
+
xoà
|
| 4118 |
+
tắp
|
| 4119 |
+
vông
|
| 4120 |
+
trôm
|
| 4121 |
+
nin
|
| 4122 |
+
hê
|
| 4123 |
+
bòn
|
| 4124 |
+
nhẵn
|
| 4125 |
+
chửa
|
| 4126 |
+
đước
|
| 4127 |
+
khui
|
| 4128 |
+
chới
|
| 4129 |
+
vèo
|
| 4130 |
+
thỉu
|
| 4131 |
+
te
|
| 4132 |
+
sên
|
| 4133 |
+
nhòm
|
| 4134 |
+
đìa
|
| 4135 |
+
dam
|
| 4136 |
+
phích
|
| 4137 |
+
đơ
|
| 4138 |
+
biền
|
| 4139 |
+
bẽ
|
| 4140 |
+
ó
|
| 4141 |
+
hạo
|
| 4142 |
+
chớm
|
| 4143 |
+
vón
|
| 4144 |
+
rói
|
| 4145 |
+
đuốc
|
| 4146 |
+
hau
|
| 4147 |
+
dó
|
| 4148 |
+
thủi
|
| 4149 |
+
nhằng
|
| 4150 |
+
ạch
|
| 4151 |
+
bụt
|
| 4152 |
+
tửu
|
| 4153 |
+
dà
|
| 4154 |
+
uẩn
|
| 4155 |
+
toác
|
| 4156 |
+
quỵt
|
| 4157 |
+
phờ
|
| 4158 |
+
bọng
|
| 4159 |
+
uể
|
| 4160 |
+
ráy
|
| 4161 |
+
đúp
|
| 4162 |
+
dúi
|
| 4163 |
+
díu
|
| 4164 |
+
vù
|
| 4165 |
+
khè
|
| 4166 |
+
chóc
|
| 4167 |
+
beo
|
| 4168 |
+
tuốt
|
| 4169 |
+
hùa
|
| 4170 |
+
ngụm
|
| 4171 |
+
thày
|
| 4172 |
+
lụp
|
| 4173 |
+
chình
|
| 4174 |
+
soài
|
| 4175 |
+
rên
|
| 4176 |
+
bịp
|
| 4177 |
+
boong
|
| 4178 |
+
rìu
|
| 4179 |
+
nhản
|
| 4180 |
+
chóp
|
| 4181 |
+
cầy
|
| 4182 |
+
nhạo
|
| 4183 |
+
khoi
|
| 4184 |
+
giũa
|
| 4185 |
+
tĩu
|
| 4186 |
+
nhàu
|
| 4187 |
+
nghiễm
|
| 4188 |
+
nếnh
|
| 4189 |
+
nùng
|
| 4190 |
+
mót
|
| 4191 |
+
chột
|
| 4192 |
+
vắn
|
| 4193 |
+
mỏm
|
| 4194 |
+
bua
|
| 4195 |
+
ém
|
| 4196 |
+
rưới
|
| 4197 |
+
báng
|
| 4198 |
+
xốt
|
| 4199 |
+
rởm
|
| 4200 |
+
nườm
|
| 4201 |
+
niềng
|
| 4202 |
+
nghịt
|
| 4203 |
+
rảo
|
| 4204 |
+
lỵ
|
| 4205 |
+
bìu
|
| 4206 |
+
vừ
|
| 4207 |
+
truân
|
| 4208 |
+
quẩy
|
| 4209 |
+
nượp
|
| 4210 |
+
dẹt
|
| 4211 |
+
sắng
|
| 4212 |
+
rỗ
|
| 4213 |
+
rần
|
| 4214 |
+
vầng
|
| 4215 |
+
lể
|
| 4216 |
+
gờ
|
| 4217 |
+
đuông
|
| 4218 |
+
dấp
|
| 4219 |
+
tuýt
|
| 4220 |
+
them
|
| 4221 |
+
thẫm
|
| 4222 |
+
quẹo
|
| 4223 |
+
thít
|
| 4224 |
+
lổ
|
| 4225 |
+
yểu
|
| 4226 |
+
ló
|
| 4227 |
+
lãn
|
| 4228 |
+
khoải
|
| 4229 |
+
loáng
|
| 4230 |
+
kịt
|
| 4231 |
+
bờm
|
| 4232 |
+
xẩy
|
| 4233 |
+
xẹp
|
| 4234 |
+
khập
|
| 4235 |
+
quằn
|
| 4236 |
+
mần
|
| 4237 |
+
loá
|
| 4238 |
+
nhoi
|
| 4239 |
+
diếp
|
| 4240 |
+
tăn
|
| 4241 |
+
kiển
|
| 4242 |
+
rặng
|
| 4243 |
+
quyệt
|
| 4244 |
+
sám
|
| 4245 |
+
sạ
|
| 4246 |
+
giặm
|
| 4247 |
+
bẵng
|
| 4248 |
+
sủi
|
| 4249 |
+
mống
|
| 4250 |
+
chử
|
| 4251 |
+
tầu
|
| 4252 |
+
tằn
|
| 4253 |
+
quánh
|
| 4254 |
+
nhộng
|
| 4255 |
+
nê
|
| 4256 |
+
đoản
|
| 4257 |
+
ăng
|
| 4258 |
+
tếu
|
| 4259 |
+
muồi
|
| 4260 |
+
vái
|
| 4261 |
+
trát
|
| 4262 |
+
bấu
|
| 4263 |
+
lơi
|
| 4264 |
+
lẵng
|
| 4265 |
+
hách
|
| 4266 |
+
nhơ
|
| 4267 |
+
liếm
|
| 4268 |
+
toanh
|
| 4269 |
+
nhốn
|
| 4270 |
+
ngoa
|
| 4271 |
+
ròi
|
| 4272 |
+
biếc
|
| 4273 |
+
úa
|
| 4274 |
+
tưởi
|
| 4275 |
+
xó
|
| 4276 |
+
ửng
|
| 4277 |
+
lợm
|
| 4278 |
+
lềnh
|
| 4279 |
+
tể
|
| 4280 |
+
ngươi
|
| 4281 |
+
yểm
|
| 4282 |
+
rì
|
| 4283 |
+
nầm
|
| 4284 |
+
gẫm
|
| 4285 |
+
cảo
|
| 4286 |
+
sọt
|
| 4287 |
+
nhám
|
| 4288 |
+
nằng
|
| 4289 |
+
gáo
|
| 4290 |
+
chường
|
| 4291 |
+
ớn
|
| 4292 |
+
nhãng
|
| 4293 |
+
lủng
|
| 4294 |
+
túp
|
| 4295 |
+
nuột
|
| 4296 |
+
xốc
|
| 4297 |
+
thênh
|
| 4298 |
+
khiễng
|
| 4299 |
+
điếm
|
| 4300 |
+
đẵng
|
| 4301 |
+
chuân
|
| 4302 |
+
bun
|
| 4303 |
+
hui
|
| 4304 |
+
hói
|
| 4305 |
+
chộp
|
| 4306 |
+
chơ
|
| 4307 |
+
po
|
| 4308 |
+
loè
|
| 4309 |
+
hua
|
| 4310 |
+
gàu
|
| 4311 |
+
nhuốm
|
| 4312 |
+
nhoài
|
| 4313 |
+
khuếch
|
| 4314 |
+
quắt
|
| 4315 |
+
phảng
|
| 4316 |
+
luy
|
| 4317 |
+
húp
|
| 4318 |
+
cuội
|
| 4319 |
+
bẫm
|
| 4320 |
+
dật
|
| 4321 |
+
nhặn
|
| 4322 |
+
pao
|
| 4323 |
+
xáng
|
| 4324 |
+
khước
|
| 4325 |
+
đoạ
|
| 4326 |
+
bằm
|
| 4327 |
+
thủa
|
| 4328 |
+
quại
|
| 4329 |
+
lình
|
| 4330 |
+
huề
|
| 4331 |
+
voan
|
| 4332 |
+
nghinh
|
| 4333 |
+
vó
|
| 4334 |
+
pay
|
| 4335 |
+
nhoè
|
| 4336 |
+
dằng
|
| 4337 |
+
bĩnh
|
| 4338 |
+
trấu
|
| 4339 |
+
nựng
|
| 4340 |
+
dau
|
| 4341 |
+
nè
|
| 4342 |
+
vại
|
| 4343 |
+
ớ
|
| 4344 |
+
niêu
|
| 4345 |
+
lợ
|
| 4346 |
+
lêu
|
| 4347 |
+
rim
|
| 4348 |
+
ram
|
| 4349 |
+
oằn
|
| 4350 |
+
loăng
|
| 4351 |
+
dãn
|
| 4352 |
+
tởm
|
| 4353 |
+
nanh
|
| 4354 |
+
đơm
|
| 4355 |
+
búng
|
| 4356 |
+
hạp
|
| 4357 |
+
ghém
|
| 4358 |
+
ngáp
|
| 4359 |
+
giãy
|
| 4360 |
+
láy
|
| 4361 |
+
nồm
|
| 4362 |
+
lạn
|
| 4363 |
+
nhem
|
| 4364 |
+
nhài
|
| 4365 |
+
chồm
|
| 4366 |
+
bụ
|
| 4367 |
+
xép
|
| 4368 |
+
oăm
|
| 4369 |
+
gờm
|
| 4370 |
+
trề
|
| 4371 |
+
máo
|
| 4372 |
+
chờn
|
| 4373 |
+
trằn
|
| 4374 |
+
lũi
|
| 4375 |
+
liềm
|
| 4376 |
+
lải
|
| 4377 |
+
khạc
|
| 4378 |
+
gộc
|
| 4379 |
+
chọt
|
| 4380 |
+
ngọng
|
| 4381 |
+
khua
|
| 4382 |
+
xom
|
| 4383 |
+
ria
|
| 4384 |
+
ngòm
|
| 4385 |
+
ngoảnh
|
| 4386 |
+
ngoặc
|
| 4387 |
+
nẹt
|
| 4388 |
+
sìn
|
| 4389 |
+
chuốc
|
| 4390 |
+
toang
|
| 4391 |
+
sua
|
| 4392 |
+
nghía
|
| 4393 |
+
lẩm
|
| 4394 |
+
trịch
|
| 4395 |
+
quắp
|
| 4396 |
+
dượt
|
| 4397 |
+
tau
|
| 4398 |
+
ghề
|
| 4399 |
+
sủng
|
| 4400 |
+
dua
|
| 4401 |
+
tạnh
|
| 4402 |
+
sực
|
| 4403 |
+
bự
|
| 4404 |
+
tíu
|
| 4405 |
+
còm
|
| 4406 |
+
cạch
|
| 4407 |
+
mun
|
| 4408 |
+
tủa
|
| 4409 |
+
lứt
|
| 4410 |
+
kiềng
|
| 4411 |
+
gùi
|
| 4412 |
+
sề
|
| 4413 |
+
phập
|
| 4414 |
+
mùn
|
| 4415 |
+
loã
|
| 4416 |
+
guốc
|
| 4417 |
+
phúng
|
| 4418 |
+
hủi
|
| 4419 |
+
hỡi
|
| 4420 |
+
chác
|
| 4421 |
+
pi
|
| 4422 |
+
pà
|
| 4423 |
+
mõm
|
| 4424 |
+
nhè
|
| 4425 |
+
mũm
|
| 4426 |
+
mĩm
|
| 4427 |
+
lẹt
|
| 4428 |
+
bõm
|
| 4429 |
+
tuế
|
| 4430 |
+
ké
|
| 4431 |
+
gien
|
| 4432 |
+
quạnh
|
| 4433 |
+
hác
|
| 4434 |
+
thiếc
|
| 4435 |
+
riu
|
| 4436 |
+
nưa
|
| 4437 |
+
thảng
|
| 4438 |
+
noãn
|
| 4439 |
+
bâng
|
| 4440 |
+
soán
|
| 4441 |
+
nịch
|
| 4442 |
+
nhó
|
| 4443 |
+
thăn
|
| 4444 |
+
nũng
|
| 4445 |
+
giụa
|
| 4446 |
+
moong
|
| 4447 |
+
khêu
|
| 4448 |
+
kếch
|
| 4449 |
+
dòi
|
| 4450 |
+
nhũn
|
| 4451 |
+
vẻn
|
| 4452 |
+
nhữ
|
| 4453 |
+
cuỗm
|
| 4454 |
+
chửng
|
| 4455 |
+
ngăm
|
| 4456 |
+
boa
|
| 4457 |
+
ươn
|
| 4458 |
+
mớm
|
| 4459 |
+
quơ
|
| 4460 |
+
giương
|
| 4461 |
+
xổm
|
| 4462 |
+
lìm
|
| 4463 |
+
lèn
|
| 4464 |
+
điếng
|
| 4465 |
+
phớ
|
| 4466 |
+
gẫu
|
| 4467 |
+
phỉ
|
| 4468 |
+
ngổ
|
| 4469 |
+
loé
|
| 4470 |
+
diếm
|
| 4471 |
+
dậm
|
| 4472 |
+
đăm
|
| 4473 |
+
chin
|
| 4474 |
+
nhúm
|
| 4475 |
+
kị
|
| 4476 |
+
guy
|
| 4477 |
+
dửng
|
| 4478 |
+
trượng
|
| 4479 |
+
thẩn
|
| 4480 |
+
nhuỵ
|
| 4481 |
+
giập
|
| 4482 |
+
cói
|
| 4483 |
+
bỉu
|
| 4484 |
+
xơi
|
| 4485 |
+
thoăn
|
| 4486 |
+
phẩy
|
| 4487 |
+
nhiếc
|
| 4488 |
+
duật
|
| 4489 |
+
ríu
|
| 4490 |
+
hênh
|
| 4491 |
+
truồng
|
| 4492 |
+
nhum
|
| 4493 |
+
nhom
|
| 4494 |
+
nia
|
| 4495 |
+
gợn
|
| 4496 |
+
soa
|
| 4497 |
+
giòi
|
| 4498 |
+
tửng
|
| 4499 |
+
khuây
|
| 4500 |
+
kiếng
|
| 4501 |
+
dụi
|
| 4502 |
+
nệ
|
| 4503 |
+
liệm
|
| 4504 |
+
rọ
|
| 4505 |
+
nhú
|
| 4506 |
+
hiềm
|
| 4507 |
+
ghim
|
| 4508 |
+
thiển
|
| 4509 |
+
đồm
|
| 4510 |
+
khom
|
| 4511 |
+
dùm
|
| 4512 |
+
vối
|
| 4513 |
+
lè
|
| 4514 |
+
khứa
|
| 4515 |
+
èo
|
| 4516 |
+
doi
|
| 4517 |
+
đoa
|
| 4518 |
+
mạp
|
| 4519 |
+
địu
|
| 4520 |
+
cở
|
| 4521 |
+
vạm
|
| 4522 |
+
thó
|
| 4523 |
+
tời
|
| 4524 |
+
miều
|
| 4525 |
+
lọng
|
| 4526 |
+
khèn
|
| 4527 |
+
rua
|
| 4528 |
+
quạ
|
| 4529 |
+
thược
|
| 4530 |
+
rắm
|
| 4531 |
+
ngụp
|
| 4532 |
+
trườn
|
| 4533 |
+
thím
|
| 4534 |
+
cộp
|
| 4535 |
+
thồ
|
| 4536 |
+
gằn
|
| 4537 |
+
bấn
|
| 4538 |
+
xị
|
| 4539 |
+
rớ
|
| 4540 |
+
huổi
|
| 4541 |
+
cùm
|
| 4542 |
+
phủi
|
| 4543 |
+
ngoằn
|
| 4544 |
+
khà
|
| 4545 |
+
hủa
|
| 4546 |
+
sổng
|
| 4547 |
+
peng
|
| 4548 |
+
nghèn
|
| 4549 |
+
xuề
|
| 4550 |
+
nghét
|
| 4551 |
+
lới
|
| 4552 |
+
khố
|
| 4553 |
+
xệch
|
| 4554 |
+
rữa
|
| 4555 |
+
nghếch
|
| 4556 |
+
rúm
|
| 4557 |
+
ngoạ
|
| 4558 |
+
quềnh
|
| 4559 |
+
mẫm
|
| 4560 |
+
khong
|
| 4561 |
+
ăm
|
| 4562 |
+
phò
|
| 4563 |
+
mấp
|
| 4564 |
+
kiết
|
| 4565 |
+
xình
|
| 4566 |
+
lé
|
| 4567 |
+
gàn
|
| 4568 |
+
đảnh
|
| 4569 |
+
ậm
|
| 4570 |
+
trối
|
| 4571 |
+
nhăm
|
| 4572 |
+
nạng
|
| 4573 |
+
dòm
|
| 4574 |
+
chề
|
| 4575 |
+
xỉa
|
| 4576 |
+
rắp
|
| 4577 |
+
viển
|
| 4578 |
+
uột
|
| 4579 |
+
mợ
|
| 4580 |
+
bủn
|
| 4581 |
+
thằn
|
| 4582 |
+
phăn
|
| 4583 |
+
oánh
|
| 4584 |
+
lững
|
| 4585 |
+
lém
|
| 4586 |
+
gôn
|
| 4587 |
+
ang
|
| 4588 |
+
nạm
|
| 4589 |
+
kiền
|
| 4590 |
+
bân
|
| 4591 |
+
rĩ
|
| 4592 |
+
ngoe
|
| 4593 |
+
lổng
|
| 4594 |
+
hơ
|
| 4595 |
+
vượn
|
| 4596 |
+
thoang
|
| 4597 |
+
bõ
|
| 4598 |
+
thòng
|
| 4599 |
+
som
|
| 4600 |
+
giậm
|
| 4601 |
+
réo
|
| 4602 |
+
nịu
|
| 4603 |
+
muốt
|
| 4604 |
+
lia
|
| 4605 |
+
ruồng
|
| 4606 |
+
hĩnh
|
| 4607 |
+
xum
|
| 4608 |
+
tráp
|
| 4609 |
+
toàng
|
| 4610 |
+
mành
|
| 4611 |
+
mòi
|
| 4612 |
+
lúm
|
| 4613 |
+
gí
|
| 4614 |
+
xuyết
|
| 4615 |
+
phới
|
| 4616 |
+
chúi
|
| 4617 |
+
tàm
|
| 4618 |
+
sũng
|
| 4619 |
+
phên
|
| 4620 |
+
nhử
|
| 4621 |
+
rỏi
|
| 4622 |
+
hu
|
| 4623 |
+
trảm
|
| 4624 |
+
hập
|
| 4625 |
+
nhe
|
| 4626 |
+
meo
|
| 4627 |
+
gọng
|
| 4628 |
+
nhễ
|
| 4629 |
+
truông
|
| 4630 |
+
seng
|
| 4631 |
+
rủng
|
| 4632 |
+
vạng
|
| 4633 |
+
sền
|
| 4634 |
+
phầm
|
| 4635 |
+
xổi
|
| 4636 |
+
cũi
|
| 4637 |
+
trọi
|
| 4638 |
+
phia
|
| 4639 |
+
loẹt
|
| 4640 |
+
truất
|
| 4641 |
+
suý
|
| 4642 |
+
mởn
|
| 4643 |
+
giốc
|
| 4644 |
+
bứng
|
| 4645 |
+
vuột
|
| 4646 |
+
phay
|
| 4647 |
+
ờ
|
| 4648 |
+
khứu
|
| 4649 |
+
kệch
|
| 4650 |
+
xoã
|
| 4651 |
+
rỉnh
|
| 4652 |
+
nhép
|
| 4653 |
+
khản
|
| 4654 |
+
dổi
|
| 4655 |
+
chạng
|
| 4656 |
+
bẵm
|
| 4657 |
+
xồng
|
| 4658 |
+
phây
|
| 4659 |
+
mom
|
| 4660 |
+
lẽn
|
| 4661 |
+
bẽn
|
| 4662 |
+
vanh
|
| 4663 |
+
pen
|
| 4664 |
+
nhông
|
| 4665 |
+
nhẹm
|
| 4666 |
+
leng
|
| 4667 |
+
kền
|
| 4668 |
+
dề
|
| 4669 |
+
vè
|
| 4670 |
+
lẩy
|
| 4671 |
+
rộc
|
| 4672 |
+
nỏ
|
| 4673 |
+
lởm
|
| 4674 |
+
tụm
|
| 4675 |
+
nõn
|
| 4676 |
+
ngố
|
| 4677 |
+
vẻo
|
| 4678 |
+
rích
|
| 4679 |
+
nhẻm
|
| 4680 |
+
ghiền
|
| 4681 |
+
đở
|
| 4682 |
+
cóng
|
| 4683 |
+
rặn
|
| 4684 |
+
rám
|
| 4685 |
+
oang
|
| 4686 |
+
nhành
|
| 4687 |
+
chứt
|
| 4688 |
+
xú
|
| 4689 |
+
thốc
|
| 4690 |
+
thãi
|
| 4691 |
+
rường
|
| 4692 |
+
luộm
|
| 4693 |
+
ghì
|
| 4694 |
+
phẩn
|
| 4695 |
+
pá
|
| 4696 |
+
nhèm
|
| 4697 |
+
thiểm
|
| 4698 |
+
liễn
|
| 4699 |
+
choán
|
| 4700 |
+
bớp
|
| 4701 |
+
tớp
|
| 4702 |
+
sớ
|
| 4703 |
+
mủi
|
| 4704 |
+
đọt
|
| 4705 |
+
cườm
|
| 4706 |
+
chỏng
|
| 4707 |
+
toi
|
| 4708 |
+
tịt
|
| 4709 |
+
guộc
|
| 4710 |
+
đìu
|
| 4711 |
+
đên
|
| 4712 |
+
đốp
|
| 4713 |
+
khuy
|
| 4714 |
+
chiền
|
| 4715 |
+
xúng
|
| 4716 |
+
vê
|
| 4717 |
+
vẳng
|
| 4718 |
+
tréo
|
| 4719 |
+
keng
|
| 4720 |
+
hão
|
| 4721 |
+
cheng
|
| 4722 |
+
í
|
| 4723 |
+
dom
|
| 4724 |
+
thuộm
|
| 4725 |
+
sỏ
|
| 4726 |
+
sậy
|
| 4727 |
+
lú
|
| 4728 |
+
hớp
|
| 4729 |
+
sém
|
| 4730 |
+
sác
|
| 4731 |
+
nhạnh
|
| 4732 |
+
ngộp
|
| 4733 |
+
mọ
|
| 4734 |
+
gun
|
| 4735 |
+
xoàn
|
| 4736 |
+
vằng
|
| 4737 |
+
toạc
|
| 4738 |
+
rí
|
| 4739 |
+
rằn
|
| 4740 |
+
ngái
|
| 4741 |
+
xuý
|
| 4742 |
+
xính
|
| 4743 |
+
tuốc
|
| 4744 |
+
thây
|
| 4745 |
+
qúa
|
| 4746 |
+
đẫy
|
| 4747 |
+
trớn
|
| 4748 |
+
hòi
|
| 4749 |
+
sờn
|
| 4750 |
+
tuềnh
|
| 4751 |
+
gột
|
| 4752 |
+
lét
|
| 4753 |
+
rin
|
| 4754 |
+
mọn
|
| 4755 |
+
tâng
|
| 4756 |
+
mẹt
|
| 4757 |
+
húi
|
| 4758 |
+
buột
|
| 4759 |
+
tray
|
| 4760 |
+
quẳng
|
| 4761 |
+
ngâu
|
| 4762 |
+
duân
|
| 4763 |
+
thom
|
| 4764 |
+
ngỗ
|
| 4765 |
+
nghệch
|
| 4766 |
+
xôm
|
| 4767 |
+
phang
|
| 4768 |
+
ọp
|
| 4769 |
+
đon
|
| 4770 |
+
toáng
|
| 4771 |
+
thoan
|
| 4772 |
+
sái
|
| 4773 |
+
nhởn
|
| 4774 |
+
lúi
|
| 4775 |
+
rọc
|
| 4776 |
+
gạn
|
| 4777 |
+
ẹp
|
| 4778 |
+
dững
|
| 4779 |
+
trụng
|
| 4780 |
+
thều
|
| 4781 |
+
rạo
|
| 4782 |
+
nịt
|
| 4783 |
+
ngoèo
|
| 4784 |
+
mèn
|
| 4785 |
+
dực
|
| 4786 |
+
dõng
|
| 4787 |
+
làu
|
| 4788 |
+
kin
|
| 4789 |
+
duyện
|
| 4790 |
+
đung
|
| 4791 |
+
ngoạc
|
| 4792 |
+
tút
|
| 4793 |
+
trờ
|
| 4794 |
+
sì
|
| 4795 |
+
cót
|
| 4796 |
+
vợi
|
| 4797 |
+
nhao
|
| 4798 |
+
nhặng
|
| 4799 |
+
chởm
|
| 4800 |
+
bươu
|
| 4801 |
+
xang
|
| 4802 |
+
vược
|
| 4803 |
+
vam
|
| 4804 |
+
ngấp
|
| 4805 |
+
xuê
|
| 4806 |
+
nhố
|
| 4807 |
+
bìm
|
| 4808 |
+
véo
|
| 4809 |
+
vảng
|
| 4810 |
+
thàng
|
| 4811 |
+
sồi
|
| 4812 |
+
queo
|
| 4813 |
+
khuâng
|
| 4814 |
+
ươi
|
| 4815 |
+
ngụa
|
| 4816 |
+
ngoáy
|
| 4817 |
+
ỉm
|
| 4818 |
+
hậm
|
| 4819 |
+
gằm
|
| 4820 |
+
túa
|
| 4821 |
+
sẩm
|
| 4822 |
+
rọt
|
| 4823 |
+
khuông
|
| 4824 |
+
huyến
|
| 4825 |
+
xắc
|
| 4826 |
+
soạng
|
| 4827 |
+
piêu
|
| 4828 |
+
đật
|
| 4829 |
+
đẫn
|
| 4830 |
+
tủm
|
| 4831 |
+
rủn
|
| 4832 |
+
choẹ
|
| 4833 |
+
xiêng
|
| 4834 |
+
viềng
|
| 4835 |
+
tằng
|
| 4836 |
+
pó
|
| 4837 |
+
xoe
|
| 4838 |
+
ngắc
|
| 4839 |
+
lởi
|
| 4840 |
+
hom
|
| 4841 |
+
ã
|
| 4842 |
+
sồng
|
| 4843 |
+
rụm
|
| 4844 |
+
páo
|
| 4845 |
+
nhảu
|
| 4846 |
+
khựng
|
| 4847 |
+
kháp
|
| 4848 |
+
hoác
|
| 4849 |
+
thọc
|
| 4850 |
+
rắt
|
| 4851 |
+
giắt
|
| 4852 |
+
đỏng
|
| 4853 |
+
tỉm
|
| 4854 |
+
lói
|
| 4855 |
+
khau
|
| 4856 |
+
trùn
|
| 4857 |
+
trạo
|
| 4858 |
+
soóc
|
| 4859 |
+
ới
|
| 4860 |
+
kẻng
|
| 4861 |
+
sượt
|
| 4862 |
+
qủa
|
| 4863 |
+
hỏn
|
| 4864 |
+
chẹt
|
| 4865 |
+
bện
|
| 4866 |
+
téc
|
| 4867 |
+
sõng
|
| 4868 |
+
rén
|
| 4869 |
+
nhùng
|
| 4870 |
+
gầu
|
| 4871 |
+
dặc
|
| 4872 |
+
vức
|
| 4873 |
+
phơ
|
| 4874 |
+
nhõng
|
| 4875 |
+
kềm
|
| 4876 |
+
rền
|
| 4877 |
+
nguệch
|
| 4878 |
+
khưu
|
| 4879 |
+
khấp
|
| 4880 |
+
khảnh
|
| 4881 |
+
hựu
|
| 4882 |
+
tược
|
| 4883 |
+
sia
|
| 4884 |
+
đin
|
| 4885 |
+
sượng
|
| 4886 |
+
kháo
|
| 4887 |
+
xẹt
|
| 4888 |
+
trẩy
|
| 4889 |
+
rón
|
| 4890 |
+
quẫy
|
| 4891 |
+
tênh
|
| 4892 |
+
iu
|
| 4893 |
+
rịn
|
| 4894 |
+
phạc
|
| 4895 |
+
pác
|
| 4896 |
+
đuống
|
| 4897 |
+
quết
|
| 4898 |
+
phấp
|
| 4899 |
+
pê
|
| 4900 |
+
lớ
|
| 4901 |
+
hâu
|
| 4902 |
+
bòng
|
| 4903 |
+
thin
|
| 4904 |
+
sui
|
| 4905 |
+
quắm
|
| 4906 |
+
phiu
|
| 4907 |
+
tiêng
|
| 4908 |
+
róc
|
| 4909 |
+
rận
|
| 4910 |
+
muông
|
| 4911 |
+
muồng
|
| 4912 |
+
gui
|
| 4913 |
+
gong
|
| 4914 |
+
đúm
|
| 4915 |
+
bẳn
|
| 4916 |
+
xốn
|
| 4917 |
+
loe
|
| 4918 |
+
bẽo
|
| 4919 |
+
vấy
|
| 4920 |
+
truật
|
| 4921 |
+
sõi
|
| 4922 |
+
nẩy
|
| 4923 |
+
xút
|
| 4924 |
+
toe
|
| 4925 |
+
tẹo
|
| 4926 |
+
sật
|
| 4927 |
+
rây
|
| 4928 |
+
nui
|
| 4929 |
+
lấu
|
| 4930 |
+
dạc
|
| 4931 |
+
sếu
|
| 4932 |
+
phắt
|
| 4933 |
+
lèng
|
| 4934 |
+
khuỵu
|
| 4935 |
+
cắc
|
| 4936 |
+
ruộm
|
| 4937 |
+
kheo
|
| 4938 |
+
hóp
|
| 4939 |
+
gièm
|
| 4940 |
+
bốp
|
| 4941 |
+
bĩ
|
| 4942 |
+
xín
|
| 4943 |
+
rưởi
|
| 4944 |
+
phạ
|
| 4945 |
+
nhổm
|
| 4946 |
+
lống
|
| 4947 |
+
gú
|
| 4948 |
+
gá
|
| 4949 |
+
vưởng
|
| 4950 |
+
rúc
|
| 4951 |
+
quặt
|
| 4952 |
+
đủi
|
| 4953 |
+
chấy
|
| 4954 |
+
chạn
|
| 4955 |
+
són
|
| 4956 |
+
giát
|
| 4957 |
+
dềnh
|
| 4958 |
+
trét
|
| 4959 |
+
roe
|
| 4960 |
+
panh
|
| 4961 |
+
lến
|
| 4962 |
+
lằng
|
| 4963 |
+
dộng
|
| 4964 |
+
đít
|
| 4965 |
+
sển
|
| 4966 |
+
lọn
|
| 4967 |
+
khuyển
|
| 4968 |
+
đủng
|
| 4969 |
+
cợn
|
| 4970 |
+
choai
|
| 4971 |
+
bươm
|
| 4972 |
+
nhớp
|
| 4973 |
+
gỏng
|
| 4974 |
+
giựt
|
| 4975 |
+
càu
|
| 4976 |
+
tuẫn
|
| 4977 |
+
tẹt
|
| 4978 |
+
ré
|
| 4979 |
+
nhíp
|
| 4980 |
+
chụm
|
| 4981 |
+
vờn
|
| 4982 |
+
sụa
|
| 4983 |
+
moan
|
| 4984 |
+
choé
|
| 4985 |
+
chỏ
|
| 4986 |
+
cham
|
| 4987 |
+
chá
|
| 4988 |
+
nhùn
|
| 4989 |
+
lất
|
| 4990 |
+
dèm
|
| 4991 |
+
vích
|
| 4992 |
+
thút
|
| 4993 |
+
rum
|
| 4994 |
+
nhời
|
| 4995 |
+
khoắng
|
| 4996 |
+
heng
|
| 4997 |
+
xeo
|
| 4998 |
+
xè
|
| 4999 |
+
rá
|
| 5000 |
+
phử
|
| 5001 |
+
phiêng
|
| 5002 |
+
ních
|
| 5003 |
+
nghịu
|
| 5004 |
+
lum
|
| 5005 |
+
lữa
|
| 5006 |
+
gụ
|
| 5007 |
+
chểnh
|
| 5008 |
+
chái
|
| 5009 |
+
búc
|
| 5010 |
+
rệu
|
| 5011 |
+
rái
|
| 5012 |
+
quèn
|
| 5013 |
+
ngấu
|
| 5014 |
+
gon
|
| 5015 |
+
đừ
|
| 5016 |
+
đĩ
|
| 5017 |
+
chộn
|
| 5018 |
+
tồng
|
| 5019 |
+
núng
|
| 5020 |
+
nót
|
| 5021 |
+
lua
|
| 5022 |
+
khạo
|
| 5023 |
+
giót
|
| 5024 |
+
đòng
|
| 5025 |
+
đẹt
|
| 5026 |
+
trĩnh
|
| 5027 |
+
phễu
|
| 5028 |
+
nầy
|
| 5029 |
+
khểnh
|
| 5030 |
+
giê
|
| 5031 |
+
cụng
|
| 5032 |
+
xầm
|
| 5033 |
+
lơn
|
| 5034 |
+
thuồng
|
| 5035 |
+
thoá
|
| 5036 |
+
síp
|
| 5037 |
+
phau
|
| 5038 |
+
pắc
|
| 5039 |
+
nhẩn
|
| 5040 |
+
nghỉm
|
| 5041 |
+
hẩm
|
| 5042 |
+
bợm
|
| 5043 |
+
vồn
|
| 5044 |
+
sín
|
| 5045 |
+
ry
|
| 5046 |
+
phơn
|
| 5047 |
+
pe
|
| 5048 |
+
ngạnh
|
| 5049 |
+
nạnh
|
| 5050 |
+
lườm
|
| 5051 |
+
lảm
|
| 5052 |
+
xuyền
|
| 5053 |
+
trui
|
| 5054 |
+
quýnh
|
| 5055 |
+
bấc
|
| 5056 |
+
nâm
|
| 5057 |
+
chuôi
|
| 5058 |
+
bụp
|
| 5059 |
+
rờn
|
| 5060 |
+
què
|
| 5061 |
+
nhắt
|
| 5062 |
+
mèm
|
| 5063 |
+
láu
|
| 5064 |
+
choang
|
| 5065 |
+
phổng
|
| 5066 |
+
nhụt
|
| 5067 |
+
nện
|
| 5068 |
+
lẹm
|
| 5069 |
+
khênh
|
| 5070 |
+
trẽn
|
| 5071 |
+
sướt
|
| 5072 |
+
lảo
|
| 5073 |
+
hoanh
|
| 5074 |
+
bịn
|
| 5075 |
+
bậu
|
| 5076 |
+
vùn
|
| 5077 |
+
trư
|
| 5078 |
+
quít
|
| 5079 |
+
ngoắt
|
| 5080 |
+
ỉn
|
| 5081 |
+
chành
|
| 5082 |
+
thếp
|
| 5083 |
+
nhuốc
|
| 5084 |
+
ngoằng
|
| 5085 |
+
ngheo
|
| 5086 |
+
cáy
|
| 5087 |
+
buy
|
| 5088 |
+
lờn
|
| 5089 |
+
toét
|
| 5090 |
+
nhoẻn
|
| 5091 |
+
kít
|
| 5092 |
+
huyễn
|
| 5093 |
+
hem
|
| 5094 |
+
gía
|
| 5095 |
+
cùa
|
| 5096 |
+
ướm
|
| 5097 |
+
quao
|
| 5098 |
+
nhim
|
| 5099 |
+
gô
|
| 5100 |
+
đưng
|
| 5101 |
+
bĩu
|
| 5102 |
+
sẩn
|
| 5103 |
+
hin
|
| 5104 |
+
sây
|
| 5105 |
+
lỏm
|
| 5106 |
+
giầu
|
| 5107 |
+
xuyệt
|
| 5108 |
+
vãnh
|
| 5109 |
+
nhón
|
| 5110 |
+
lườn
|
| 5111 |
+
khú
|
| 5112 |
+
ưỡn
|
| 5113 |
+
ruỗng
|
| 5114 |
+
pủa
|
| 5115 |
+
chếch
|
| 5116 |
+
thuân
|
| 5117 |
+
nọng
|
| 5118 |
+
nèo
|
| 5119 |
+
hiều
|
| 5120 |
+
dúa
|
| 5121 |
+
xìu
|
| 5122 |
+
rướn
|
| 5123 |
+
quàn
|
| 5124 |
+
rùm
|
| 5125 |
+
ngồn
|
| 5126 |
+
lìn
|
| 5127 |
+
khoáy
|
| 5128 |
+
chúm
|
| 5129 |
+
bơn
|
| 5130 |
+
khốm
|
| 5131 |
+
cỏn
|
| 5132 |
+
choảng
|
| 5133 |
+
chạch
|
| 5134 |
+
váp
|
| 5135 |
+
sãi
|
| 5136 |
+
háu
|
| 5137 |
+
chuý
|
| 5138 |
+
chím
|
| 5139 |
+
yêm
|
| 5140 |
+
xán
|
| 5141 |
+
thũng
|
| 5142 |
+
tễnh
|
| 5143 |
+
khính
|
| 5144 |
+
gở
|
| 5145 |
+
đễ
|
| 5146 |
+
bía
|
| 5147 |
+
sụ
|
| 5148 |
+
quị
|
| 5149 |
+
nhít
|
| 5150 |
+
mán
|
| 5151 |
+
huôi
|
| 5152 |
+
huơ
|
| 5153 |
+
hắng
|
| 5154 |
+
ghìm
|
| 5155 |
+
dôm
|
| 5156 |
+
chon
|
| 5157 |
+
bẹt
|
| 5158 |
+
xạc
|
| 5159 |
+
ủa
|
| 5160 |
+
truyển
|
| 5161 |
+
sấn
|
| 5162 |
+
pò
|
| 5163 |
+
nhiêm
|
| 5164 |
+
mồn
|
| 5165 |
+
lưa
|
| 5166 |
+
líp
|
| 5167 |
+
gày
|
| 5168 |
+
đớp
|
| 5169 |
+
đì
|
| 5170 |
+
xịch
|
| 5171 |
+
tuận
|
| 5172 |
+
phụt
|
| 5173 |
+
oẹ
|
| 5174 |
+
oách
|
| 5175 |
+
nặm
|
| 5176 |
+
m��
|
| 5177 |
+
mội
|
| 5178 |
+
hển
|
| 5179 |
+
hằm
|
| 5180 |
+
duẫn
|
| 5181 |
+
dũa
|
| 5182 |
+
dô
|
| 5183 |
+
diếc
|
| 5184 |
+
dến
|
| 5185 |
+
cọt
|
| 5186 |
+
bổi
|
| 5187 |
+
vể
|
| 5188 |
+
tó
|
| 5189 |
+
ình
|
| 5190 |
+
dim
|
| 5191 |
+
mủn
|
| 5192 |
+
khướt
|
| 5193 |
+
khoeo
|
| 5194 |
+
khệ
|
| 5195 |
+
chễ
|
| 5196 |
+
cạ
|
| 5197 |
+
sốp
|
| 5198 |
+
rốc
|
| 5199 |
+
nhẹp
|
| 5200 |
+
gin
|
| 5201 |
+
chòng
|
| 5202 |
+
chỏm
|
| 5203 |
+
xường
|
| 5204 |
+
vập
|
| 5205 |
+
sệ
|
| 5206 |
+
ruy
|
| 5207 |
+
rức
|
| 5208 |
+
quẻ
|
| 5209 |
+
nghen
|
| 5210 |
+
khon
|
| 5211 |
+
huýt
|
| 5212 |
+
hổn
|
| 5213 |
+
xức
|
| 5214 |
+
quĩ
|
| 5215 |
+
miêng
|
| 5216 |
+
khẩm
|
| 5217 |
+
eng
|
| 5218 |
+
chã
|
| 5219 |
+
bệch
|
| 5220 |
+
xúp
|
| 5221 |
+
roa
|
| 5222 |
+
rẻo
|
| 5223 |
+
ngoải
|
| 5224 |
+
mấn
|
| 5225 |
+
chẩm
|
| 5226 |
+
thoong
|
| 5227 |
+
nhíu
|
| 5228 |
+
muôi
|
| 5229 |
+
mõ
|
| 5230 |
+
lịnh
|
| 5231 |
+
ghè
|
| 5232 |
+
vao
|
| 5233 |
+
ui
|
| 5234 |
+
nẫu
|
| 5235 |
+
mưng
|
| 5236 |
+
khuỵ
|
| 5237 |
+
thừ
|
| 5238 |
+
thia
|
| 5239 |
+
ngáng
|
| 5240 |
+
lom
|
| 5241 |
+
dáo
|
| 5242 |
+
dánh
|
| 5243 |
+
phừng
|
| 5244 |
+
nguậy
|
| 5245 |
+
hý
|
| 5246 |
+
huyn
|
| 5247 |
+
dể
|
| 5248 |
+
chổm
|
| 5249 |
+
thõng
|
| 5250 |
+
lũa
|
| 5251 |
+
khoen
|
| 5252 |
+
khều
|
| 5253 |
+
giạ
|
| 5254 |
+
dẹo
|
| 5255 |
+
sởn
|
| 5256 |
+
rem
|
| 5257 |
+
huồi
|
| 5258 |
+
gông
|
| 5259 |
+
cũn
|
| 5260 |
+
vởn
|
| 5261 |
+
trợt
|
| 5262 |
+
thết
|
| 5263 |
+
ne
|
| 5264 |
+
nau
|
| 5265 |
+
nấn
|
| 5266 |
+
hẵng
|
| 5267 |
+
gừa
|
| 5268 |
+
giăm
|
| 5269 |
+
chếnh
|
| 5270 |
+
rương
|
| 5271 |
+
nhon
|
| 5272 |
+
lếch
|
| 5273 |
+
ghẽ
|
| 5274 |
+
đễnh
|
| 5275 |
+
bớ
|
| 5276 |
+
bạng
|
| 5277 |
+
thiềng
|
| 5278 |
+
tệp
|
| 5279 |
+
sộp
|
| 5280 |
+
sẻn
|
| 5281 |
+
phướng
|
| 5282 |
+
phôn
|
| 5283 |
+
păng
|
| 5284 |
+
luyên
|
| 5285 |
+
lịa
|
| 5286 |
+
cỡm
|
| 5287 |
+
bâu
|
| 5288 |
+
tạch
|
| 5289 |
+
sít
|
| 5290 |
+
lởn
|
| 5291 |
+
giảo
|
| 5292 |
+
dơn
|
| 5293 |
+
ché
|
| 5294 |
+
xố
|
| 5295 |
+
xắp
|
| 5296 |
+
tiển
|
| 5297 |
+
thếch
|
| 5298 |
+
rờ
|
| 5299 |
+
pang
|
| 5300 |
+
nhương
|
| 5301 |
+
nguýt
|
| 5302 |
+
diềm
|
| 5303 |
+
súa
|
| 5304 |
+
ngợ
|
| 5305 |
+
ngằn
|
| 5306 |
+
mén
|
| 5307 |
+
lử
|
| 5308 |
+
loong
|
| 5309 |
+
khẩy
|
| 5310 |
+
chèm
|
| 5311 |
+
xởi
|
| 5312 |
+
liếp
|
| 5313 |
+
dởm
|
| 5314 |
+
bum
|
| 5315 |
+
xạo
|
| 5316 |
+
vốc
|
| 5317 |
+
tron
|
| 5318 |
+
triện
|
| 5319 |
+
rề
|
| 5320 |
+
lảnh
|
| 5321 |
+
khiu
|
| 5322 |
+
hống
|
| 5323 |
+
try
|
| 5324 |
+
liến
|
| 5325 |
+
ị
|
| 5326 |
+
hum
|
| 5327 |
+
xiềng
|
| 5328 |
+
rười
|
| 5329 |
+
lúp
|
| 5330 |
+
hõm
|
| 5331 |
+
dạm
|
| 5332 |
+
tiệu
|
| 5333 |
+
thững
|
| 5334 |
+
tém
|
| 5335 |
+
nốc
|
| 5336 |
+
khảng
|
| 5337 |
+
cùn
|
| 5338 |
+
phẩu
|
| 5339 |
+
giáy
|
| 5340 |
+
đụn
|
| 5341 |
+
đét
|
| 5342 |
+
chò
|
| 5343 |
+
xược
|
| 5344 |
+
vẩu
|
| 5345 |
+
rù
|
| 5346 |
+
nhày
|
| 5347 |
+
mòng
|
| 5348 |
+
đoảng
|
| 5349 |
+
dia
|
| 5350 |
+
cụp
|
| 5351 |
+
chổng
|
| 5352 |
+
biều
|
| 5353 |
+
xồm
|
| 5354 |
+
vẹm
|
| 5355 |
+
tứa
|
| 5356 |
+
thùa
|
| 5357 |
+
nĩa
|
| 5358 |
+
gâm
|
| 5359 |
+
é
|
| 5360 |
+
vói
|
| 5361 |
+
soản
|
| 5362 |
+
rệp
|
| 5363 |
+
phệ
|
| 5364 |
+
ngộn
|
| 5365 |
+
xoàng
|
| 5366 |
+
tiễu
|
| 5367 |
+
rặt
|
| 5368 |
+
ngoắc
|
| 5369 |
+
dy
|
| 5370 |
+
chạ
|
| 5371 |
+
sã
|
| 5372 |
+
oa
|
| 5373 |
+
nhắng
|
| 5374 |
+
ngoạm
|
| 5375 |
+
mủng
|
| 5376 |
+
mím
|
| 5377 |
+
mệ
|
| 5378 |
+
hụ
|
| 5379 |
+
dịnh
|
| 5380 |
+
càm
|
| 5381 |
+
bịnh
|
| 5382 |
+
xếch
|
| 5383 |
+
trố
|
| 5384 |
+
tiếm
|
| 5385 |
+
thịch
|
| 5386 |
+
quở
|
| 5387 |
+
pả
|
| 5388 |
+
mớn
|
| 5389 |
+
lồm
|
| 5390 |
+
chĩnh
|
| 5391 |
+
chẽm
|
| 5392 |
+
tun
|
| 5393 |
+
thểu
|
| 5394 |
+
pồ
|
| 5395 |
+
khén
|
| 5396 |
+
híp
|
| 5397 |
+
đúa
|
| 5398 |
+
dác
|
| 5399 |
+
chẹn
|
| 5400 |
+
luốc
|
| 5401 |
+
khù
|
| 5402 |
+
cồm
|
| 5403 |
+
chổ
|
| 5404 |
+
chét
|
| 5405 |
+
chêm
|
| 5406 |
+
chễm
|
| 5407 |
+
chệ
|
| 5408 |
+
toẹt
|
| 5409 |
+
nhéo
|
| 5410 |
+
lổn
|
| 5411 |
+
hia
|
| 5412 |
+
đển
|
| 5413 |
+
phỉnh
|
| 5414 |
+
phắc
|
| 5415 |
+
ngồng
|
| 5416 |
+
lốm
|
| 5417 |
+
xèng
|
| 5418 |
+
xấc
|
| 5419 |
+
sồ
|
| 5420 |
+
niết
|
| 5421 |
+
nhiểu
|
| 5422 |
+
nạy
|
| 5423 |
+
liệp
|
| 5424 |
+
huẩn
|
| 5425 |
+
hoáy
|
| 5426 |
+
xửa
|
| 5427 |
+
xẻn
|
| 5428 |
+
tuyn
|
| 5429 |
+
mém
|
| 5430 |
+
láp
|
| 5431 |
+
din
|
| 5432 |
+
bứa
|
| 5433 |
+
ục
|
| 5434 |
+
trươi
|
| 5435 |
+
tở
|
| 5436 |
+
suồng
|
| 5437 |
+
nọt
|
| 5438 |
+
khàng
|
| 5439 |
+
hoản
|
| 5440 |
+
dụa
|
| 5441 |
+
vư
|
| 5442 |
+
nhụa
|
| 5443 |
+
nhoẹt
|
| 5444 |
+
mứa
|
| 5445 |
+
giong
|
| 5446 |
+
dái
|
| 5447 |
+
chù
|
| 5448 |
+
chõng
|
| 5449 |
+
suê
|
| 5450 |
+
sũ
|
| 5451 |
+
nhiện
|
| 5452 |
+
loằng
|
| 5453 |
+
è
|
| 5454 |
+
coen
|
| 5455 |
+
bùm
|
| 5456 |
+
vục
|
| 5457 |
+
thuôn
|
| 5458 |
+
thụng
|
| 5459 |
+
liệng
|
| 5460 |
+
hếch
|
| 5461 |
+
gường
|
| 5462 |
+
dỏ
|
| 5463 |
+
chũ
|
| 5464 |
+
bỡn
|
| 5465 |
+
bím
|
| 5466 |
+
tưa
|
| 5467 |
+
trành
|
| 5468 |
+
thoàn
|
| 5469 |
+
sù
|
| 5470 |
+
rày
|
| 5471 |
+
nguẩy
|
| 5472 |
+
choạc
|
| 5473 |
+
boe
|
| 5474 |
+
triễn
|
| 5475 |
+
thượt
|
| 5476 |
+
rùi
|
| 5477 |
+
nhẩy
|
| 5478 |
+
giội
|
| 5479 |
+
duối
|
| 5480 |
+
dóc
|
| 5481 |
+
yều
|
| 5482 |
+
xái
|
| 5483 |
+
tòm
|
| 5484 |
+
táu
|
| 5485 |
+
hoạnh
|
| 5486 |
+
hiêu
|
| 5487 |
+
deng
|
| 5488 |
+
triêm
|
| 5489 |
+
thúi
|
| 5490 |
+
pí
|
| 5491 |
+
gừ
|
| 5492 |
+
chía
|
| 5493 |
+
xửng
|
| 5494 |
+
váo
|
| 5495 |
+
trạnh
|
| 5496 |
+
tọt
|
| 5497 |
+
thòm
|
| 5498 |
+
rướm
|
| 5499 |
+
ót
|
| 5500 |
+
nhèo
|
| 5501 |
+
néo
|
| 5502 |
+
hoắt
|
| 5503 |
+
ẻo
|
| 5504 |
+
choe
|
| 5505 |
+
biễn
|
| 5506 |
+
vặc
|
| 5507 |
+
truyên
|
| 5508 |
+
tồ
|
| 5509 |
+
rom
|
| 5510 |
+
riếu
|
| 5511 |
+
quơn
|
| 5512 |
+
phạn
|
| 5513 |
+
nghẽo
|
| 5514 |
+
khọt
|
| 5515 |
+
hoắm
|
| 5516 |
+
gum
|
| 5517 |
+
đười
|
| 5518 |
+
đót
|
| 5519 |
+
diến
|
| 5520 |
+
boi
|
| 5521 |
+
báy
|
| 5522 |
+
xẩu
|
| 5523 |
+
vầu
|
| 5524 |
+
truồi
|
| 5525 |
+
tậm
|
| 5526 |
+
nhín
|
| 5527 |
+
lị
|
| 5528 |
+
khạp
|
| 5529 |
+
đỏi
|
| 5530 |
+
dợ
|
| 5531 |
+
đia
|
| 5532 |
+
chiển
|
| 5533 |
+
xuẩn
|
| 5534 |
+
úm
|
| 5535 |
+
ời
|
| 5536 |
+
nhuân
|
| 5537 |
+
nhiệp
|
| 5538 |
+
meng
|
| 5539 |
+
khắn
|
| 5540 |
+
ẹo
|
| 5541 |
+
deo
|
| 5542 |
+
dằm
|
| 5543 |
+
xổng
|
| 5544 |
+
xoạc
|
| 5545 |
+
xiu
|
| 5546 |
+
rống
|
| 5547 |
+
ró
|
| 5548 |
+
mẩm
|
| 5549 |
+
lỏn
|
| 5550 |
+
lếp
|
| 5551 |
+
kím
|
| 5552 |
+
gôm
|
| 5553 |
+
dỏng
|
| 5554 |
+
vỳ
|
| 5555 |
+
thụp
|
| 5556 |
+
sỗ
|
| 5557 |
+
nộn
|
| 5558 |
+
loàn
|
| 5559 |
+
hặc
|
| 5560 |
+
diu
|
| 5561 |
+
bải
|
| 5562 |
+
ại
|
| 5563 |
+
xoảng
|
| 5564 |
+
vống
|
| 5565 |
+
toong
|
| 5566 |
+
sòm
|
| 5567 |
+
sậu
|
| 5568 |
+
rui
|
| 5569 |
+
ràm
|
| 5570 |
+
pheng
|
| 5571 |
+
noé
|
| 5572 |
+
nhin
|
| 5573 |
+
lếu
|
| 5574 |
+
khoàng
|
| 5575 |
+
ỉa
|
| 5576 |
+
hịch
|
| 5577 |
+
bường
|
| 5578 |
+
thiềm
|
| 5579 |
+
táy
|
| 5580 |
+
sịt
|
| 5581 |
+
pờ
|
| 5582 |
+
nhách
|
| 5583 |
+
nẫng
|
| 5584 |
+
đoàng
|
| 5585 |
+
chỉa
|
| 5586 |
+
trập
|
| 5587 |
+
sểnh
|
| 5588 |
+
rếu
|
| 5589 |
+
pì
|
| 5590 |
+
phét
|
| 5591 |
+
méc
|
| 5592 |
+
hiềng
|
| 5593 |
+
cun
|
| 5594 |
+
chiện
|
| 5595 |
+
ùm
|
| 5596 |
+
thạp
|
| 5597 |
+
quắc
|
| 5598 |
+
pênh
|
| 5599 |
+
nhong
|
| 5600 |
+
nhiễn
|
| 5601 |
+
nghễ
|
| 5602 |
+
xía
|
| 5603 |
+
ùng
|
| 5604 |
+
tọc
|
| 5605 |
+
sèo
|
| 5606 |
+
ngươn
|
| 5607 |
+
kía
|
| 5608 |
+
hợm
|
| 5609 |
+
hoải
|
| 5610 |
+
xênh
|
| 5611 |
+
triêu
|
| 5612 |
+
rộm
|
| 5613 |
+
nghệp
|
| 5614 |
+
nẫm
|
| 5615 |
+
loảng
|
| 5616 |
+
dem
|
| 5617 |
+
cửi
|
| 5618 |
+
bụa
|
| 5619 |
+
ực
|
| 5620 |
+
thuyến
|
| 5621 |
+
thum
|
| 5622 |
+
sừ
|
| 5623 |
+
pẩu
|
| 5624 |
+
đíp
|
| 5625 |
+
biêu
|
| 5626 |
+
ảng
|
| 5627 |
+
vỵ
|
| 5628 |
+
vố
|
| 5629 |
+
véc
|
| 5630 |
+
só
|
| 5631 |
+
rạm
|
| 5632 |
+
pai
|
| 5633 |
+
nớ
|
| 5634 |
+
nắc
|
| 5635 |
+
loai
|
| 5636 |
+
hoẹ
|
| 5637 |
+
đọi
|
| 5638 |
+
cỡn
|
| 5639 |
+
chồ
|
| 5640 |
+
ụp
|
| 5641 |
+
quạch
|
| 5642 |
+
phọt
|
| 5643 |
+
oặt
|
| 5644 |
+
luyn
|
| 5645 |
+
huý
|
| 5646 |
+
đù
|
| 5647 |
+
dồ
|
| 5648 |
+
chặp
|
| 5649 |
+
ầu
|
| 5650 |
+
thướng
|
| 5651 |
+
pán
|
| 5652 |
+
giắc
|
| 5653 |
+
coong
|
| 5654 |
+
sớt
|
| 5655 |
+
pông
|
| 5656 |
+
nim
|
| 5657 |
+
lôm
|
| 5658 |
+
hoảnh
|
| 5659 |
+
xùa
|
| 5660 |
+
xoành
|
| 5661 |
+
xoạch
|
| 5662 |
+
xộ
|
| 5663 |
+
xan
|
| 5664 |
+
tuynh
|
| 5665 |
+
tuôi
|
| 5666 |
+
ròn
|
| 5667 |
+
py
|
| 5668 |
+
pú
|
| 5669 |
+
phướn
|
| 5670 |
+
phịu
|
| 5671 |
+
pheo
|
| 5672 |
+
noong
|
| 5673 |
+
nhiệu
|
| 5674 |
+
ngoã
|
| 5675 |
+
ỉu
|
| 5676 |
+
huỵch
|
| 5677 |
+
huých
|
| 5678 |
+
hó
|
| 5679 |
+
doe
|
| 5680 |
+
choè
|
| 5681 |
+
bựa
|
| 5682 |
+
xạm
|
| 5683 |
+
vểnh
|
| 5684 |
+
tỏng
|
| 5685 |
+
thòn
|
| 5686 |
+
sòn
|
| 5687 |
+
quờ
|
| 5688 |
+
khuổi
|
| 5689 |
+
hùi
|
| 5690 |
+
diểm
|
| 5691 |
+
chạo
|
| 5692 |
+
chằn
|
| 5693 |
+
cảu
|
| 5694 |
+
via
|
| 5695 |
+
vện
|
| 5696 |
+
triên
|
| 5697 |
+
trẹo
|
| 5698 |
+
trảo
|
| 5699 |
+
tâu
|
| 5700 |
+
ruệ
|
| 5701 |
+
nhột
|
| 5702 |
+
gau
|
| 5703 |
+
đợ
|
| 5704 |
+
dìn
|
| 5705 |
+
chặc
|
| 5706 |
+
xồ
|
| 5707 |
+
thuẩn
|
| 5708 |
+
sại
|
| 5709 |
+
phéng
|
| 5710 |
+
ộp
|
| 5711 |
+
nhỏm
|
| 5712 |
+
nguyến
|
| 5713 |
+
lìu
|
| 5714 |
+
bíp
|
| 5715 |
+
thé
|
| 5716 |
+
sạo
|
| 5717 |
+
quạng
|
| 5718 |
+
púng
|
| 5719 |
+
poe
|
| 5720 |
+
pam
|
| 5721 |
+
lạo
|
| 5722 |
+
kiếu
|
| 5723 |
+
huênh
|
| 5724 |
+
choẹt
|
| 5725 |
+
chõ
|
| 5726 |
+
chẩy
|
| 5727 |
+
bép
|
| 5728 |
+
bau
|
| 5729 |
+
xàm
|
| 5730 |
+
trum
|
| 5731 |
+
thớm
|
| 5732 |
+
múp
|
| 5733 |
+
lỷ
|
| 5734 |
+
khoèo
|
| 5735 |
+
gơ
|
| 5736 |
+
dợt
|
| 5737 |
+
coóng
|
| 5738 |
+
vệnh
|
| 5739 |
+
thưng
|
| 5740 |
+
thèn
|
| 5741 |
+
thát
|
| 5742 |
+
rơn
|
| 5743 |
+
nọi
|
| 5744 |
+
luynh
|
| 5745 |
+
khum
|
| 5746 |
+
hoạc
|
| 5747 |
+
đẻn
|
| 5748 |
+
bam
|
| 5749 |
+
xự
|
| 5750 |
+
voóc
|
| 5751 |
+
tuối
|
| 5752 |
+
tực
|
| 5753 |
+
thườn
|
| 5754 |
+
thoắng
|
| 5755 |
+
rịt
|
| 5756 |
+
phịch
|
| 5757 |
+
phăm
|
| 5758 |
+
oe
|
| 5759 |
+
oẳn
|
| 5760 |
+
nhoạng
|
| 5761 |
+
ngòn
|
| 5762 |
+
liềng
|
| 5763 |
+
gioi
|
| 5764 |
+
giâm
|
| 5765 |
+
gảy
|
| 5766 |
+
dúng
|
| 5767 |
+
dồng
|
| 5768 |
+
chượp
|
| 5769 |
+
bôm
|
| 5770 |
+
xềnh
|
| 5771 |
+
truyến
|
| 5772 |
+
trôn
|
| 5773 |
+
trấp
|
| 5774 |
+
teng
|
| 5775 |
+
quăn
|
| 5776 |
+
pín
|
| 5777 |
+
nhủi
|
| 5778 |
+
nhẫy
|
| 5779 |
+
ngủn
|
| 5780 |
+
nả
|
| 5781 |
+
mung
|
| 5782 |
+
khì
|
| 5783 |
+
hây
|
| 5784 |
+
goi
|
| 5785 |
+
giôn
|
| 5786 |
+
chẩu
|
| 5787 |
+
cẫng
|
| 5788 |
+
xam
|
| 5789 |
+
thếnh
|
| 5790 |
+
tềnh
|
| 5791 |
+
sẵng
|
| 5792 |
+
noe
|
| 5793 |
+
hiêng
|
| 5794 |
+
giấp
|
| 5795 |
+
tren
|
| 5796 |
+
tiu
|
| 5797 |
+
rế
|
| 5798 |
+
nhiền
|
| 5799 |
+
duỵ
|
| 5800 |
+
dớn
|
| 5801 |
+
cúa
|
| 5802 |
+
cồi
|
| 5803 |
+
chẫm
|
| 5804 |
+
ành
|
| 5805 |
+
yêng
|
| 5806 |
+
xề
|
| 5807 |
+
uyn
|
| 5808 |
+
tủn
|
| 5809 |
+
trẹm
|
| 5810 |
+
tổi
|
| 5811 |
+
thọt
|
| 5812 |
+
rấm
|
| 5813 |
+
qu
|
| 5814 |
+
pui
|
| 5815 |
+
nhinh
|
| 5816 |
+
mừ
|
| 5817 |
+
lựng
|
| 5818 |
+
khun
|
| 5819 |
+
ghiếc
|
| 5820 |
+
ên
|
| 5821 |
+
đũi
|
| 5822 |
+
cọn
|
| 5823 |
+
chuỳ
|
| 5824 |
+
chô
|
| 5825 |
+
chiếng
|
| 5826 |
+
xoẹt
|
| 5827 |
+
tiểng
|
| 5828 |
+
rảng
|
| 5829 |
+
quện
|
| 5830 |
+
ồm
|
| 5831 |
+
nhia
|
| 5832 |
+
nghiêu
|
| 5833 |
+
mơi
|
| 5834 |
+
mầy
|
| 5835 |
+
kếp
|
| 5836 |
+
cum
|
| 5837 |
+
vưu
|
| 5838 |
+
voa
|
| 5839 |
+
tòn
|
| 5840 |
+
soan
|
| 5841 |
+
rều
|
| 5842 |
+
pồn
|
| 5843 |
+
khé
|
| 5844 |
+
huỳ
|
| 5845 |
+
giậu
|
| 5846 |
+
ễnh
|
| 5847 |
+
đạng
|
| 5848 |
+
cờn
|
| 5849 |
+
bẫng
|
| 5850 |
+
xên
|
| 5851 |
+
ừng
|
| 5852 |
+
tễu
|
| 5853 |
+
sún
|
| 5854 |
+
siên
|
| 5855 |
+
siêm
|
| 5856 |
+
sẳn
|
| 5857 |
+
quặp
|
| 5858 |
+
pua
|
| 5859 |
+
õng
|
| 5860 |
+
măm
|
| 5861 |
+
liện
|
| 5862 |
+
khào
|
| 5863 |
+
đổm
|
| 5864 |
+
đàu
|
| 5865 |
+
bằn
|
| 5866 |
+
xiều
|
| 5867 |
+
vẳn
|
| 5868 |
+
triêng
|
| 5869 |
+
thoã
|
| 5870 |
+
thiến
|
| 5871 |
+
thè
|
| 5872 |
+
ỏn
|
| 5873 |
+
ỡm
|
| 5874 |
+
ọc
|
| 5875 |
+
lun
|
| 5876 |
+
khịt
|
| 5877 |
+
khắng
|
| 5878 |
+
giu
|
| 5879 |
+
gải
|
| 5880 |
+
doàn
|
| 5881 |
+
điễn
|
| 5882 |
+
dịa
|
| 5883 |
+
chẹo
|
| 5884 |
+
bửng
|
| 5885 |
+
bẳng
|
| 5886 |
+
vôn
|
| 5887 |
+
uân
|
| 5888 |
+
tré
|
| 5889 |
+
thíp
|
| 5890 |
+
soạt
|
| 5891 |
+
rổn
|
| 5892 |
+
rỏ
|
| 5893 |
+
riệu
|
| 5894 |
+
phum
|
| 5895 |
+
oát
|
| 5896 |
+
nuy
|
| 5897 |
+
nì
|
| 5898 |
+
nhồng
|
| 5899 |
+
ngưởi
|
| 5900 |
+
ngầy
|
| 5901 |
+
khin
|
| 5902 |
+
gườm
|
| 5903 |
+
dình
|
| 5904 |
+
dìa
|
| 5905 |
+
đểm
|
| 5906 |
+
choong
|
| 5907 |
+
chản
|
| 5908 |
+
biêng
|
| 5909 |
+
béc
|
| 5910 |
+
ỹ
|
| 5911 |
+
vim
|
| 5912 |
+
ường
|
| 5913 |
+
thuyện
|
| 5914 |
+
thẻn
|
| 5915 |
+
sột
|
| 5916 |
+
sếnh
|
| 5917 |
+
rỉa
|
| 5918 |
+
phóc
|
| 5919 |
+
ồng
|
| 5920 |
+
ỏ
|
| 5921 |
+
nhều
|
| 5922 |
+
nhẳng
|
| 5923 |
+
nháng
|
| 5924 |
+
giau
|
| 5925 |
+
dóng
|
| 5926 |
+
đén
|
| 5927 |
+
bộng
|
| 5928 |
+
xuông
|
| 5929 |
+
xun
|
| 5930 |
+
tuồi
|
| 5931 |
+
tõm
|
| 5932 |
+
tịu
|
| 5933 |
+
thuổng
|
| 5934 |
+
rụp
|
| 5935 |
+
ràn
|
| 5936 |
+
pố
|
| 5937 |
+
phảm
|
| 5938 |
+
niễn
|
| 5939 |
+
ngườm
|
| 5940 |
+
huội
|
| 5941 |
+
ghèn
|
| 5942 |
+
doa
|
| 5943 |
+
dờ
|
| 5944 |
+
chọ
|
| 5945 |
+
bặc
|
| 5946 |
+
ua
|
| 5947 |
+
quảy
|
| 5948 |
+
pong
|
| 5949 |
+
phính
|
| 5950 |
+
ngóp
|
| 5951 |
+
náng
|
| 5952 |
+
moọc
|
| 5953 |
+
mếch
|
| 5954 |
+
hoằn
|
| 5955 |
+
gịn
|
| 5956 |
+
dăng
|
| 5957 |
+
côm
|
| 5958 |
+
chẻo
|
| 5959 |
+
bíu
|
| 5960 |
+
ây
|
| 5961 |
+
thạt
|
| 5962 |
+
sùm
|
| 5963 |
+
sồn
|
| 5964 |
+
sặt
|
| 5965 |
+
ỏm
|
| 5966 |
+
niền
|
| 5967 |
+
nác
|
| 5968 |
+
mản
|
| 5969 |
+
lụ
|
| 5970 |
+
lộp
|
| 5971 |
+
khuỷ
|
| 5972 |
+
hoong
|
| 5973 |
+
hổm
|
| 5974 |
+
hảng
|
| 5975 |
+
ét
|
| 5976 |
+
éc
|
| 5977 |
+
đũng
|
| 5978 |
+
đuề
|
| 5979 |
+
đú
|
| 5980 |
+
đôm
|
| 5981 |
+
cháng
|
| 5982 |
+
bộp
|
| 5983 |
+
quắn
|
| 5984 |
+
phám
|
| 5985 |
+
nơn
|
| 5986 |
+
nhiếu
|
| 5987 |
+
nhẫm
|
| 5988 |
+
mý
|
| 5989 |
+
lọp
|
| 5990 |
+
lòm
|
| 5991 |
+
loãn
|
| 5992 |
+
lèm
|
| 5993 |
+
kiễng
|
| 5994 |
+
khúm
|
| 5995 |
+
ịch
|
| 5996 |
+
hử
|
| 5997 |
+
hiệt
|
| 5998 |
+
gioăng
|
| 5999 |
+
dẫy
|
| 6000 |
+
dáy
|
| 6001 |
+
đân
|
| 6002 |
+
chận
|
| 6003 |
+
xừ
|
| 6004 |
+
tuếch
|
| 6005 |
+
trỉa
|
| 6006 |
+
thàn
|
| 6007 |
+
sựt
|
| 6008 |
+
rúi
|
| 6009 |
+
pốt
|
| 6010 |
+
phoi
|
| 6011 |
+
phềnh
|
| 6012 |
+
noa
|
| 6013 |
+
lẹo
|
| 6014 |
+
léng
|
| 6015 |
+
hướm
|
| 6016 |
+
dừ
|
| 6017 |
+
củm
|
| 6018 |
+
têm
|
| 6019 |
+
sơm
|
| 6020 |
+
sạnh
|
| 6021 |
+
săng
|
| 6022 |
+
pom
|
| 6023 |
+
ón
|
| 6024 |
+
oắc
|
| 6025 |
+
nhiển
|
| 6026 |
+
khọm
|
| 6027 |
+
kẽo
|
| 6028 |
+
hiệm
|
| 6029 |
+
đui
|
| 6030 |
+
dớp
|
| 6031 |
+
choọng
|
| 6032 |
+
bắng
|
| 6033 |
+
xìn
|
| 6034 |
+
vọp
|
| 6035 |
+
vình
|
| 6036 |
+
viểm
|
| 6037 |
+
rôi
|
| 6038 |
+
rạnh
|
| 6039 |
+
qúi
|
| 6040 |
+
pon
|
| 6041 |
+
khoằm
|
| 6042 |
+
hảnh
|
| 6043 |
+
gụi
|
| 6044 |
+
đỏm
|
| 6045 |
+
dẽ
|
| 6046 |
+
chụt
|
| 6047 |
+
chỏi
|
| 6048 |
+
chẹp
|
| 6049 |
+
bỗ
|
| 6050 |
+
biễu
|
| 6051 |
+
uỳnh
|
| 6052 |
+
tũn
|
| 6053 |
+
trự
|
| 6054 |
+
trệu
|
| 6055 |
+
tìn
|
| 6056 |
+
têu
|
| 6057 |
+
tẽn
|
| 6058 |
+
tạn
|
| 6059 |
+
sộc
|
| 6060 |
+
sẹc
|
| 6061 |
+
pía
|
| 6062 |
+
nhiểm
|
| 6063 |
+
ngứ
|
| 6064 |
+
mum
|
| 6065 |
+
măn
|
| 6066 |
+
lôn
|
| 6067 |
+
lòn
|
| 6068 |
+
hự
|
| 6069 |
+
gúp
|
| 6070 |
+
gòi
|
| 6071 |
+
dòn
|
| 6072 |
+
đị
|
| 6073 |
+
chựng
|
| 6074 |
+
chầy
|
| 6075 |
+
biêm
|
| 6076 |
+
xoi
|
| 6077 |
+
thồng
|
| 6078 |
+
rẹt
|
| 6079 |
+
quì
|
| 6080 |
+
ơm
|
| 6081 |
+
nủ
|
| 6082 |
+
khoắt
|
| 6083 |
+
kẹ
|
| 6084 |
+
đụp
|
| 6085 |
+
dử
|
| 6086 |
+
điến
|
| 6087 |
+
bỏi
|
| 6088 |
+
béng
|
| 6089 |
+
vọn
|
| 6090 |
+
thởi
|
| 6091 |
+
thẳn
|
| 6092 |
+
tếch
|
| 6093 |
+
sụng
|
| 6094 |
+
sằn
|
| 6095 |
+
rài
|
| 6096 |
+
páp
|
| 6097 |
+
nình
|
| 6098 |
+
nhoét
|
| 6099 |
+
nhoáy
|
| 6100 |
+
nhẩu
|
| 6101 |
+
nghin
|
| 6102 |
+
nghiễn
|
| 6103 |
+
nãi
|
| 6104 |
+
muỗm
|
| 6105 |
+
khộp
|
| 6106 |
+
khấy
|
| 6107 |
+
khằm
|
| 6108 |
+
đưới
|
| 6109 |
+
cạc
|
| 6110 |
+
bảm
|
| 6111 |
+
xớt
|
| 6112 |
+
vường
|
| 6113 |
+
trược
|
| 6114 |
+
trảy
|
| 6115 |
+
trẫm
|
| 6116 |
+
tiễng
|
| 6117 |
+
sỉa
|
| 6118 |
+
rũa
|
| 6119 |
+
roong
|
| 6120 |
+
riệp
|
| 6121 |
+
phài
|
| 6122 |
+
pách
|
| 6123 |
+
nhò
|
| 6124 |
+
nhịt
|
| 6125 |
+
lớt
|
| 6126 |
+
lớm
|
| 6127 |
+
lổm
|
| 6128 |
+
liếu
|
| 6129 |
+
khịa
|
| 6130 |
+
giút
|
| 6131 |
+
ẹ
|
| 6132 |
+
dun
|
| 6133 |
+
đõ
|
| 6134 |
+
cón
|
| 6135 |
+
chẽn
|
| 6136 |
+
chảng
|
| 6137 |
+
cặt
|
| 6138 |
+
biềm
|
| 6139 |
+
xeng
|
| 6140 |
+
trính
|
| 6141 |
+
tộp
|
| 6142 |
+
sằng
|
| 6143 |
+
oản
|
| 6144 |
+
nhội
|
| 6145 |
+
nhãi
|
| 6146 |
+
ngộc
|
| 6147 |
+
lỹ
|
| 6148 |
+
kều
|
| 6149 |
+
hỵ
|
| 6150 |
+
điêm
|
| 6151 |
+
dếnh
|
| 6152 |
+
dận
|
| 6153 |
+
chiểm
|
| 6154 |
+
bủng
|
| 6155 |
+
ần
|
| 6156 |
+
ròm
|
| 6157 |
+
poọng
|
| 6158 |
+
phốc
|
| 6159 |
+
ợt
|
| 6160 |
+
nuốc
|
| 6161 |
+
nởi
|
| 6162 |
+
ngam
|
| 6163 |
+
mạy
|
| 6164 |
+
luổng
|
| 6165 |
+
lóp
|
| 6166 |
+
liễng
|
| 6167 |
+
kiệp
|
| 6168 |
+
goa
|
| 6169 |
+
gâu
|
| 6170 |
+
duôi
|
| 6171 |
+
chượt
|
| 6172 |
+
chẳn
|
| 6173 |
+
ẳng
|
| 6174 |
+
xếnh
|
| 6175 |
+
vơn
|
| 6176 |
+
vổ
|
| 6177 |
+
tọng
|
| 6178 |
+
thài
|
| 6179 |
+
quẽ
|
| 6180 |
+
pim
|
| 6181 |
+
phon
|
| 6182 |
+
phiểu
|
| 6183 |
+
phến
|
| 6184 |
+
phéc
|
| 6185 |
+
pết
|
| 6186 |
+
pạc
|
| 6187 |
+
ọ
|
| 6188 |
+
nự
|
| 6189 |
+
nị
|
| 6190 |
+
nhoay
|
| 6191 |
+
nhải
|
| 6192 |
+
mự
|
| 6193 |
+
mên
|
| 6194 |
+
mế
|
| 6195 |
+
loóng
|
| 6196 |
+
khìn
|
| 6197 |
+
khìa
|
| 6198 |
+
khẹt
|
| 6199 |
+
khạng
|
| 6200 |
+
hoát
|
| 6201 |
+
hiết
|
| 6202 |
+
gới
|
| 6203 |
+
đượng
|
| 6204 |
+
độp
|
| 6205 |
+
dộ
|
| 6206 |
+
đeng
|
| 6207 |
+
dất
|
| 6208 |
+
đạch
|
| 6209 |
+
cớm
|
| 6210 |
+
choa
|
| 6211 |
+
bương
|
| 6212 |
+
bìn
|
| 6213 |
+
úi
|
| 6214 |
+
tếnh
|
| 6215 |
+
tén
|
| 6216 |
+
suyển
|
| 6217 |
+
soọng
|
| 6218 |
+
phưởng
|
| 6219 |
+
phuông
|
| 6220 |
+
phưng
|
| 6221 |
+
nú
|
| 6222 |
+
nhây
|
| 6223 |
+
nẩu
|
| 6224 |
+
mằng
|
| 6225 |
+
khành
|
| 6226 |
+
gớp
|
| 6227 |
+
dên
|
| 6228 |
+
dẩu
|
| 6229 |
+
củn
|
| 6230 |
+
cõn
|
| 6231 |
+
chuệch
|
| 6232 |
+
choá
|
| 6233 |
+
bợt
|
| 6234 |
+
bẹo
|
| 6235 |
+
bẩu
|
| 6236 |
+
bạnh
|
| 6237 |
+
tủng
|
| 6238 |
+
trằm
|
| 6239 |
+
thềnh
|
| 6240 |
+
thẩu
|
| 6241 |
+
thạ
|
| 6242 |
+
rạt
|
| 6243 |
+
qun
|
| 6244 |
+
pỉnh
|
| 6245 |
+
phỏm
|
| 6246 |
+
phèng
|
| 6247 |
+
pèng
|
| 6248 |
+
nhậy
|
| 6249 |
+
ngúm
|
| 6250 |
+
lủ
|
| 6251 |
+
liểng
|
| 6252 |
+
khiệm
|
| 6253 |
+
khễnh
|
| 6254 |
+
hầy
|
| 6255 |
+
gọ
|
| 6256 |
+
dỵ
|
| 6257 |
+
đư
|
| 6258 |
+
dợn
|
| 6259 |
+
cõ
|
| 6260 |
+
chũm
|
| 6261 |
+
chệnh
|
| 6262 |
+
cấc
|
| 6263 |
+
xư
|
| 6264 |
+
vửa
|
| 6265 |
+
vồm
|
| 6266 |
+
vên
|
| 6267 |
+
ự
|
| 6268 |
+
trơi
|
| 6269 |
+
tởn
|
| 6270 |
+
thẩy
|
| 6271 |
+
sổi
|
| 6272 |
+
quớ
|
| 6273 |
+
péo
|
| 6274 |
+
pềnh
|
| 6275 |
+
pạ
|
| 6276 |
+
oong
|
| 6277 |
+
nhuy
|
| 6278 |
+
nhúa
|
| 6279 |
+
nhự
|
| 6280 |
+
ngớn
|
| 6281 |
+
ngởi
|
| 6282 |
+
nằn
|
| 6283 |
+
moa
|
| 6284 |
+
mìu
|
| 6285 |
+
mín
|
| 6286 |
+
lủn
|
| 6287 |
+
loàng
|
| 6288 |
+
liễm
|
| 6289 |
+
khướu
|
| 6290 |
+
khừa
|
| 6291 |
+
khị
|
| 6292 |
+
hừ
|
| 6293 |
+
hón
|
| 6294 |
+
giúi
|
| 6295 |
+
duyền
|
| 6296 |
+
duông
|
| 6297 |
+
dứ
|
| 6298 |
+
choắt
|
| 6299 |
+
chậy
|
| 6300 |
+
xướt
|
| 6301 |
+
trúm
|
| 6302 |
+
tría
|
| 6303 |
+
trỉ
|
| 6304 |
+
sơi
|
| 6305 |
+
sỉn
|
| 6306 |
+
sem
|
| 6307 |
+
pun
|
| 6308 |
+
pốc
|
| 6309 |
+
phốp
|
| 6310 |
+
nen
|
| 6311 |
+
khiểu
|
| 6312 |
+
khệnh
|
| 6313 |
+
húa
|
| 6314 |
+
hể
|
| 6315 |
+
hế
|
| 6316 |
+
gười
|
| 6317 |
+
gẩm
|
| 6318 |
+
dủ
|
| 6319 |
+
đớt
|
| 6320 |
+
chũng
|
| 6321 |
+
chón
|
| 6322 |
+
chéng
|
| 6323 |
+
bưởng
|
| 6324 |
+
biểm
|
| 6325 |
+
xai
|
| 6326 |
+
thấn
|
| 6327 |
+
tảy
|
| 6328 |
+
quài
|
| 6329 |
+
pứa
|
| 6330 |
+
pư
|
| 6331 |
+
pịa
|
| 6332 |
+
phời
|
| 6333 |
+
pém
|
| 6334 |
+
nưng
|
| 6335 |
+
nhướn
|
| 6336 |
+
nhê
|
| 6337 |
+
ngoạt
|
| 6338 |
+
nghỉu
|
| 6339 |
+
nậy
|
| 6340 |
+
mựng
|
| 6341 |
+
mịnh
|
| 6342 |
+
lụn
|
| 6343 |
+
lỉu
|
| 6344 |
+
kheng
|
| 6345 |
+
hèm
|
| 6346 |
+
hẩy
|
| 6347 |
+
giẫy
|
| 6348 |
+
cổn
|
| 6349 |
+
chìu
|
| 6350 |
+
buối
|
| 6351 |
+
bếnh
|
| 6352 |
+
báp
|
| 6353 |
+
vắp
|
| 6354 |
+
ún
|
| 6355 |
+
từa
|
| 6356 |
+
tóng
|
| 6357 |
+
rân
|
| 6358 |
+
phạch
|
| 6359 |
+
nhịu
|
| 6360 |
+
ngúng
|
| 6361 |
+
ngảo
|
| 6362 |
+
mem
|
| 6363 |
+
mảo
|
| 6364 |
+
luồi
|
| 6365 |
+
lũm
|
| 6366 |
+
lợt
|
| 6367 |
+
khồng
|
| 6368 |
+
khẹc
|
| 6369 |
+
kên
|
| 6370 |
+
goong
|
| 6371 |
+
giô
|
| 6372 |
+
gấy
|
| 6373 |
+
dốp
|
| 6374 |
+
đóp
|
| 6375 |
+
coe
|
| 6376 |
+
bót
|
| 6377 |
+
bển
|
| 6378 |
+
ản
|
| 6379 |
+
xia
|
| 6380 |
+
veng
|
| 6381 |
+
vảo
|
| 6382 |
+
ướng
|
| 6383 |
+
ử
|
| 6384 |
+
tròm
|
| 6385 |
+
troi
|
| 6386 |
+
trển
|
| 6387 |
+
trèm
|
| 6388 |
+
tràu
|
| 6389 |
+
tiểm
|
| 6390 |
+
thá
|
| 6391 |
+
sịa
|
| 6392 |
+
sênh
|
| 6393 |
+
rửng
|
| 6394 |
+
roam
|
| 6395 |
+
qùa
|
| 6396 |
+
phực
|
| 6397 |
+
phè
|
| 6398 |
+
ỏng
|
| 6399 |
+
nõ
|
| 6400 |
+
nhưn
|
| 6401 |
+
nhợ
|
| 6402 |
+
ngẩy
|
| 6403 |
+
mừu
|
| 6404 |
+
mụi
|
| 6405 |
+
miểng
|
| 6406 |
+
lừu
|
| 6407 |
+
khươi
|
| 6408 |
+
khừng
|
| 6409 |
+
khoòng
|
| 6410 |
+
khim
|
| 6411 |
+
khày
|
| 6412 |
+
khẳm
|
| 6413 |
+
hượu
|
| 6414 |
+
hởn
|
| 6415 |
+
hoét
|
| 6416 |
+
giay
|
| 6417 |
+
gẩy
|
| 6418 |
+
dút
|
| 6419 |
+
dướng
|
| 6420 |
+
đứ
|
| 6421 |
+
xùi
|
| 6422 |
+
xẹo
|
| 6423 |
+
xân
|
| 6424 |
+
truỷ
|
| 6425 |
+
triến
|
| 6426 |
+
tiềng
|
| 6427 |
+
tểnh
|
| 6428 |
+
rụa
|
| 6429 |
+
quèo
|
| 6430 |
+
phinh
|
| 6431 |
+
phấm
|
| 6432 |
+
oét
|
| 6433 |
+
nười
|
| 6434 |
+
nống
|
| 6435 |
+
niêng
|
| 6436 |
+
ní
|
| 6437 |
+
nhừng
|
| 6438 |
+
nhay
|
| 6439 |
+
ngoác
|
| 6440 |
+
nèn
|
| 6441 |
+
mính
|
| 6442 |
+
loỏng
|
| 6443 |
+
khưn
|
| 6444 |
+
ía
|
| 6445 |
+
hỳ
|
| 6446 |
+
hềnh
|
| 6447 |
+
hệch
|
| 6448 |
+
gim
|
| 6449 |
+
gié
|
| 6450 |
+
diểu
|
| 6451 |
+
điếp
|
| 6452 |
+
đệp
|
| 6453 |
+
chốp
|
| 6454 |
+
chốm
|
| 6455 |
+
chom
|
| 6456 |
+
xim
|
| 6457 |
+
xiểng
|
| 6458 |
+
ượng
|
| 6459 |
+
trỗ
|
| 6460 |
+
tèm
|
| 6461 |
+
tắng
|
| 6462 |
+
rốp
|
| 6463 |
+
rổi
|
| 6464 |
+
quạu
|
| 6465 |
+
pớn
|
| 6466 |
+
phộc
|
| 6467 |
+
nường
|
| 6468 |
+
nhúp
|
| 6469 |
+
nhuật
|
| 6470 |
+
nguốn
|
| 6471 |
+
ngưới
|
| 6472 |
+
nguầy
|
| 6473 |
+
nân
|
| 6474 |
+
mốn
|
| 6475 |
+
mởi
|
| 6476 |
+
lốn
|
| 6477 |
+
lọm
|
| 6478 |
+
khiện
|
| 6479 |
+
khặng
|
| 6480 |
+
họt
|
| 6481 |
+
gìa
|
| 6482 |
+
dỹ
|
| 6483 |
+
dum
|
| 6484 |
+
dín
|
| 6485 |
+
dắc
|
| 6486 |
+
chược
|
| 6487 |
+
chời
|
| 6488 |
+
chiệc
|
| 6489 |
+
chềnh
|
| 6490 |
+
bụm
|
| 6491 |
+
biệc
|
| 6492 |
+
xoọng
|
| 6493 |
+
xon
|
| 6494 |
+
ườn
|
| 6495 |
+
ủn
|
| 6496 |
+
tuyễn
|
| 6497 |
+
trụa
|
| 6498 |
+
trây
|
| 6499 |
+
toá
|
| 6500 |
+
thuông
|
| 6501 |
+
thên
|
| 6502 |
+
sềnh
|
| 6503 |
+
sất
|
| 6504 |
+
rịp
|
| 6505 |
+
phuộc
|
| 6506 |
+
phoóc
|
| 6507 |
+
pè
|
| 6508 |
+
pài
|
| 6509 |
+
óp
|
| 6510 |
+
nủa
|
| 6511 |
+
nhôn
|
| 6512 |
+
nhiềm
|
| 6513 |
+
nghéo
|
| 6514 |
+
luý
|
| 6515 |
+
lụm
|
| 6516 |
+
khuống
|
| 6517 |
+
hỗng
|
| 6518 |
+
gữa
|
| 6519 |
+
goòng
|
| 6520 |
+
gám
|
| 6521 |
+
êu
|
| 6522 |
+
dức
|
| 6523 |
+
diển
|
| 6524 |
+
ầng
|
| 6525 |
+
xêm
|
| 6526 |
+
vự
|
| 6527 |
+
ược
|
| 6528 |
+
trũi
|
| 6529 |
+
thoán
|
| 6530 |
+
thín
|
| 6531 |
+
thìm
|
| 6532 |
+
tèn
|
| 6533 |
+
súi
|
| 6534 |
+
soọc
|
| 6535 |
+
rẳng
|
| 6536 |
+
quặm
|
| 6537 |
+
phậm
|
| 6538 |
+
ò
|
| 6539 |
+
nùa
|
| 6540 |
+
nư
|
| 6541 |
+
nốp
|
| 6542 |
+
níp
|
| 6543 |
+
niệp
|
| 6544 |
+
nhùi
|
| 6545 |
+
nhóp
|
| 6546 |
+
nhợi
|
| 6547 |
+
nhìu
|
| 6548 |
+
ngốt
|
| 6549 |
+
ngồ
|
| 6550 |
+
nảo
|
| 6551 |
+
miềng
|
| 6552 |
+
mâng
|
| 6553 |
+
lẳn
|
| 6554 |
+
lậm
|
| 6555 |
+
khường
|
| 6556 |
+
huần
|
| 6557 |
+
hía
|
| 6558 |
+
háp
|
| 6559 |
+
gậm
|
| 6560 |
+
ềnh
|
| 6561 |
+
duyển
|
| 6562 |
+
dớt
|
| 6563 |
+
doang
|
| 6564 |
+
doai
|
| 6565 |
+
điệm
|
| 6566 |
+
đêu
|
| 6567 |
+
chuổng
|
| 6568 |
+
chẳm
|
| 6569 |
+
bươi
|
| 6570 |
+
ay
|
| 6571 |
+
xỉnh
|
| 6572 |
+
xiếu
|
| 6573 |
+
vèn
|
| 6574 |
+
trốc
|
| 6575 |
+
thoản
|
| 6576 |
+
soong
|
| 6577 |
+
sím
|
| 6578 |
+
pút
|
| 6579 |
+
púa
|
| 6580 |
+
phâng
|
| 6581 |
+
pếu
|
| 6582 |
+
pét
|
| 6583 |
+
pau
|
| 6584 |
+
pấc
|
| 6585 |
+
nun
|
| 6586 |
+
nóp
|
| 6587 |
+
nính
|
| 6588 |
+
nhụi
|
| 6589 |
+
nhốm
|
| 6590 |
+
ngượi
|
| 6591 |
+
nghẹ
|
| 6592 |
+
ngau
|
| 6593 |
+
ngãng
|
| 6594 |
+
ngàm
|
| 6595 |
+
nật
|
| 6596 |
+
mim
|
| 6597 |
+
lưn
|
| 6598 |
+
hị
|
| 6599 |
+
giạt
|
| 6600 |
+
ghéc
|
| 6601 |
+
đún
|
| 6602 |
+
dú
|
| 6603 |
+
dôn
|
| 6604 |
+
dọi
|
| 6605 |
+
dít
|
| 6606 |
+
diếu
|
| 6607 |
+
coa
|
| 6608 |
+
chưn
|
| 6609 |
+
chịa
|
| 6610 |
+
chão
|
| 6611 |
+
bư
|
| 6612 |
+
bợn
|
| 6613 |
+
xọp
|
| 6614 |
+
xện
|
| 6615 |
+
vùa
|
| 6616 |
+
trủng
|
| 6617 |
+
troóc
|
| 6618 |
+
trỏng
|
| 6619 |
+
tợi
|
| 6620 |
+
tỉu
|
| 6621 |
+
tều
|
| 6622 |
+
tếp
|
| 6623 |
+
tẹc
|
| 6624 |
+
tãng
|
| 6625 |
+
sỳ
|
| 6626 |
+
sịch
|
| 6627 |
+
sè
|
| 6628 |
+
rột
|
| 6629 |
+
roát
|
| 6630 |
+
rầng
|
| 6631 |
+
quóc
|
| 6632 |
+
quịt
|
| 6633 |
+
quéo
|
| 6634 |
+
piêng
|
| 6635 |
+
phôm
|
| 6636 |
+
phành
|
| 6637 |
+
nột
|
| 6638 |
+
nhứng
|
| 6639 |
+
nhồm
|
| 6640 |
+
nhoàm
|
| 6641 |
+
nhền
|
| 6642 |
+
ngong
|
| 6643 |
+
míp
|
| 6644 |
+
lệt
|
| 6645 |
+
lế
|
| 6646 |
+
khấc
|
| 6647 |
+
hũng
|
| 6648 |
+
háy
|
| 6649 |
+
hản
|
| 6650 |
+
gỉa
|
| 6651 |
+
dười
|
| 6652 |
+
dọ
|
| 6653 |
+
dích
|
| 6654 |
+
dãnh
|
| 6655 |
+
dắm
|
| 6656 |
+
cũa
|
| 6657 |
+
cọi
|
| 6658 |
+
chiếp
|
| 6659 |
+
chem
|
| 6660 |
+
buỗi
|
| 6661 |
+
xờm
|
| 6662 |
+
tướt
|
| 6663 |
+
trun
|
| 6664 |
+
trộc
|
| 6665 |
+
thuỳnh
|
| 6666 |
+
thựu
|
| 6667 |
+
thửng
|
| 6668 |
+
thôm
|
| 6669 |
+
síu
|
| 6670 |
+
sảm
|
| 6671 |
+
rứ
|
| 6672 |
+
piềng
|
| 6673 |
+
phâu
|
| 6674 |
+
nhù
|
| 6675 |
+
nhệch
|
| 6676 |
+
nguyển
|
| 6677 |
+
ngữa
|
| 6678 |
+
ngổm
|
| 6679 |
+
nghép
|
| 6680 |
+
nganh
|
| 6681 |
+
mủm
|
| 6682 |
+
luyệt
|
| 6683 |
+
lẻm
|
| 6684 |
+
lày
|
| 6685 |
+
khẻm
|
| 6686 |
+
hưởn
|
| 6687 |
+
hín
|
| 6688 |
+
gờn
|
| 6689 |
+
giộp
|
| 6690 |
+
gát
|
| 6691 |
+
dợm
|
| 6692 |
+
đém
|
| 6693 |
+
dáu
|
| 6694 |
+
cứt
|
| 6695 |
+
choóng
|
| 6696 |
+
chôi
|
| 6697 |
+
chắm
|
| 6698 |
+
chám
|
| 6699 |
+
chậc
|
| 6700 |
+
buôi
|
| 6701 |
+
bèm
|
| 6702 |
+
ậc
|
| 6703 |
+
xủn
|
| 6704 |
+
xiệc
|
| 6705 |
+
xằng
|
| 6706 |
+
xăn
|
| 6707 |
+
vởi
|
| 6708 |
+
vọ
|
| 6709 |
+
vảnh
|
| 6710 |
+
ười
|
| 6711 |
+
trụt
|
| 6712 |
+
trâng
|
| 6713 |
+
tói
|
| 6714 |
+
thọn
|
| 6715 |
+
thờm
|
| 6716 |
+
séng
|
| 6717 |
+
são
|
| 6718 |
+
ruộc
|
| 6719 |
+
roẹt
|
| 6720 |
+
riệt
|
| 6721 |
+
quày
|
| 6722 |
+
pớ
|
| 6723 |
+
pít
|
| 6724 |
+
phún
|
| 6725 |
+
phư
|
| 6726 |
+
phóp
|
| 6727 |
+
phoong
|
| 6728 |
+
phoanh
|
| 6729 |
+
phếch
|
| 6730 |
+
pản
|
| 6731 |
+
pằn
|
| 6732 |
+
oạp
|
| 6733 |
+
nững
|
| 6734 |
+
noan
|
| 6735 |
+
nhiu
|
| 6736 |
+
nhìa
|
| 6737 |
+
nguây
|
| 6738 |
+
ngỗn
|
| 6739 |
+
nghệm
|
| 6740 |
+
nghế
|
| 6741 |
+
ngật
|
| 6742 |
+
nềnh
|
| 6743 |
+
mợi
|
| 6744 |
+
mõi
|
| 6745 |
+
mẹc
|
| 6746 |
+
luệ
|
| 6747 |
+
lỉ
|
| 6748 |
+
khỏ
|
| 6749 |
+
khảy
|
| 6750 |
+
kẹm
|
| 6751 |
+
hươn
|
| 6752 |
+
huối
|
| 6753 |
+
huận
|
| 6754 |
+
hừa
|
| 6755 |
+
hữ
|
| 6756 |
+
hính
|
| 6757 |
+
hện
|
| 6758 |
+
ghếch
|
| 6759 |
+
ệch
|
| 6760 |
+
đưỡng
|
| 6761 |
+
đườn
|
| 6762 |
+
doái
|
| 6763 |
+
dẩn
|
| 6764 |
+
cời
|
| 6765 |
+
chuôn
|
| 6766 |
+
chươi
|
| 6767 |
+
chớn
|
| 6768 |
+
câng
|
| 6769 |
+
cặng
|
| 6770 |
+
bứu
|
| 6771 |
+
bưa
|
| 6772 |
+
xững
|
| 6773 |
+
xáp
|
| 6774 |
+
vủ
|
| 6775 |
+
voòng
|
| 6776 |
+
vâm
|
| 6777 |
+
trới
|
| 6778 |
+
trến
|
| 6779 |
+
tọ
|
| 6780 |
+
thẽ
|
| 6781 |
+
tặn
|
| 6782 |
+
sừn
|
| 6783 |
+
sôn
|
| 6784 |
+
riều
|
| 6785 |
+
pung
|
| 6786 |
+
phảo
|
| 6787 |
+
pát
|
| 6788 |
+
oem
|
| 6789 |
+
num
|
| 6790 |
+
noọc
|
| 6791 |
+
nhoong
|
| 6792 |
+
ngừm
|
| 6793 |
+
nghẻ
|
| 6794 |
+
luốt
|
| 6795 |
+
lẻng
|
| 6796 |
+
khoài
|
| 6797 |
+
khếnh
|
| 6798 |
+
khề
|
| 6799 |
+
khầu
|
| 6800 |
+
hẹo
|
| 6801 |
+
hẩu
|
| 6802 |
+
ẻm
|
| 6803 |
+
đươi
|
| 6804 |
+
dún
|
| 6805 |
+
dỡn
|
| 6806 |
+
doãng
|
| 6807 |
+
điêng
|
| 6808 |
+
đếu
|
| 6809 |
+
dão
|
| 6810 |
+
dách
|
| 6811 |
+
cuộng
|
| 6812 |
+
chừn
|
| 6813 |
+
choay
|
| 6814 |
+
cẳm
|
| 6815 |
+
buội
|
| 6816 |
+
biếp
|
| 6817 |
+
bẻo
|
| 6818 |
+
ạnh
|
| 6819 |
+
yểng
|
| 6820 |
+
xụi
|
| 6821 |
+
xục
|
| 6822 |
+
xờ
|
| 6823 |
+
xĩnh
|
| 6824 |
+
xéc
|
| 6825 |
+
xẵng
|
| 6826 |
+
vều
|
| 6827 |
+
uýnh
|
| 6828 |
+
uỵch
|
| 6829 |
+
uôn
|
| 6830 |
+
tuyện
|
| 6831 |
+
truột
|
| 6832 |
+
trức
|
| 6833 |
+
trớt
|
| 6834 |
+
trổng
|
| 6835 |
+
trịt
|
| 6836 |
+
tria
|
| 6837 |
+
tọp
|
| 6838 |
+
thủm
|
| 6839 |
+
thim
|
| 6840 |
+
théo
|
| 6841 |
+
tháy
|
| 6842 |
+
sý
|
| 6843 |
+
sáy
|
| 6844 |
+
rún
|
| 6845 |
+
roóng
|
| 6846 |
+
róm
|
| 6847 |
+
rến
|
| 6848 |
+
rấy
|
| 6849 |
+
quyn
|
| 6850 |
+
poọc
|
| 6851 |
+
phỗng
|
| 6852 |
+
phồ
|
| 6853 |
+
phặng
|
| 6854 |
+
pé
|
| 6855 |
+
pầng
|
| 6856 |
+
păn
|
| 6857 |
+
nuýp
|
| 6858 |
+
nò
|
| 6859 |
+
nhõn
|
| 6860 |
+
nhoạm
|
| 6861 |
+
ngoẹo
|
| 6862 |
+
nghín
|
| 6863 |
+
nghì
|
| 6864 |
+
mứ
|
| 6865 |
+
mọp
|
| 6866 |
+
mềnh
|
| 6867 |
+
mam
|
| 6868 |
+
lưởng
|
| 6869 |
+
luấn
|
| 6870 |
+
lỡm
|
| 6871 |
+
lóm
|
| 6872 |
+
lản
|
| 6873 |
+
khôm
|
| 6874 |
+
khật
|
| 6875 |
+
khằng
|
| 6876 |
+
hụp
|
| 6877 |
+
hủm
|
| 6878 |
+
hén
|
| 6879 |
+
hẵn
|
| 6880 |
+
gủi
|
| 6881 |
+
gách
|
| 6882 |
+
ẻn
|
| 6883 |
+
đụt
|
| 6884 |
+
dủng
|
| 6885 |
+
dừm
|
| 6886 |
+
dũi
|
| 6887 |
+
duấn
|
| 6888 |
+
doong
|
| 6889 |
+
đễn
|
| 6890 |
+
dèn
|
| 6891 |
+
dảm
|
| 6892 |
+
cươn
|
| 6893 |
+
cuổi
|
| 6894 |
+
coỏng
|
| 6895 |
+
chũi
|
| 6896 |
+
chuếnh
|
| 6897 |
+
chều
|
| 6898 |
+
xỏn
|
| 6899 |
+
vọc
|
| 6900 |
+
vạnh
|
| 6901 |
+
trẹt
|
| 6902 |
+
thẻo
|
| 6903 |
+
tẽ
|
| 6904 |
+
sổm
|
| 6905 |
+
sâng
|
| 6906 |
+
roòng
|
| 6907 |
+
roàng
|
| 6908 |
+
quớt
|
| 6909 |
+
quộc
|
| 6910 |
+
quào
|
| 6911 |
+
pưn
|
| 6912 |
+
pùa
|
| 6913 |
+
phưỡng
|
| 6914 |
+
peo
|
| 6915 |
+
pành
|
| 6916 |
+
pàng
|
| 6917 |
+
pàn
|
| 6918 |
+
núa
|
| 6919 |
+
ngum
|
| 6920 |
+
nghển
|
| 6921 |
+
ngạ
|
| 6922 |
+
muých
|
| 6923 |
+
miểu
|
| 6924 |
+
lộm
|
| 6925 |
+
khòm
|
| 6926 |
+
khặn
|
| 6927 |
+
hủng
|
| 6928 |
+
hoẵng
|
| 6929 |
+
hiêm
|
| 6930 |
+
hép
|
| 6931 |
+
ghị
|
| 6932 |
+
duyết
|
| 6933 |
+
dữu
|
| 6934 |
+
duế
|
| 6935 |
+
duần
|
| 6936 |
+
đự
|
| 6937 |
+
dộp
|
| 6938 |
+
đợn
|
| 6939 |
+
doạnh
|
| 6940 |
+
đèm
|
| 6941 |
+
đẩm
|
| 6942 |
+
đách
|
| 6943 |
+
cới
|
| 6944 |
+
choã
|
| 6945 |
+
chiễn
|
| 6946 |
+
chẹm
|
| 6947 |
+
bỉa
|
| 6948 |
+
xoàm
|
| 6949 |
+
xớ
|
| 6950 |
+
xáy
|
| 6951 |
+
xản
|
| 6952 |
+
xạch
|
| 6953 |
+
ưởng
|
| 6954 |
+
tụa
|
| 6955 |
+
truyệt
|
| 6956 |
+
trốt
|
| 6957 |
+
trép
|
| 6958 |
+
trể
|
| 6959 |
+
trằng
|
| 6960 |
+
trài
|
| 6961 |
+
tìa
|
| 6962 |
+
thứu
|
| 6963 |
+
thùm
|
| 6964 |
+
thóng
|
| 6965 |
+
thão
|
| 6966 |
+
sộng
|
| 6967 |
+
soàn
|
| 6968 |
+
rỹ
|
| 6969 |
+
rươm
|
| 6970 |
+
riệc
|
| 6971 |
+
reng
|
| 6972 |
+
rêm
|
| 6973 |
+
rấn
|
| 6974 |
+
quấc
|
| 6975 |
+
quác
|
| 6976 |
+
poan
|
| 6977 |
+
piu
|
| 6978 |
+
phùa
|
| 6979 |
+
phiềng
|
| 6980 |
+
păm
|
| 6981 |
+
ờn
|
| 6982 |
+
nuôn
|
| 6983 |
+
nừng
|
| 6984 |
+
nùi
|
| 6985 |
+
noọng
|
| 6986 |
+
nỏng
|
| 6987 |
+
nờ
|
| 6988 |
+
niện
|
| 6989 |
+
nhụng
|
| 6990 |
+
nhóng
|
| 6991 |
+
nhể
|
| 6992 |
+
nghể
|
| 6993 |
+
ngàu
|
| 6994 |
+
mụt
|
| 6995 |
+
mươn
|
| 6996 |
+
muổi
|
| 6997 |
+
lỗng
|
| 6998 |
+
khức
|
| 6999 |
+
khục
|
| 7000 |
+
khụ
|
| 7001 |
+
khoách
|
| 7002 |
+
khảu
|
| 7003 |
+
hún
|
| 7004 |
+
hứ
|
| 7005 |
+
hạy
|
| 7006 |
+
hày
|
| 7007 |
+
hăn
|
| 7008 |
+
guyên
|
| 7009 |
+
gôi
|
| 7010 |
+
giớ
|
| 7011 |
+
giào
|
| 7012 |
+
giằm
|
| 7013 |
+
gấn
|
| 7014 |
+
đướng
|
| 7015 |
+
dót
|
| 7016 |
+
dộc
|
| 7017 |
+
dớ
|
| 7018 |
+
diểng
|
| 7019 |
+
diềng
|
| 7020 |
+
diền
|
| 7021 |
+
dều
|
| 7022 |
+
dảo
|
| 7023 |
+
dạnh
|
| 7024 |
+
cươi
|
| 7025 |
+
coóc
|
| 7026 |
+
chủa
|
| 7027 |
+
chíu
|
| 7028 |
+
chếu
|
| 7029 |
+
chể
|
| 7030 |
+
chặm
|
| 7031 |
+
cạng
|
| 7032 |
+
buốc
|
| 7033 |
+
boăn
|
| 7034 |
+
âng
|
| 7035 |
+
àm
|
| 7036 |
+
xượt
|
| 7037 |
+
xuốt
|
| 7038 |
+
xườn
|
| 7039 |
+
xựng
|
| 7040 |
+
xuấn
|
| 7041 |
+
xợt
|
| 7042 |
+
xơm
|
| 7043 |
+
xốm
|
| 7044 |
+
xòm
|
| 7045 |
+
xoèn
|
| 7046 |
+
xoanh
|
| 7047 |
+
xẹc
|
| 7048 |
+
xậy
|
| 7049 |
+
xảnh
|
| 7050 |
+
uộng
|
| 7051 |
+
uôm
|
| 7052 |
+
ừa
|
| 7053 |
+
tưu
|
| 7054 |
+
tứng
|
| 7055 |
+
truốt
|
| 7056 |
+
trũ
|
| 7057 |
+
trợi
|
| 7058 |
+
tró
|
| 7059 |
+
triểu
|
| 7060 |
+
treng
|
| 7061 |
+
trẩu
|
| 7062 |
+
toòng
|
| 7063 |
+
toạn
|
| 7064 |
+
toài
|
| 7065 |
+
thươn
|
| 7066 |
+
thưn
|
| 7067 |
+
thơn
|
| 7068 |
+
thỏn
|
| 7069 |
+
thoạn
|
| 7070 |
+
thịu
|
| 7071 |
+
thén
|
| 7072 |
+
thém
|
| 7073 |
+
thặt
|
| 7074 |
+
tạu
|
| 7075 |
+
tấng
|
| 7076 |
+
sụm
|
| 7077 |
+
sội
|
| 7078 |
+
sịp
|
| 7079 |
+
sị
|
| 7080 |
+
sí
|
| 7081 |
+
sết
|
| 7082 |
+
sẻng
|
| 7083 |
+
sện
|
| 7084 |
+
rỳ
|
| 7085 |
+
rược
|
| 7086 |
+
rự
|
| 7087 |
+
rỡn
|
| 7088 |
+
roãn
|
| 7089 |
+
rép
|
| 7090 |
+
rẹc
|
| 7091 |
+
rật
|
| 7092 |
+
quố
|
| 7093 |
+
quo
|
| 7094 |
+
quin
|
| 7095 |
+
pọng
|
| 7096 |
+
piên
|
| 7097 |
+
phươn
|
| 7098 |
+
phọ
|
| 7099 |
+
phiếp
|
| 7100 |
+
phéo
|
| 7101 |
+
phâm
|
| 7102 |
+
pây
|
| 7103 |
+
õn
|
| 7104 |
+
ộ
|
| 7105 |
+
nhộp
|
| 7106 |
+
nhoóng
|
| 7107 |
+
nhoằng
|
| 7108 |
+
nhịa
|
| 7109 |
+
nhạp
|
| 7110 |
+
ngựu
|
| 7111 |
+
nguồi
|
| 7112 |
+
ngủng
|
| 7113 |
+
nênh
|
| 7114 |
+
nàu
|
| 7115 |
+
nẳng
|
| 7116 |
+
nẫn
|
| 7117 |
+
mớp
|
| 7118 |
+
mẳn
|
| 7119 |
+
mậm
|
| 7120 |
+
luýnh
|
| 7121 |
+
lươm
|
| 7122 |
+
loắt
|
| 7123 |
+
lền
|
| 7124 |
+
kíu
|
| 7125 |
+
khụm
|
| 7126 |
+
khủa
|
| 7127 |
+
khừ
|
| 7128 |
+
khủ
|
| 7129 |
+
khoong
|
| 7130 |
+
khỏng
|
| 7131 |
+
khộng
|
| 7132 |
+
khỏn
|
| 7133 |
+
khoàn
|
| 7134 |
+
khẳn
|
| 7135 |
+
khắm
|
| 7136 |
+
khài
|
| 7137 |
+
kẹn
|
| 7138 |
+
kến
|
| 7139 |
+
kếm
|
| 7140 |
+
ín
|
| 7141 |
+
huýnh
|
| 7142 |
+
hưỡng
|
| 7143 |
+
huổng
|
| 7144 |
+
huếch
|
| 7145 |
+
hưa
|
| 7146 |
+
họi
|
| 7147 |
+
hợ
|
| 7148 |
+
hèo
|
| 7149 |
+
hánh
|
| 7150 |
+
gung
|
| 7151 |
+
gữ
|
| 7152 |
+
giửa
|
| 7153 |
+
gioan
|
| 7154 |
+
giỡ
|
| 7155 |
+
giạm
|
| 7156 |
+
ẹt
|
| 7157 |
+
ết
|
| 7158 |
+
ển
|
| 7159 |
+
ẹc
|
| 7160 |
+
dước
|
| 7161 |
+
dứng
|
| 7162 |
+
dui
|
| 7163 |
+
đựa
|
| 7164 |
+
dờn
|
| 7165 |
+
đởm
|
| 7166 |
+
đóc
|
| 7167 |
+
đoanh
|
| 7168 |
+
đoà
|
| 7169 |
+
đớ
|
| 7170 |
+
diêng
|
| 7171 |
+
đía
|
| 7172 |
+
đết
|
| 7173 |
+
đặp
|
| 7174 |
+
dảnh
|
| 7175 |
+
cừa
|
| 7176 |
+
coan
|
| 7177 |
+
chuôm
|
| 7178 |
+
chuổi
|
| 7179 |
+
chuẫn
|
| 7180 |
+
chơm
|
| 7181 |
+
chếm
|
| 7182 |
+
bửa
|
| 7183 |
+
àng
|
| 7184 |
+
àn
|
dataset/data_generation/confusion_set.py
ADDED
|
@@ -0,0 +1,262 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
# coding: utf8
|
| 2 |
+
import re
|
| 3 |
+
from normalize import chuan_hoa_dau_tu_tieng_viet
|
| 4 |
+
import numpy as np
|
| 5 |
+
from tqdm import tqdm
|
| 6 |
+
import textdistance
|
| 7 |
+
import json
|
| 8 |
+
from copy import copy
|
| 9 |
+
with open("common-vietnamese-syllables.txt", "r", encoding="utf-8") as file:
|
| 10 |
+
vi_syllables = [line.strip("\n") for line in file.readlines()]
|
| 11 |
+
|
| 12 |
+
vi_syllables_new = []
|
| 13 |
+
for syllable in vi_syllables:
|
| 14 |
+
normalized = chuan_hoa_dau_tu_tieng_viet(syllable)
|
| 15 |
+
vi_syllables_new.append(normalized)
|
| 16 |
+
|
| 17 |
+
regex_nguyen_am_don = "ộ|ặ|ằ|ụ|ầ|a|ũ|á|ể|ỡ|ủ|y|ở|ế|ẵ|ệ|é|ẹ|â|ề|ê|ọ|ờ|ẳ|ợ|ỷ|ữ|ị|e|u|ò|ẫ|i|ỉ|ẩ|ẽ|õ|ỹ|ô|ỵ|ồ|ú|í|ó|ỗ|ã|ẻ|ù|ă|ơ|ứ|ậ|ử|ừ|à|ĩ|ả|ố|ớ|ự|ắ|o|ý|ỳ|ư|ấ|ễ|ạ|ỏ|ổ|è|ì"
|
| 18 |
+
regex_nguyen_am_doi = "uằ|iê|ấu|ượ|ùy|ạy|uỹ|ươ|ỗi|yệ|ụy|ẫy|oà|ái|ói|uồ|uỷ|oỏ|ệu|ue|oi|ậu|oè|uã|ãi|òi|ơi|ựa|ụi|iể|oá|ìa|ĩu|uẹ|ìu|ầu|ỏe|ối|uẳ|ịa|òe|ai|ọe|yể|ày|ỉu|uỵ|uể|óe|ỉa|ũa|ườ|uè|êu|ẹo|uá|ỏi|uấ|ưỡ|ội|au|iề|ửu|ọi|ảu|uẽ|ầy|ẻo|ao|yế|uẻ|uơ|ưở|iế|uở|ịu|ủa|ẫu|uặ|oằ|oò|ạu|uỳ|ạo|oọ|ưa|oẹ|ui|uậ|ủi|áo|óa|ẩu|ảy|oẵ|áu|ựu|uô|ửa|ễu|uâ|oạ|uổ|uê|ùi|ếu|ời|iu|uo|oé|yễ|oẳ|uớ|ay|iễ|ủy|ướ|oó|eo|ũi|oả|ua|ỏa|ấy|uố|èo|oo|úy|ẩy|ồi|yề|ẽo|uẫ|ứu|ãy|ổi|ía|ảo|ué|uờ|ùa|ia|ều|oa|iệ|àu|õa|oắ|uắ|uả|ứa|ởi|ụa|ũy|òa|íu|éo|oã|uă|uộ|ữu|úa|ải|ỡi|ừu|ểu|oe|õi|ọa|ừa|uệ|uý|uó|ào|uà|ây|oă|uạ|ữa|oặ|uy|ợi|uẩ|uỗ|ão|uế|ưu|ửi|ại|âu|ới|uầ|ĩa|úi|oẻ|ôi|ài|uề|yê|ậy|áy"
|
| 19 |
+
regex_nguyen_am_ba = "uỷu|uây|ươu|iệu|yếu|yểu|uyế|uyệ|uyề|ưỡi|uôi|ượi|uổi|oay|uào|iễu|oeo|oèo|uỗi|oai|uấy|oái|uỵu|uyể|uồi|oáy|yều|oẹo|uẫy|ưởi|iểu|uầy|iêu|uối|uyễ|ưới|iều|oài|uao|ươi|yêu|ười|uya|oải|ướu|uội|oại|iếu|ượu|uẩy|uyê|uậy"
|
| 20 |
+
all_phu_am_dau = {'', 'gh', 'q', 'kh', 'p', 'm', 'qu', 'n', 'b', 'g', 't', 'ch', 'th', 'k', 'đ', 'r', 'ph', 'ngh', 'gi', 'tr', 's', 'l', 'h', 'nh', 'c', 'ng', 'd', 'v', 'x'}
|
| 21 |
+
all_phu_am_cuoi = {'', 'ng', 'nh', 't', 'ch', 'c', 'p', 'm', 'k', 'n'}
|
| 22 |
+
all_nguyen_am_don = "ộ|ặ|ằ|ụ|ầ|a|ũ|á|ể|ỡ|ủ|y|ở|ế|ẵ|ệ|é|ẹ|â|ề|ê|ọ|ờ|ẳ|ợ|ỷ|ữ|ị|e|u|ò|ẫ|i|ỉ|ẩ|ẽ|õ|ỹ|ô|ỵ|ồ|ú|í|ó|ỗ|ã|ẻ|ù|ă|ơ|ứ|ậ|ử|ừ|à|ĩ|ả|ố|ớ|ự|ắ|o|ý|ỳ|ư|ấ|ễ|ạ|ỏ|ổ|è|ì".split("|")
|
| 23 |
+
all_nguyen_am_doi = "uằ|iê|ấu|ượ|ùy|ạy|uỹ|ươ|ỗi|yệ|ụy|ẫy|oà|ái|ói|uồ|uỷ|oỏ|ệu|ue|oi|ậu|oè|uã|ãi|òi|ơi|ựa|ụi|iể|oá|ìa|ĩu|uẹ|ìu|ầu|ỏe|ối|uẳ|ịa|òe|ai|ọe|yể|ày|ỉu|uỵ|uể|óe|ỉa|ũa|ườ|uè|êu|ẹo|uá|ỏi|uấ|ưỡ|ội|au|iề|ửu|ọi|ảu|uẽ|ầy|ẻo|ao|yế|uẻ|uơ|ưở|iế|uở|ịu|ủa|ẫu|uặ|oằ|oò|ạu|uỳ|ạo|oọ|ưa|oẹ|ui|uậ|ủi|áo|óa|ẩu|ảy|oẵ|áu|ựu|uô|ửa|ễu|uâ|oạ|uổ|uê|ùi|ếu|ời|iu|uo|oé|yễ|oẳ|uớ|ay|iễ|ủy|ướ|oó|eo|ũi|oả|ua|ỏa|ấy|uố|èo|oo|úy|ẩy|ồi|yề|ẽo|uẫ|ứu|ãy|ổi|ía|ảo|ué|uờ|ùa|ia|ều|oa|iệ|àu|õa|oắ|uắ|uả|ứa|ởi|ụa|ũy|òa|íu|éo|oã|uă|uộ|ữu|úa|ải|ỡi|ừu|ểu|oe|õi|ọa|ừa|uệ|uý|uó|ào|uà|ây|oă|uạ|ữa|oặ|uy|ợi|uẩ|uỗ|ão|uế|ưu|ửi|ại|âu|ới|uầ|ĩa|úi|oẻ|ôi|ài|uề|yê|ậy|áy".split("|")
|
| 24 |
+
all_nguyen_am_ba = "uỷu|uây|ươu|iệu|yếu|yểu|uyế|uyệ|uyề|ưỡi|uôi|ượi|uổi|oay|uào|iễu|oeo|oèo|uỗi|oai|uấy|oái|uỵu|uyể|uồi|oáy|yều|oẹo|uẫy|ưởi|iểu|uầy|iêu|uối|uyễ|ưới|iều|oài|uao|ươi|yêu|ười|uya|oải|ướu|uội|oại|iếu|ượu|uẩy|uyê|uậy".split("|")
|
| 25 |
+
|
| 26 |
+
confusion_set = dict()
|
| 27 |
+
|
| 28 |
+
special_list = set()
|
| 29 |
+
for syllable in tqdm(vi_syllables_new):
|
| 30 |
+
# print(syllable)
|
| 31 |
+
if syllable[0:2] in ["qu", "gi"]:
|
| 32 |
+
special_list.add(syllable)
|
| 33 |
+
# print(f"Ignore {syllable}")
|
| 34 |
+
continue
|
| 35 |
+
|
| 36 |
+
confusion_set[syllable] = dict()
|
| 37 |
+
syllable_candidates = confusion_set[syllable]
|
| 38 |
+
syllable_candidates['phu_am_dau'] = set()
|
| 39 |
+
syllable_candidates['nguyen_am'] = set()
|
| 40 |
+
syllable_candidates['phu_am_cuoi'] = set()
|
| 41 |
+
|
| 42 |
+
if len(re.findall(regex_nguyen_am_ba, syllable)) != 0:
|
| 43 |
+
result = re.findall(regex_nguyen_am_ba, syllable)
|
| 44 |
+
nguyen_am = result[0]
|
| 45 |
+
elif len(re.findall(regex_nguyen_am_doi, syllable)) != 0:
|
| 46 |
+
result = re.findall(regex_nguyen_am_doi, syllable)
|
| 47 |
+
nguyen_am = result[0]
|
| 48 |
+
elif len(re.findall(regex_nguyen_am_don, syllable)) != 0:
|
| 49 |
+
result = re.findall(regex_nguyen_am_don, syllable)
|
| 50 |
+
nguyen_am = result[0]
|
| 51 |
+
else:
|
| 52 |
+
raise Exception("Khong co nguyen am")
|
| 53 |
+
phu_am_dau, phu_am_cuoi = "", ""
|
| 54 |
+
if len(re.findall(f"(.+){nguyen_am}", syllable)) !=0 :
|
| 55 |
+
result = re.findall(f"(.+){nguyen_am}", syllable)
|
| 56 |
+
phu_am_dau = result[0]
|
| 57 |
+
if len(re.findall(f"{nguyen_am}(.+)", syllable)) !=0 :
|
| 58 |
+
result = re.findall(f"{nguyen_am}(.+)", syllable)
|
| 59 |
+
phu_am_cuoi = result[0]
|
| 60 |
+
|
| 61 |
+
### Error thay đổi phụ âm đầu
|
| 62 |
+
for candidate in all_phu_am_dau:
|
| 63 |
+
if "".join([candidate, nguyen_am, phu_am_cuoi]) in vi_syllables_new:
|
| 64 |
+
syllable_candidates['phu_am_dau'].add("".join([candidate, nguyen_am, phu_am_cuoi]))
|
| 65 |
+
### Error thay đổi nguyên âm
|
| 66 |
+
all_nguyen_am = all_nguyen_am_don + all_nguyen_am_doi + all_nguyen_am_ba
|
| 67 |
+
for candidate in all_nguyen_am:
|
| 68 |
+
if "".join([phu_am_dau, candidate, phu_am_cuoi]) in vi_syllables_new:
|
| 69 |
+
syllable_candidates['nguyen_am'].add("".join([phu_am_dau, candidate, phu_am_cuoi]))
|
| 70 |
+
### Error thay đổi phụ âm cuối
|
| 71 |
+
for candidate in all_phu_am_cuoi:
|
| 72 |
+
if "".join([phu_am_dau, nguyen_am, candidate]) in vi_syllables_new:
|
| 73 |
+
syllable_candidates['phu_am_cuoi'].add("".join([phu_am_dau, nguyen_am, candidate]))
|
| 74 |
+
|
| 75 |
+
for syllable in tqdm(special_list):
|
| 76 |
+
|
| 77 |
+
if len(re.findall(regex_nguyen_am_don, syllable)) > 1:
|
| 78 |
+
phu_am_dau = syllable[0:2]
|
| 79 |
+
remained = syllable[2:]
|
| 80 |
+
else:
|
| 81 |
+
phu_am_dau = syllable[0]
|
| 82 |
+
remained = syllable[1:]
|
| 83 |
+
|
| 84 |
+
confusion_set[syllable] = dict()
|
| 85 |
+
syllable_candidates = confusion_set[syllable]
|
| 86 |
+
syllable_candidates['phu_am_dau'] = set()
|
| 87 |
+
syllable_candidates['nguyen_am'] = set()
|
| 88 |
+
syllable_candidates['phu_am_cuoi'] = set()
|
| 89 |
+
|
| 90 |
+
|
| 91 |
+
if len(re.findall(regex_nguyen_am_ba, remained)) != 0:
|
| 92 |
+
result = re.findall(regex_nguyen_am_ba, remained)
|
| 93 |
+
nguyen_am = result[0]
|
| 94 |
+
elif len(re.findall(regex_nguyen_am_doi, remained)) != 0:
|
| 95 |
+
result = re.findall(regex_nguyen_am_doi, remained)
|
| 96 |
+
nguyen_am = result[0]
|
| 97 |
+
elif len(re.findall(regex_nguyen_am_don, remained)) != 0:
|
| 98 |
+
result = re.findall(regex_nguyen_am_don, remained)
|
| 99 |
+
nguyen_am = result[0]
|
| 100 |
+
else:
|
| 101 |
+
nguyen_am, phu_am_cuoi = "", ""
|
| 102 |
+
|
| 103 |
+
phu_am_cuoi = ""
|
| 104 |
+
|
| 105 |
+
if nguyen_am != "" and len(re.findall(f"{nguyen_am}(.+)", remained)) !=0 :
|
| 106 |
+
result = re.findall(f"{nguyen_am}(.+)", remained)
|
| 107 |
+
phu_am_cuoi = result[0]
|
| 108 |
+
|
| 109 |
+
### Error thay đổi phụ âm đầu
|
| 110 |
+
for candidate in all_phu_am_dau:
|
| 111 |
+
if "".join([candidate, nguyen_am, phu_am_cuoi]) in vi_syllables_new:
|
| 112 |
+
syllable_candidates['phu_am_dau'].add("".join([candidate, nguyen_am, phu_am_cuoi]))
|
| 113 |
+
### Error thay đổi nguyên âm
|
| 114 |
+
all_nguyen_am = all_nguyen_am_don + all_nguyen_am_doi + all_nguyen_am_ba
|
| 115 |
+
for candidate in all_nguyen_am:
|
| 116 |
+
if "".join([phu_am_dau, candidate, phu_am_cuoi]) in vi_syllables_new:
|
| 117 |
+
syllable_candidates['nguyen_am'].add("".join([phu_am_dau, candidate, phu_am_cuoi]))
|
| 118 |
+
### Error thay đổi phụ âm cuối
|
| 119 |
+
for candidate in all_phu_am_cuoi:
|
| 120 |
+
if "".join([phu_am_dau, nguyen_am, candidate]) in vi_syllables_new:
|
| 121 |
+
syllable_candidates['phu_am_cuoi'].add("".join([phu_am_dau, nguyen_am, candidate]))
|
| 122 |
+
|
| 123 |
+
for key in tqdm(confusion_set.keys()):
|
| 124 |
+
for key_2_level in confusion_set[key].keys():
|
| 125 |
+
try:
|
| 126 |
+
confusion_set[key][key_2_level].remove(key)
|
| 127 |
+
except:
|
| 128 |
+
pass
|
| 129 |
+
|
| 130 |
+
for key in tqdm(confusion_set.keys()):
|
| 131 |
+
for key_2_level in confusion_set[key].keys():
|
| 132 |
+
candidates_to_remove = []
|
| 133 |
+
for candidate in confusion_set[key][key_2_level]:
|
| 134 |
+
similarity = textdistance.damerau_levenshtein.normalized_similarity(key, candidate)
|
| 135 |
+
if similarity < 0.5:
|
| 136 |
+
candidates_to_remove.append(candidate)
|
| 137 |
+
for candidate in candidates_to_remove:
|
| 138 |
+
confusion_set[key][key_2_level].remove(candidate)
|
| 139 |
+
|
| 140 |
+
keyboard_neighbor = {'a': 'áàảãạ',
|
| 141 |
+
'ă': 'ắằẳẵặ',
|
| 142 |
+
'â': 'ấầẩẫậ',
|
| 143 |
+
'á': 'aàảãạ',
|
| 144 |
+
'à': 'aáảãạ',
|
| 145 |
+
'ả': 'aáàãạ',
|
| 146 |
+
'ã': 'aáàảạ',
|
| 147 |
+
'ạ': 'aáàảã',
|
| 148 |
+
'ắ': 'ăằẳẵặ',
|
| 149 |
+
'ằ': 'ăắẳẵặ',
|
| 150 |
+
'ẳ': 'ăắằẵặ',
|
| 151 |
+
'ặ': 'ăắằẳẵ',
|
| 152 |
+
'ẵ': 'ăắằẳặ',
|
| 153 |
+
'ấ': 'âầẩẫậ',
|
| 154 |
+
'ầ': 'âấẩẫậ',
|
| 155 |
+
'ẩ': 'âấầẫậ',
|
| 156 |
+
'ẫ': 'âấầẩậ',
|
| 157 |
+
'ậ': 'âấầẩẫ',
|
| 158 |
+
'e': 'èéẻẽẹ',
|
| 159 |
+
'é': 'eèẻẽẹ',
|
| 160 |
+
'è': 'eéẻẽẹ',
|
| 161 |
+
'ẻ': 'eéèẽẹ',
|
| 162 |
+
'ẽ': 'eéèẻẹ',
|
| 163 |
+
'ẹ': 'eéèẻẽ',
|
| 164 |
+
'ê': 'ếềểễệ',
|
| 165 |
+
'ế': 'êềểễệ',
|
| 166 |
+
'ề': 'êếểễệ',
|
| 167 |
+
'ể': 'êếềễệ',
|
| 168 |
+
'ễ': 'êếềểệ',
|
| 169 |
+
'ệ': 'êếềểễ',
|
| 170 |
+
'i': 'íìỉĩị',
|
| 171 |
+
'í': 'iìỉĩị',
|
| 172 |
+
'ì': 'iíỉĩị',
|
| 173 |
+
'ỉ': 'iíìĩị',
|
| 174 |
+
'ĩ': 'iíìỉị',
|
| 175 |
+
'ị': 'iíìỉĩ',
|
| 176 |
+
'o': 'òóỏọõ',
|
| 177 |
+
'ó': 'oòỏọõ',
|
| 178 |
+
'ò': 'oóỏọõ',
|
| 179 |
+
'ỏ': 'oóòọõ',
|
| 180 |
+
'õ': 'oóòỏọ',
|
| 181 |
+
'ọ': 'oóòỏõ',
|
| 182 |
+
'ô': 'ốồổỗộ',
|
| 183 |
+
'ố': 'ôồổỗộ',
|
| 184 |
+
'ồ': 'ôốổỗộ',
|
| 185 |
+
'ổ': 'ôốồỗộ',
|
| 186 |
+
'ộ': 'ôốồổỗ',
|
| 187 |
+
'ỗ': 'ôốồổộ',
|
| 188 |
+
'ơ': 'ớờởợỡ',
|
| 189 |
+
'ớ': 'ơờởợỡ',
|
| 190 |
+
'ờ': 'ơớởợỡ',
|
| 191 |
+
'ở': 'ơớờợỡ',
|
| 192 |
+
'ợ': 'ơớờởỡ',
|
| 193 |
+
'ỡ': 'ơớờởợ',
|
| 194 |
+
'u': 'úùủũụ',
|
| 195 |
+
'ú': 'uùủũụ',
|
| 196 |
+
'ù': 'uúủũụ',
|
| 197 |
+
'ủ': 'uúùũụ',
|
| 198 |
+
'ũ': 'uúùủụ',
|
| 199 |
+
'ụ': 'uúùủũ',
|
| 200 |
+
'ư': 'ứừữửự',
|
| 201 |
+
'ứ': 'ưừữửự',
|
| 202 |
+
'ừ': 'ưứữửự',
|
| 203 |
+
'ử': 'ưứừữự',
|
| 204 |
+
'ữ': 'ưứừửự',
|
| 205 |
+
'ự': 'ưứừữử',
|
| 206 |
+
'y': 'ýỳỷỵỹ',
|
| 207 |
+
'ý': 'yỳỷỵỹ',
|
| 208 |
+
'ỳ': 'yýỷỵỹ',
|
| 209 |
+
'ỷ': 'yýỳỵỹ',
|
| 210 |
+
'ỵ': 'yýỳỷỹ',
|
| 211 |
+
'ỹ': 'yýỳỷỵ'}
|
| 212 |
+
|
| 213 |
+
pattern = "(" + "|".join(keyboard_neighbor.keys()) + "){1}"
|
| 214 |
+
|
| 215 |
+
def make_accent_change_candidates(text):
|
| 216 |
+
result = re.findall(pattern, text)
|
| 217 |
+
candidates = []
|
| 218 |
+
for candidate in result:
|
| 219 |
+
[candidates.append(text.replace(candidate, x)) for x in keyboard_neighbor[candidate]]
|
| 220 |
+
return set(candidates)
|
| 221 |
+
|
| 222 |
+
typo = json.load(open("../noising_resources/typo.json", "r", encoding="utf-8"))
|
| 223 |
+
typo_pattern = "(" + "|".join(typo.keys()) + "){1}"
|
| 224 |
+
accent_pattern = "(s|f|r|x|j|1|2|3|4|5){1}"
|
| 225 |
+
|
| 226 |
+
def convert_to_non_telex(text):
|
| 227 |
+
word = copy(text)
|
| 228 |
+
candidates = re.findall(typo_pattern, text)
|
| 229 |
+
for candidate in candidates:
|
| 230 |
+
replaced = typo[candidate][0]
|
| 231 |
+
# Move accent to the end of text
|
| 232 |
+
if len(re.findall(accent_pattern, replaced)) != 0:
|
| 233 |
+
word = re.sub(candidate, replaced[0:-1], word)
|
| 234 |
+
word += replaced[-1]
|
| 235 |
+
else:
|
| 236 |
+
word = re.sub(candidate, replaced, word)
|
| 237 |
+
return word
|
| 238 |
+
|
| 239 |
+
|
| 240 |
+
def keep_1_distance_candidates(text, nguyen_am_errors : set):
|
| 241 |
+
nguyen_am_errors = list(nguyen_am_errors)
|
| 242 |
+
text = convert_to_non_telex(text)
|
| 243 |
+
distances = [textdistance.damerau_levenshtein(text, convert_to_non_telex(error)) for error in nguyen_am_errors]
|
| 244 |
+
indies_to_keep = np.where(np.array(distances) <= 1)[0]
|
| 245 |
+
return set([nguyen_am_errors[i] for i in indies_to_keep])
|
| 246 |
+
|
| 247 |
+
for key in tqdm(confusion_set.keys()):
|
| 248 |
+
candidates = make_accent_change_candidates(key)
|
| 249 |
+
one_distance_candidates = keep_1_distance_candidates(key, confusion_set[key]['nguyen_am'])
|
| 250 |
+
candidates = candidates.union(one_distance_candidates)
|
| 251 |
+
high_probs_list = candidates.intersection(confusion_set[key]['nguyen_am'])
|
| 252 |
+
lower_probs_list = confusion_set[key]['nguyen_am'].difference(high_probs_list)
|
| 253 |
+
confusion_set[key]['nguyen_am'] = [high_probs_list, lower_probs_list]
|
| 254 |
+
|
| 255 |
+
for key in tqdm(confusion_set.keys()):
|
| 256 |
+
confusion_set[key]['nguyen_am'] = [list(confusion_set[key]['nguyen_am'][0]), list(confusion_set[key]['nguyen_am'][1])]
|
| 257 |
+
confusion_set[key]['phu_am_dau'] = list(confusion_set[key]['phu_am_dau'])
|
| 258 |
+
confusion_set[key]['phu_am_cuoi'] = list(confusion_set[key]['phu_am_cuoi'])
|
| 259 |
+
|
| 260 |
+
with open("../noising_resources/confusion_set.json", "w+", encoding="utf-8") as outfile:
|
| 261 |
+
print(confusion_set, file = outfile)
|
| 262 |
+
|
dataset/data_generation/keyboard_neighbor.py
ADDED
|
@@ -0,0 +1,79 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
|
| 2 |
+
def getKeyboardNeighbors():
|
| 3 |
+
keyboardNeighbors = {}
|
| 4 |
+
keyboardNeighbors['a'] = ["ắằẳẵặă|âấầẩẫậ|áàảãạ", [0.15, 0.15, 0.7]]
|
| 5 |
+
keyboardNeighbors['ă'] = ["ắằẳẵặ|âấầẩẫậ|aáàảãạ", [0.7, 0.15, 0.15]]
|
| 6 |
+
keyboardNeighbors['â'] = ["ấầẩẫậ|aáàảãạ|ăắằẳẵặ", [0.7, 0.15, 0.15]]
|
| 7 |
+
keyboardNeighbors['á'] = ["aàảãạ|ăắằẳẵặ|âấầẩẫậ", [0.7, 0.15, 0.15]]
|
| 8 |
+
keyboardNeighbors['à'] = ["aáảãạ|ăắằẳẵặ|âấầẩẫậ", [0.7, 0.15, 0.15]]
|
| 9 |
+
keyboardNeighbors['ả'] = ["aáàãạ|ăắằẳẵặ|âấầẩẫậ", [0.7, 0.15, 0.15]]
|
| 10 |
+
keyboardNeighbors['ã'] = ["aáàảạ|ăắằẳẵặ|âấầẩẫậ", [0.7, 0.15, 0.15]]
|
| 11 |
+
keyboardNeighbors['ạ'] = ["aáàảã|ăắằẳẵặ|âấầẩẫậ", [0.7, 0.15, 0.15]]
|
| 12 |
+
keyboardNeighbors['ắ'] = ["ăằẳẵặ|aáàảãạ|âấầẩẫậ", [0.7, 0.15, 0.15]]
|
| 13 |
+
keyboardNeighbors['ằ'] = ["ăắẳẵặ|aáàảãạ|âấầẩẫậ", [0.7, 0.15, 0.15]]
|
| 14 |
+
keyboardNeighbors['ẳ'] = ["ăắằẵặ|aáàảãạ|âấầẩẫậ", [0.7, 0.15, 0.15]]
|
| 15 |
+
keyboardNeighbors['ặ'] = ["ăắằẳẵ|aáàảãạ|âấầẩẫậ", [0.7, 0.15, 0.15]]
|
| 16 |
+
keyboardNeighbors['ẵ'] = ["ăắằẳặ|aáàảãạ|âấầẩẫậ", [0.7, 0.15, 0.15]]
|
| 17 |
+
keyboardNeighbors['ấ'] = ["âầẩẫậ|aáàảãạ|ăắằẳẵặ", [0.7, 0.15, 0.15]]
|
| 18 |
+
keyboardNeighbors['ầ'] = ["âấẩẫậ|aáàảãạ|ăắằẳẵặ", [0.7, 0.15, 0.15]]
|
| 19 |
+
keyboardNeighbors['ẩ'] = ["âấầẫậ|aáàảãạ|ăắằẳẵặ", [0.7, 0.15, 0.15]]
|
| 20 |
+
keyboardNeighbors['ẫ'] = ["âấầẩậ|aáàảãạ|ăắằẳẵặ", [0.7, 0.15, 0.15]]
|
| 21 |
+
keyboardNeighbors['ậ'] = ["âấầẩẫ|aáàảãạ|ăắằẳẵặ", [0.7, 0.15, 0.15]]
|
| 22 |
+
keyboardNeighbors['e'] = ["èéẻẽẹ|êếềểễệ", [0.7, 0.3]]
|
| 23 |
+
keyboardNeighbors['é'] = ["eèẻẽẹ|êếềểễệ", [0.7, 0.3]]
|
| 24 |
+
keyboardNeighbors['è'] = ["eéẻẽẹ|êếềểễệ", [0.7, 0.3]]
|
| 25 |
+
keyboardNeighbors['ẻ'] = ["eéèẽẹ|êếềểễệ", [0.7, 0.3]]
|
| 26 |
+
keyboardNeighbors['ẽ'] = ["eéèẻẹ|êếềểễệ", [0.7, 0.3]]
|
| 27 |
+
keyboardNeighbors['ẹ'] = ["eéèẻẽ|êếềểễệ", [0.7, 0.3]]
|
| 28 |
+
keyboardNeighbors['ê'] = ["eéèẻẽẹ|ếềểễệ", [0.3, 0.7]]
|
| 29 |
+
keyboardNeighbors['ế'] = ["eéèẻẽẹ|êềểễệ", [0.3, 0.7]]
|
| 30 |
+
keyboardNeighbors['ề'] = ["eéèẻẽẹ|êếểễệ", [0.3, 0.7]]
|
| 31 |
+
keyboardNeighbors['ể'] = ["eéèẻẽẹ|êếềễệ", [0.3, 0.7]]
|
| 32 |
+
keyboardNeighbors['ễ'] = ["eéèẻẽẹ|êếềểệ", [0.3, 0.7]]
|
| 33 |
+
keyboardNeighbors['ệ'] = ["eéèẻẽẹ|êếềểễ", [0.3, 0.7]]
|
| 34 |
+
keyboardNeighbors['i'] = ["íìỉĩị|ýỳỷỹỵy", [0.7, 0.3]]
|
| 35 |
+
keyboardNeighbors['í'] = ["iìỉĩị|ýỳỷỹỵy", [0.7, 0.3]]
|
| 36 |
+
keyboardNeighbors['ì'] = ["iíỉĩị|ýỳỷỹỵy", [0.7, 0.3]]
|
| 37 |
+
keyboardNeighbors['ỉ'] = ["iíìĩị|ýỳỷỹỵy", [0.7, 0.3]]
|
| 38 |
+
keyboardNeighbors['ĩ'] = ["iíìỉị|ýỳỷỹỵy", [0.7, 0.3]]
|
| 39 |
+
keyboardNeighbors['ị'] = ["iíìỉĩ|ýỳỷỹỵy", [0.7, 0.3]]
|
| 40 |
+
keyboardNeighbors['o'] = ["òóỏọõ|ôốồổỗộ|ơớờởợỡ", [0.7, 0.15, 0.15]]
|
| 41 |
+
keyboardNeighbors['ó'] = ["oòỏọõ|ôốồổỗộ|ơớờởợỡ", [0.7, 0.15, 0.15]]
|
| 42 |
+
keyboardNeighbors['ò'] = ["oóỏọõ|ôốồổỗộ|ơớờởợỡ", [0.7, 0.15, 0.15]]
|
| 43 |
+
keyboardNeighbors['ỏ'] = ["oóòọõ|ôốồổỗộ|ơớờởợỡ", [0.7, 0.15, 0.15]]
|
| 44 |
+
keyboardNeighbors['õ'] = ["oóòỏọ|ôốồổỗộ|ơớờởợỡ", [0.7, 0.15, 0.15]]
|
| 45 |
+
keyboardNeighbors['ọ'] = ["oóòỏõ|ôốồổỗộ|ơớờởợỡ", [0.7, 0.15, 0.15]]
|
| 46 |
+
keyboardNeighbors['ô'] = ["oóòỏọõ|ốồổỗộ|ơớờởợỡ", [0.15, 0.7, 0.15]]
|
| 47 |
+
keyboardNeighbors['ố'] = ["oóòỏọõ|ôồổỗộ|ơớờởợỡ", [0.15, 0.7, 0.15]]
|
| 48 |
+
keyboardNeighbors['ồ'] = ["oóòỏọõ|ôốổỗộ|ơớờởợỡ", [0.15, 0.7, 0.15]]
|
| 49 |
+
keyboardNeighbors['ổ'] = ["oóòỏọõ|ôốồỗộ|ơớờởợỡ", [0.15, 0.7, 0.15]]
|
| 50 |
+
keyboardNeighbors['ộ'] = ["oóòỏọõ|ôốồổỗ|ơớờởợỡ", [0.15, 0.7, 0.15]]
|
| 51 |
+
keyboardNeighbors['ỗ'] = ["oóòỏọõ|ôốồổộ|ơớờởợỡ", [0.15, 0.7, 0.15]]
|
| 52 |
+
keyboardNeighbors['ơ'] = ["oóòỏọõ|ôốồổỗộ|ớờởợỡ", [0.15, 0.15, 0.7]]
|
| 53 |
+
keyboardNeighbors['ớ'] = ["oóòỏọõ|ôốồổỗộ|ơờởợỡ", [0.15, 0.15, 0.7]]
|
| 54 |
+
keyboardNeighbors['ờ'] = ["oóòỏọõ|ôốồổỗộ|ơớởợỡ", [0.15, 0.15, 0.7]]
|
| 55 |
+
keyboardNeighbors['ở'] = ["oóòỏọõ|ôốồổỗộ|ơớờợỡ", [0.15, 0.15, 0.7]]
|
| 56 |
+
keyboardNeighbors['ợ'] = ["oóòỏọõ|ôốồổỗộ|ơớờởỡ", [0.15, 0.15, 0.7]]
|
| 57 |
+
keyboardNeighbors['ỡ'] = ["oóòỏọõ|ôốồổỗộ|ơớờởợ", [0.15, 0.15, 0.7]]
|
| 58 |
+
keyboardNeighbors['u'] = ["úùủũụ|ưứừữửự", [0.7, 0.3]]
|
| 59 |
+
keyboardNeighbors['ú'] = ["uùủũụ|ưứừữửự", [0.7, 0.3]]
|
| 60 |
+
keyboardNeighbors['ù'] = ["uúủũụ|ưứừữửự", [0.7, 0.3]]
|
| 61 |
+
keyboardNeighbors['ủ'] = ["uúùũụ|ưứừữửự", [0.7, 0.3]]
|
| 62 |
+
keyboardNeighbors['ũ'] = ["uúùủụ|ưứừữửự", [0.7, 0.3]]
|
| 63 |
+
keyboardNeighbors['ụ'] = ["uúùủũ|ưứừữửự", [0.7, 0.3]]
|
| 64 |
+
keyboardNeighbors['ư'] = ["uúùủũụ|ứừữửự", [0.3, 0.7]]
|
| 65 |
+
keyboardNeighbors['ứ'] = ["uúùủũụ|ưừữửự", [0.3, 0.7]]
|
| 66 |
+
keyboardNeighbors['ừ'] = ["uúùủũụ|ưứữửự", [0.3, 0.7]]
|
| 67 |
+
keyboardNeighbors['ử'] = ["uúùủũụ|ưứừữự", [0.3, 0.7]]
|
| 68 |
+
keyboardNeighbors['ữ'] = ["uúùủũụ|ưứừửự", [0.3, 0.7]]
|
| 69 |
+
keyboardNeighbors['ự'] = ["uúùủũụ|ưứừữử", [0.3, 0.7]]
|
| 70 |
+
keyboardNeighbors['y'] = ["ýỳỷỵỹ|iíìỉĩị", [0.7, 0.3]]
|
| 71 |
+
keyboardNeighbors['ý'] = ["yỳỷỵỹ|iíìỉĩị", [0.7, 0.3]]
|
| 72 |
+
keyboardNeighbors['ỳ'] = ["yýỷỵỹ|iíìỉĩị", [0.7, 0.3]]
|
| 73 |
+
keyboardNeighbors['ỷ'] = ["yýỳỵỹ|iíìỉĩị", [0.7, 0.3]]
|
| 74 |
+
keyboardNeighbors['ỵ'] = ["yýỳỷỹ|iíìỉĩị", [0.7, 0.3]]
|
| 75 |
+
keyboardNeighbors['ỹ'] = ["yýỳỷỵ|iíìỉĩị", [0.7, 0.3]]
|
| 76 |
+
for key in keyboardNeighbors.keys():
|
| 77 |
+
keyboardNeighbors[key] = [keyboardNeighbors[key][0].split("|"), keyboardNeighbors[key][1]]
|
| 78 |
+
return keyboardNeighbors
|
| 79 |
+
|
dataset/data_generation/normalize.py
ADDED
|
@@ -0,0 +1,183 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
"""
|
| 2 |
+
Copyright @ nguyenvanhieu.vn
|
| 3 |
+
Thằng code python này không giữ được lower/upper case
|
| 4 |
+
Sẽ update khi rảnh
|
| 5 |
+
"""
|
| 6 |
+
import re
|
| 7 |
+
|
| 8 |
+
|
| 9 |
+
uniChars = "àáảãạâầấẩẫậăằắẳẵặèéẻẽẹêềếểễệđìíỉĩịòóỏõọôồốổỗộơờớởỡợùúủũụưừứửữựỳýỷỹỵÀÁẢÃẠÂẦẤẨẪẬĂẰẮẲẴẶÈÉẺẼẸÊỀẾỂỄỆĐÌÍỈĨỊÒÓỎÕỌÔỒỐỔỖỘƠỜỚỞỠỢÙÚỦŨỤƯỪỨỬỮỰỲÝỶỸỴÂĂĐÔƠƯ"
|
| 10 |
+
unsignChars = "aaaaaaaaaaaaaaaaaeeeeeeeeeeediiiiiooooooooooooooooouuuuuuuuuuuyyyyyAAAAAAAAAAAAAAAAAEEEEEEEEEEEDIIIOOOOOOOOOOOOOOOOOOOUUUUUUUUUUUYYYYYAADOOU"
|
| 11 |
+
|
| 12 |
+
|
| 13 |
+
def loaddicchar():
|
| 14 |
+
dic = {}
|
| 15 |
+
char1252 = 'à|á|ả|ã|ạ|ầ|ấ|ẩ|ẫ|ậ|ằ|ắ|ẳ|ẵ|ặ|è|é|ẻ|ẽ|ẹ|ề|ế|ể|ễ|ệ|ì|í|ỉ|ĩ|ị|ò|ó|ỏ|õ|ọ|ồ|ố|ổ|ỗ|ộ|ờ|ớ|ở|ỡ|ợ|ù|ú|ủ|ũ|ụ|ừ|ứ|ử|ữ|ự|ỳ|ý|ỷ|ỹ|ỵ|À|Á|Ả|Ã|Ạ|Ầ|Ấ|Ẩ|Ẫ|Ậ|Ằ|Ắ|Ẳ|Ẵ|Ặ|È|É|Ẻ|Ẽ|Ẹ|Ề|Ế|Ể|Ễ|Ệ|Ì|Í|Ỉ|Ĩ|Ị|Ò|Ó|Ỏ|Õ|Ọ|Ồ|Ố|Ổ|Ỗ|Ộ|Ờ|Ớ|Ở|Ỡ|Ợ|Ù|Ú|Ủ|Ũ|Ụ|Ừ|Ứ|Ử|Ữ|Ự|Ỳ|Ý|Ỷ|Ỹ|Ỵ'.split(
|
| 16 |
+
'|')
|
| 17 |
+
charutf8 = "à|á|ả|ã|ạ|ầ|ấ|ẩ|ẫ|ậ|ằ|ắ|ẳ|ẵ|ặ|è|é|ẻ|ẽ|ẹ|ề|ế|ể|ễ|ệ|ì|í|ỉ|ĩ|ị|ò|ó|ỏ|õ|ọ|ồ|ố|ổ|ỗ|ộ|ờ|ớ|ở|ỡ|ợ|ù|ú|ủ|ũ|ụ|ừ|ứ|ử|ữ|ự|ỳ|ý|ỷ|ỹ|ỵ|À|Á|Ả|Ã|Ạ|Ầ|Ấ|Ẩ|Ẫ|Ậ|Ằ|Ắ|Ẳ|Ẵ|Ặ|È|É|Ẻ|Ẽ|Ẹ|Ề|Ế|Ể|Ễ|Ệ|Ì|Í|Ỉ|Ĩ|Ị|Ò|Ó|Ỏ|Õ|Ọ|Ồ|Ố|Ổ|Ỗ|Ộ|Ờ|Ớ|Ở|Ỡ|Ợ|Ù|Ú|Ủ|Ũ|Ụ|Ừ|Ứ|Ử|Ữ|Ự|Ỳ|Ý|Ỷ|Ỹ|Ỵ".split(
|
| 18 |
+
'|')
|
| 19 |
+
for i in range(len(char1252)):
|
| 20 |
+
dic[char1252[i]] = charutf8[i]
|
| 21 |
+
return dic
|
| 22 |
+
|
| 23 |
+
|
| 24 |
+
dicchar = loaddicchar()
|
| 25 |
+
|
| 26 |
+
|
| 27 |
+
def convertwindown1525toutf8(txt):
|
| 28 |
+
return re.sub(
|
| 29 |
+
r'à|á|ả|ã|ạ|ầ|ấ|ẩ|ẫ|ậ|ằ|ắ|ẳ|ẵ|ặ|è|é|ẻ|ẽ|ẹ|ề|ế|ể|ễ|ệ|ì|í|ỉ|ĩ|ị|ò|ó|ỏ|õ|ọ|ồ|ố|ổ|ỗ|ộ|ờ|ớ|ở|ỡ|ợ|ù|ú|ủ|ũ|ụ|ừ|ứ|ử|ữ|ự|ỳ|ý|ỷ|ỹ|ỵ|À|Á|Ả|Ã|Ạ|Ầ|Ấ|Ẩ|Ẫ|Ậ|Ằ|Ắ|Ẳ|Ẵ|Ặ|È|É|Ẻ|Ẽ|Ẹ|Ề|Ế|Ể|Ễ|Ệ|Ì|Í|Ỉ|Ĩ|Ị|Ò|Ó|Ỏ|Õ|Ọ|Ồ|Ố|Ổ|Ỗ|Ộ|Ờ|Ớ|Ở|Ỡ|Ợ|Ù|Ú|Ủ|Ũ|Ụ|Ừ|Ứ|Ử|Ữ|Ự|Ỳ|Ý|Ỷ|Ỹ|Ỵ',
|
| 30 |
+
lambda x: dicchar[x.group()], txt)
|
| 31 |
+
|
| 32 |
+
"""
|
| 33 |
+
Start section: Chuyển câu văn về kiểu gõ telex khi không bật Unikey
|
| 34 |
+
Ví dụ: thủy = thuyr, tượng = tuwowngj
|
| 35 |
+
"""
|
| 36 |
+
bang_nguyen_am = [['a', 'à', 'á', 'ả', 'ã', 'ạ', 'a'],
|
| 37 |
+
['ă', 'ằ', 'ắ', 'ẳ', 'ẵ', 'ặ', 'aw'],
|
| 38 |
+
['â', 'ầ', 'ấ', 'ẩ', 'ẫ', 'ậ', 'aa'],
|
| 39 |
+
['e', 'è', 'é', 'ẻ', 'ẽ', 'ẹ', 'e'],
|
| 40 |
+
['ê', 'ề', 'ế', 'ể', 'ễ', 'ệ', 'ee'],
|
| 41 |
+
['i', 'ì', 'í', 'ỉ', 'ĩ', 'ị', 'i'],
|
| 42 |
+
['o', 'ò', 'ó', 'ỏ', 'õ', 'ọ', 'o'],
|
| 43 |
+
['ô', 'ồ', 'ố', 'ổ', 'ỗ', 'ộ', 'oo'],
|
| 44 |
+
['ơ', 'ờ', 'ớ', 'ở', 'ỡ', 'ợ', 'ow'],
|
| 45 |
+
['u', 'ù', 'ú', 'ủ', 'ũ', 'ụ', 'u'],
|
| 46 |
+
['ư', 'ừ', 'ứ', 'ử', 'ữ', 'ự', 'uw'],
|
| 47 |
+
['y', 'ỳ', 'ý', 'ỷ', 'ỹ', 'ỵ', 'y']]
|
| 48 |
+
bang_ky_tu_dau = ['', 'f', 's', 'r', 'x', 'j']
|
| 49 |
+
|
| 50 |
+
nguyen_am_to_ids = {}
|
| 51 |
+
|
| 52 |
+
for i in range(len(bang_nguyen_am)):
|
| 53 |
+
for j in range(len(bang_nguyen_am[i]) - 1):
|
| 54 |
+
nguyen_am_to_ids[bang_nguyen_am[i][j]] = (i, j)
|
| 55 |
+
|
| 56 |
+
|
| 57 |
+
def vn_word_to_telex_type(word):
|
| 58 |
+
dau_cau = 0
|
| 59 |
+
new_word = ''
|
| 60 |
+
for char in word:
|
| 61 |
+
x, y = nguyen_am_to_ids.get(char, (-1, -1))
|
| 62 |
+
if x == -1:
|
| 63 |
+
new_word += char
|
| 64 |
+
continue
|
| 65 |
+
if y != 0:
|
| 66 |
+
dau_cau = y
|
| 67 |
+
new_word += bang_nguyen_am[x][-1]
|
| 68 |
+
new_word += bang_ky_tu_dau[dau_cau]
|
| 69 |
+
return new_word
|
| 70 |
+
|
| 71 |
+
|
| 72 |
+
def vn_sentence_to_telex_type(sentence):
|
| 73 |
+
"""
|
| 74 |
+
Chuyển câu tiếng việt có dấu về kiểu gõ telex.
|
| 75 |
+
:param sentence:
|
| 76 |
+
:return:
|
| 77 |
+
"""
|
| 78 |
+
words = sentence.split()
|
| 79 |
+
for index, word in enumerate(words):
|
| 80 |
+
words[index] = vn_word_to_telex_type(word)
|
| 81 |
+
return ' '.join(words)
|
| 82 |
+
"""
|
| 83 |
+
Start section: Chuyển câu văn về cách gõ dấu kiểu cũ: dùng òa úy thay oà uý
|
| 84 |
+
Xem tại đây: https://vi.wikipedia.org/wiki/Quy_t%E1%BA%AFc_%C4%91%E1%BA%B7t_d%E1%BA%A5u_thanh_trong_ch%E1%BB%AF_qu%E1%BB%91c_ng%E1%BB%AF
|
| 85 |
+
"""
|
| 86 |
+
|
| 87 |
+
|
| 88 |
+
def chuan_hoa_dau_tu_tieng_viet(word):
|
| 89 |
+
if not is_valid_vietnam_word(word):
|
| 90 |
+
return word
|
| 91 |
+
|
| 92 |
+
chars = list(word)
|
| 93 |
+
dau_cau = 0
|
| 94 |
+
nguyen_am_index = []
|
| 95 |
+
qu_or_gi = False
|
| 96 |
+
for index, char in enumerate(chars):
|
| 97 |
+
x, y = nguyen_am_to_ids.get(char, (-1, -1))
|
| 98 |
+
if x == -1:
|
| 99 |
+
continue
|
| 100 |
+
elif x == 9: # check qu
|
| 101 |
+
if index != 0 and chars[index - 1] == 'q':
|
| 102 |
+
chars[index] = 'u'
|
| 103 |
+
qu_or_gi = True
|
| 104 |
+
elif x == 5: # check gi
|
| 105 |
+
if index != 0 and chars[index - 1] == 'g':
|
| 106 |
+
chars[index] = 'i'
|
| 107 |
+
qu_or_gi = True
|
| 108 |
+
if y != 0:
|
| 109 |
+
dau_cau = y
|
| 110 |
+
chars[index] = bang_nguyen_am[x][0]
|
| 111 |
+
if not qu_or_gi or index != 1:
|
| 112 |
+
nguyen_am_index.append(index)
|
| 113 |
+
if len(nguyen_am_index) < 2:
|
| 114 |
+
if qu_or_gi:
|
| 115 |
+
if len(chars) == 2:
|
| 116 |
+
x, y = nguyen_am_to_ids.get(chars[1])
|
| 117 |
+
chars[1] = bang_nguyen_am[x][dau_cau]
|
| 118 |
+
else:
|
| 119 |
+
x, y = nguyen_am_to_ids.get(chars[2], (-1, -1))
|
| 120 |
+
if x != -1:
|
| 121 |
+
chars[2] = bang_nguyen_am[x][dau_cau]
|
| 122 |
+
else:
|
| 123 |
+
chars[1] = bang_nguyen_am[5][dau_cau] if chars[1] == 'i' else bang_nguyen_am[9][dau_cau]
|
| 124 |
+
return ''.join(chars)
|
| 125 |
+
return word
|
| 126 |
+
|
| 127 |
+
for index in nguyen_am_index:
|
| 128 |
+
x, y = nguyen_am_to_ids[chars[index]]
|
| 129 |
+
if x == 4 or x == 8: # ê, ơ
|
| 130 |
+
chars[index] = bang_nguyen_am[x][dau_cau]
|
| 131 |
+
# for index2 in nguyen_am_index:
|
| 132 |
+
# if index2 != index:
|
| 133 |
+
# x, y = nguyen_am_to_ids[chars[index]]
|
| 134 |
+
# chars[index2] = bang_nguyen_am[x][0]
|
| 135 |
+
return ''.join(chars)
|
| 136 |
+
|
| 137 |
+
if len(nguyen_am_index) == 2:
|
| 138 |
+
if nguyen_am_index[-1] == len(chars) - 1:
|
| 139 |
+
x, y = nguyen_am_to_ids[chars[nguyen_am_index[0]]]
|
| 140 |
+
chars[nguyen_am_index[0]] = bang_nguyen_am[x][dau_cau]
|
| 141 |
+
# x, y = nguyen_am_to_ids[chars[nguyen_am_index[1]]]
|
| 142 |
+
# chars[nguyen_am_index[1]] = bang_nguyen_am[x][0]
|
| 143 |
+
else:
|
| 144 |
+
# x, y = nguyen_am_to_ids[chars[nguyen_am_index[0]]]
|
| 145 |
+
# chars[nguyen_am_index[0]] = bang_nguyen_am[x][0]
|
| 146 |
+
x, y = nguyen_am_to_ids[chars[nguyen_am_index[1]]]
|
| 147 |
+
chars[nguyen_am_index[1]] = bang_nguyen_am[x][dau_cau]
|
| 148 |
+
else:
|
| 149 |
+
# x, y = nguyen_am_to_ids[chars[nguyen_am_index[0]]]
|
| 150 |
+
# chars[nguyen_am_index[0]] = bang_nguyen_am[x][0]
|
| 151 |
+
x, y = nguyen_am_to_ids[chars[nguyen_am_index[1]]]
|
| 152 |
+
chars[nguyen_am_index[1]] = bang_nguyen_am[x][dau_cau]
|
| 153 |
+
# x, y = nguyen_am_to_ids[chars[nguyen_am_index[2]]]
|
| 154 |
+
# chars[nguyen_am_index[2]] = bang_nguyen_am[x][0]
|
| 155 |
+
return ''.join(chars)
|
| 156 |
+
|
| 157 |
+
|
| 158 |
+
def is_valid_vietnam_word(word):
|
| 159 |
+
chars = list(word)
|
| 160 |
+
nguyen_am_index = -1
|
| 161 |
+
for index, char in enumerate(chars):
|
| 162 |
+
x, y = nguyen_am_to_ids.get(char, (-1, -1))
|
| 163 |
+
if x != -1:
|
| 164 |
+
if nguyen_am_index == -1:
|
| 165 |
+
nguyen_am_index = index
|
| 166 |
+
else:
|
| 167 |
+
if index - nguyen_am_index != 1:
|
| 168 |
+
return False
|
| 169 |
+
nguyen_am_index = index
|
| 170 |
+
return True
|
| 171 |
+
|
| 172 |
+
|
| 173 |
+
def chuan_hoa_dau_cau_tieng_viet(sentence):
|
| 174 |
+
"""
|
| 175 |
+
Chuyển câu tiếng việt về chuẩn gõ dấu kiểu cũ.
|
| 176 |
+
:param sentence:
|
| 177 |
+
:return:
|
| 178 |
+
"""
|
| 179 |
+
sentence = sentence.lower()
|
| 180 |
+
words = sentence.split()
|
| 181 |
+
for index, word in enumerate(words):
|
| 182 |
+
words[index] = chuan_hoa_dau_tu_tieng_viet(word)
|
| 183 |
+
return ' '.join(words)
|
dataset/data_generation/typing_error_gen.py
ADDED
|
@@ -0,0 +1,13 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
import re
|
| 2 |
+
from normalize import chuan_hoa_dau_tu_tieng_viet
|
| 3 |
+
import numpy as np
|
| 4 |
+
|
| 5 |
+
with open("common-vietnamese-syllables.txt", "r") as file:
|
| 6 |
+
vi_syllables = [line.strip("\n") for line in file.readlines()]
|
| 7 |
+
|
| 8 |
+
file = open("../../dataset/noising_resources/kieu_go_dau_cu_moi.txt", "w+")
|
| 9 |
+
for syllable in vi_syllables:
|
| 10 |
+
normalized = chuan_hoa_dau_tu_tieng_viet(syllable)
|
| 11 |
+
if normalized != syllable:
|
| 12 |
+
print(normalized, syllable, file = file)
|
| 13 |
+
file.close()
|
dataset/log/prepare_data.log
ADDED
|
File without changes
|
dataset/noise.py
ADDED
|
@@ -0,0 +1,655 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
import string
|
| 2 |
+
from nltk.tokenize import word_tokenize
|
| 3 |
+
import numpy as np
|
| 4 |
+
import re
|
| 5 |
+
import unidecode
|
| 6 |
+
import nltk
|
| 7 |
+
import json
|
| 8 |
+
import os
|
| 9 |
+
real_file_path = "/".join(os.path.realpath(__file__).split("/")[:-1])
|
| 10 |
+
nltk.download('punkt')
|
| 11 |
+
from dataset.vocab import Vocab
|
| 12 |
+
from ast import literal_eval
|
| 13 |
+
|
| 14 |
+
class SynthesizeData(object):
|
| 15 |
+
"""
|
| 16 |
+
Uitils class to create artificial miss-spelled words
|
| 17 |
+
Args:
|
| 18 |
+
vocab_path: path to vocab file. Vocab file is expected to be a set of words, separate by ' ', no newline charactor.
|
| 19 |
+
"""
|
| 20 |
+
|
| 21 |
+
def __init__(self, vocab: Vocab):
|
| 22 |
+
|
| 23 |
+
self.vocab = vocab
|
| 24 |
+
self.tokenizer = word_tokenize
|
| 25 |
+
|
| 26 |
+
self.vn_alphabet = ['a', 'ă', 'â', 'b', 'c', 'd', 'đ', 'e', 'ê', 'g', 'h', 'i', 'k', 'l', 'm', 'n', 'o', 'ô',
|
| 27 |
+
'ơ', 'p', 'q', 'r', 's', 't', 'u', 'ư', 'v', 'x', 'y']
|
| 28 |
+
self.alphabet_len = len(self.vn_alphabet)
|
| 29 |
+
self.word_couples = [pair.strip("\n").split(" ") for pair in open(os.path.join(real_file_path, "noising_resources/kieu_go_dau_cu_moi.txt"), "r", encoding='utf-8').readlines()]
|
| 30 |
+
self.homowords = literal_eval(open( os.path.join(real_file_path, "noising_resources/confusion_set.json"), "r", encoding='utf-8').read())
|
| 31 |
+
self.homo_leters_dict = literal_eval(open( os.path.join(real_file_path, "noising_resources/homo_leter.json"), "r", encoding='utf-8').read())
|
| 32 |
+
|
| 33 |
+
self.teencode_dict = {'mình': ['mk', 'mik', 'mjk'], 'vô': ['zô', 'zo', 'vo'], 'vậy': ['zậy', 'z', 'zay', 'za'],
|
| 34 |
+
'phải': ['fải', 'fai', ], 'biết': ['bit', 'biet'],
|
| 35 |
+
'rồi': ['rùi', 'ròi', 'r'], 'bây': ['bi', 'bay'], 'giờ': ['h', ],
|
| 36 |
+
'không': ['k', 'ko', 'khong', 'hk', 'hong', 'hông', '0', 'kg', 'kh', ],
|
| 37 |
+
'đi': ['di', 'dj', ], 'gì': ['j', ], 'em': ['e', ], 'được': ['dc', 'đc', ], 'tao': ['t'],
|
| 38 |
+
'tôi': ['t'], 'chồng': ['ck'], 'vợ': ['vk']
|
| 39 |
+
}
|
| 40 |
+
|
| 41 |
+
self.typo = json.load( open(os.path.join(real_file_path,"noising_resources/typo.json"), "r", encoding='utf-8'))
|
| 42 |
+
self.all_char_candidates = self.get_all_char_candidates()
|
| 43 |
+
self.all_word_candidates = self.get_all_word_candidates()
|
| 44 |
+
|
| 45 |
+
def replace_teencode(self, word):
|
| 46 |
+
candidates = self.teencode_dict.get(word, None)
|
| 47 |
+
if candidates is not None:
|
| 48 |
+
chosen_one = 0
|
| 49 |
+
if len(candidates) > 1:
|
| 50 |
+
chosen_one = np.random.randint(0, len(candidates))
|
| 51 |
+
return candidates[chosen_one]
|
| 52 |
+
|
| 53 |
+
|
| 54 |
+
def replace_char_candidate(self, char):
|
| 55 |
+
"""
|
| 56 |
+
return a homophone char/subword of the input char.
|
| 57 |
+
"""
|
| 58 |
+
return np.random.choice(self.homo_leters_dict[char])
|
| 59 |
+
|
| 60 |
+
def replace_word_candidate(self, word):
|
| 61 |
+
"""
|
| 62 |
+
Return a new typo word of the input word for example òa oà
|
| 63 |
+
"""
|
| 64 |
+
capital_flag = word[0].isupper()
|
| 65 |
+
word = word.lower()
|
| 66 |
+
if capital_flag and word in self.teencode_dict:
|
| 67 |
+
return self.replace_teencode(word).capitalize()
|
| 68 |
+
elif word in self.teencode_dict:
|
| 69 |
+
return self.replace_teencode(word)
|
| 70 |
+
|
| 71 |
+
for couple in self.word_couples:
|
| 72 |
+
for i in range(2):
|
| 73 |
+
if couple[i] == word:
|
| 74 |
+
if i == 0:
|
| 75 |
+
if capital_flag:
|
| 76 |
+
return couple[1].capitalize()
|
| 77 |
+
else:
|
| 78 |
+
return couple[1]
|
| 79 |
+
else:
|
| 80 |
+
if capital_flag:
|
| 81 |
+
return couple[0].capitalize()
|
| 82 |
+
else:
|
| 83 |
+
return couple[0]
|
| 84 |
+
|
| 85 |
+
def replace_homo_candidate(self, word):
|
| 86 |
+
"""
|
| 87 |
+
Return a homo word of the input word
|
| 88 |
+
"""
|
| 89 |
+
capital_flag = word[0].isupper()
|
| 90 |
+
word = word.lower()
|
| 91 |
+
|
| 92 |
+
def random_capitalize(word):
|
| 93 |
+
index = np.random.randint(0, len(word))
|
| 94 |
+
return word[0:index] + word[index].upper() + word[index+1:]
|
| 95 |
+
|
| 96 |
+
candidate_type = np.random.choice(["phu_am_dau", "phu_am_cuoi", "nguyen_am"]\
|
| 97 |
+
, p = [0.1, 0.3, 0.6])
|
| 98 |
+
if candidate_type == "nguyen_am":
|
| 99 |
+
coin = np.random.choice([0, 1], p = [0.7, 0.3])
|
| 100 |
+
candidates = list(self.homowords[word][candidate_type][coin])
|
| 101 |
+
else:
|
| 102 |
+
candidates = list(self.homowords[word][candidate_type])
|
| 103 |
+
if len(candidates) == 0:
|
| 104 |
+
if capital_flag:
|
| 105 |
+
return word
|
| 106 |
+
return random_capitalize(word)
|
| 107 |
+
|
| 108 |
+
candidate = np.random.choice(candidates)
|
| 109 |
+
if capital_flag:
|
| 110 |
+
return candidate.capitalize()
|
| 111 |
+
return candidate
|
| 112 |
+
|
| 113 |
+
def replace_char_candidate_typo(self, char):
|
| 114 |
+
"""
|
| 115 |
+
return a homophone char/subword of the input char.
|
| 116 |
+
"""
|
| 117 |
+
candidates = self.typo[char]
|
| 118 |
+
num_lower_priority = len(candidates) - 1
|
| 119 |
+
round_flag = 10 * num_lower_priority
|
| 120 |
+
|
| 121 |
+
return np.random.choice(candidates, p = [0.7, *[3 / round_flag for i in range(num_lower_priority)]])
|
| 122 |
+
|
| 123 |
+
|
| 124 |
+
|
| 125 |
+
def get_all_char_candidates(self):
|
| 126 |
+
|
| 127 |
+
return list(self.homo_leters_dict.keys())
|
| 128 |
+
|
| 129 |
+
def get_all_word_candidates(self):
|
| 130 |
+
|
| 131 |
+
all_word_candidates = []
|
| 132 |
+
for couple in self.word_couples:
|
| 133 |
+
all_word_candidates.extend(couple)
|
| 134 |
+
return all_word_candidates
|
| 135 |
+
|
| 136 |
+
|
| 137 |
+
def remove_diacritics(self, text, onehot_label):
|
| 138 |
+
"""
|
| 139 |
+
Replace word which has diacritics with the same word without diacritics
|
| 140 |
+
Args:
|
| 141 |
+
text: a list of word tokens
|
| 142 |
+
onehot_label: onehot array indicate position of word that has already modify, so this
|
| 143 |
+
function only choose the word that do not has onehot label == 1.
|
| 144 |
+
return: a list of word tokens has one word that its diacritics was removed,
|
| 145 |
+
a list of onehot label indicate the position of words that has been modified.
|
| 146 |
+
"""
|
| 147 |
+
|
| 148 |
+
if len(text) == len(' '.join(text).split()):
|
| 149 |
+
its_me = True
|
| 150 |
+
else:
|
| 151 |
+
its_me = False
|
| 152 |
+
|
| 153 |
+
idx = np.random.randint(0, len(onehot_label))
|
| 154 |
+
prevent_loop = 0
|
| 155 |
+
noised_token = unidecode.unidecode(text[idx])
|
| 156 |
+
while onehot_label[idx] != 0 or not self.vocab.exist(text[idx]) or text[idx] in string.punctuation or text[idx] == noised_token:
|
| 157 |
+
idx = np.random.randint(0, len(onehot_label))
|
| 158 |
+
noised_token = unidecode.unidecode(text[idx])
|
| 159 |
+
prevent_loop += 1
|
| 160 |
+
if prevent_loop > 10:
|
| 161 |
+
return False, text, onehot_label
|
| 162 |
+
|
| 163 |
+
onehot_label[idx] = 1
|
| 164 |
+
token = text[idx]
|
| 165 |
+
text[idx] = unidecode.unidecode(text[idx])
|
| 166 |
+
|
| 167 |
+
if (len(text) != len(' '.join(text).split())) and its_me:
|
| 168 |
+
print("ERROR:")
|
| 169 |
+
print("text: ", text)
|
| 170 |
+
print("replaced token: ", text[idx])
|
| 171 |
+
print("org token: ", token)
|
| 172 |
+
|
| 173 |
+
return True, text, onehot_label
|
| 174 |
+
|
| 175 |
+
def replace_with_random_letter(self, text, onehot_label):
|
| 176 |
+
"""
|
| 177 |
+
Replace, add (or remove) a random letter in a random chosen word with a random letter
|
| 178 |
+
Args:
|
| 179 |
+
text: a list of word tokens
|
| 180 |
+
onehot_label: onehot array indicate position of word that has already modify, so this
|
| 181 |
+
function only choose the word that do not has onehot label == 1.
|
| 182 |
+
return: a list of word tokens has one word that has been modified,
|
| 183 |
+
a list of onehot label indicate the position of words that has been modified.
|
| 184 |
+
"""
|
| 185 |
+
|
| 186 |
+
if len(text) == len(' '.join(text).split()):
|
| 187 |
+
its_me = True
|
| 188 |
+
else:
|
| 189 |
+
its_me = False
|
| 190 |
+
|
| 191 |
+
idx = np.random.randint(0, len(onehot_label))
|
| 192 |
+
prevent_loop = 0
|
| 193 |
+
while onehot_label[idx] != 0 or not self.vocab.exist(text[idx]) or len(text[idx]) < 3:
|
| 194 |
+
idx = np.random.randint(0, len(onehot_label))
|
| 195 |
+
prevent_loop += 1
|
| 196 |
+
if prevent_loop > 10:
|
| 197 |
+
return False, text, onehot_label
|
| 198 |
+
|
| 199 |
+
|
| 200 |
+
|
| 201 |
+
# replace, add or remove? 0 is replace, 1 is add, 2 is remove
|
| 202 |
+
# 0.8 1 edits, 0.2 2 edits
|
| 203 |
+
num_edit = np.random.choice([1,2], p = [0.8, 0.2])
|
| 204 |
+
coin = np.random.choice([0, 1, 2])
|
| 205 |
+
|
| 206 |
+
for i in range(num_edit):
|
| 207 |
+
token = list(text[idx])
|
| 208 |
+
if coin == 0:
|
| 209 |
+
chosen_idx = np.random.randint(0, len(token))
|
| 210 |
+
replace_candidate = self.vn_alphabet[np.random.randint(
|
| 211 |
+
0, self.alphabet_len)]
|
| 212 |
+
token[chosen_idx] = replace_candidate
|
| 213 |
+
text[idx] = "".join(token)
|
| 214 |
+
elif coin == 1:
|
| 215 |
+
chosen_idx = np.random.randint(0, len(token) + 1)
|
| 216 |
+
if chosen_idx == len(token):
|
| 217 |
+
added_chars = self.vn_alphabet[np.random.randint(0, self.alphabet_len)] + \
|
| 218 |
+
token[0]
|
| 219 |
+
chosen_idx = 0
|
| 220 |
+
else:
|
| 221 |
+
added_chars = token[chosen_idx] + \
|
| 222 |
+
self.vn_alphabet[np.random.randint(0, self.alphabet_len)]
|
| 223 |
+
|
| 224 |
+
token[chosen_idx] = added_chars
|
| 225 |
+
text[idx] = "".join(token)
|
| 226 |
+
else:
|
| 227 |
+
chosen_idx = np.random.randint(0, len(token))
|
| 228 |
+
token[chosen_idx] = ""
|
| 229 |
+
text[idx] = "".join(token)
|
| 230 |
+
|
| 231 |
+
onehot_label[idx] = 1
|
| 232 |
+
|
| 233 |
+
if (len(text) != len(' '.join(text).split())) and its_me:
|
| 234 |
+
print("ERROR:")
|
| 235 |
+
print("text: ", text)
|
| 236 |
+
print("replaced token: ", text[idx])
|
| 237 |
+
print("org token: ", token)
|
| 238 |
+
print("coin: ", coin)
|
| 239 |
+
return False, text, onehot_label
|
| 240 |
+
|
| 241 |
+
return True, text, onehot_label
|
| 242 |
+
|
| 243 |
+
def replace_with_new_typo_word(self, text, onehot_label):
|
| 244 |
+
"""
|
| 245 |
+
Replace a candidate word (if exist in the word_couple) with its homophone. if successful, return True, else False
|
| 246 |
+
Args:
|
| 247 |
+
text: a list of word tokens
|
| 248 |
+
onehot_label: onehot array indicate position of word that has already modify, so this
|
| 249 |
+
function only choose the word that do not has onehot label == 1.
|
| 250 |
+
return: True, text, onehot_label if successful replace, else False, text, onehot_label
|
| 251 |
+
"""
|
| 252 |
+
# account for the case that the word in the text is upper case but its lowercase match the candidates list
|
| 253 |
+
|
| 254 |
+
if len(text) == len(' '.join(text).split()):
|
| 255 |
+
its_me = True
|
| 256 |
+
else:
|
| 257 |
+
its_me = False
|
| 258 |
+
|
| 259 |
+
candidates = []
|
| 260 |
+
for i in range(len(text)):
|
| 261 |
+
if text[i].lower() in self.all_word_candidates or text[i].lower() in self.teencode_dict.keys():
|
| 262 |
+
candidates.append((i, text[i]))
|
| 263 |
+
|
| 264 |
+
if len(candidates) == 0:
|
| 265 |
+
return False, text, onehot_label
|
| 266 |
+
|
| 267 |
+
idx = np.random.randint(0, len(candidates))
|
| 268 |
+
prevent_loop = 0
|
| 269 |
+
while onehot_label[candidates[idx][0]] != 0 or not self.vocab.exist(candidates[idx][1]):
|
| 270 |
+
idx = np.random.choice(np.arange(0, len(candidates)))
|
| 271 |
+
prevent_loop += 1
|
| 272 |
+
if prevent_loop > 10:
|
| 273 |
+
return False, text, onehot_label
|
| 274 |
+
|
| 275 |
+
text[candidates[idx][0]] = self.replace_word_candidate(
|
| 276 |
+
candidates[idx][1])
|
| 277 |
+
|
| 278 |
+
if (len(text) != len(' '.join(text).split())) and its_me:
|
| 279 |
+
print("ERROR:")
|
| 280 |
+
print("text: ", text)
|
| 281 |
+
print("replaced token: ", text[candidates[idx][0]])
|
| 282 |
+
print("org token: ", candidates[idx][1])
|
| 283 |
+
|
| 284 |
+
onehot_label[candidates[idx][0]] = 1
|
| 285 |
+
return True, text, onehot_label
|
| 286 |
+
|
| 287 |
+
def replace_with_homophone_word(self, text, onehot_label):
|
| 288 |
+
"""
|
| 289 |
+
Replace a candidate word (if exist in the word_couple) with its homophone. if successful, return True, else False
|
| 290 |
+
Args:
|
| 291 |
+
text: a list of word tokens
|
| 292 |
+
onehot_label: onehot array indicate position of word that has already modify, so this
|
| 293 |
+
function only choose the word that do not has onehot label == 1.
|
| 294 |
+
return: True, text, onehot_label if successful replace, else False, text, onehot_label
|
| 295 |
+
"""
|
| 296 |
+
# account for the case that the word in the text is upper case but its lowercase match the candidates list
|
| 297 |
+
|
| 298 |
+
if len(text) == len(' '.join(text).split()):
|
| 299 |
+
its_me = True
|
| 300 |
+
else:
|
| 301 |
+
its_me = False
|
| 302 |
+
|
| 303 |
+
candidates = []
|
| 304 |
+
for i in range(len(text)):
|
| 305 |
+
if text[i].lower() in self.homowords:
|
| 306 |
+
candidates.append((i, text[i]))
|
| 307 |
+
|
| 308 |
+
if len(candidates) == 0:
|
| 309 |
+
return False, text, onehot_label
|
| 310 |
+
|
| 311 |
+
idx = np.random.randint(0, len(candidates))
|
| 312 |
+
prevent_loop = 0
|
| 313 |
+
while onehot_label[candidates[idx][0]] != 0 or not self.vocab.exist(candidates[idx][1]):
|
| 314 |
+
idx = np.random.choice(np.arange(0, len(candidates)))
|
| 315 |
+
prevent_loop += 1
|
| 316 |
+
if prevent_loop > 10:
|
| 317 |
+
return False, text, onehot_label
|
| 318 |
+
|
| 319 |
+
text[candidates[idx][0]] = self.replace_homo_candidate(
|
| 320 |
+
candidates[idx][1])
|
| 321 |
+
|
| 322 |
+
if (len(text) != len(' '.join(text).split())) and its_me:
|
| 323 |
+
print("ERROR:")
|
| 324 |
+
print("text: ", text)
|
| 325 |
+
print("replaced token: ", text[candidates[idx][0]])
|
| 326 |
+
print("org token: ", candidates[idx][1])
|
| 327 |
+
return False, text, onehot_label
|
| 328 |
+
|
| 329 |
+
onehot_label[candidates[idx][0]] = 1
|
| 330 |
+
return True, text, onehot_label
|
| 331 |
+
|
| 332 |
+
def replace_with_homophone_letter(self, text, onehot_label):
|
| 333 |
+
|
| 334 |
+
"""
|
| 335 |
+
Replace a subword/letter with its homophones
|
| 336 |
+
Args:
|
| 337 |
+
text: a list of word tokens
|
| 338 |
+
onehot_label: onehot array indicate position of word that has already modify, so this
|
| 339 |
+
function only choose the word that do not has onehot label == 1.
|
| 340 |
+
return: True, text, onehot_label if successful replace, else False, None, None
|
| 341 |
+
"""
|
| 342 |
+
|
| 343 |
+
if len(text) == len(' '.join(text).split()):
|
| 344 |
+
its_me = True
|
| 345 |
+
else:
|
| 346 |
+
its_me = False
|
| 347 |
+
|
| 348 |
+
candidates = []
|
| 349 |
+
for i in range(len(text)):
|
| 350 |
+
for char in self.all_char_candidates:
|
| 351 |
+
if re.search("^" + char, text[i]) is not None:
|
| 352 |
+
candidates.append((i, char, "^" + char ))
|
| 353 |
+
if re.search(char + "$", text[i]) is not None:
|
| 354 |
+
candidates.append((i, char, char + "$"))
|
| 355 |
+
|
| 356 |
+
if len(candidates) == 0:
|
| 357 |
+
|
| 358 |
+
return False, text, onehot_label
|
| 359 |
+
|
| 360 |
+
else:
|
| 361 |
+
idx = np.random.randint(0, len(candidates))
|
| 362 |
+
prevent_loop = 0
|
| 363 |
+
while onehot_label[candidates[idx][0]] != 0 or not self.vocab.exist(text[candidates[idx][0]]) or len(text[candidates[idx][0]]) < 2:
|
| 364 |
+
idx = np.random.randint(0, len(candidates))
|
| 365 |
+
prevent_loop += 1
|
| 366 |
+
if prevent_loop > 10:
|
| 367 |
+
return False, text, onehot_label
|
| 368 |
+
|
| 369 |
+
replaced = self.replace_char_candidate(candidates[idx][1])
|
| 370 |
+
## 0.15% remove the candidate. cát -> cá
|
| 371 |
+
coin = np.random.choice([0, 1], p = [0.8, 0.2])
|
| 372 |
+
text_to_replace = text[candidates[idx][0]]
|
| 373 |
+
result = re.sub(candidates[idx][2], replaced if coin == 0 else "",
|
| 374 |
+
text_to_replace)
|
| 375 |
+
if result == "":
|
| 376 |
+
result = re.sub(candidates[idx][2], replaced,
|
| 377 |
+
text_to_replace)
|
| 378 |
+
|
| 379 |
+
text[candidates[idx][0]] = result
|
| 380 |
+
|
| 381 |
+
if (len(text) != len(' '.join(text).split())) and its_me:
|
| 382 |
+
print("ERROR:")
|
| 383 |
+
print("text: ", text)
|
| 384 |
+
print("replaced token: ", text[candidates[idx][0]])
|
| 385 |
+
print("letter: ", candidates[idx][1])
|
| 386 |
+
print("replaced letter: ", replaced)
|
| 387 |
+
|
| 388 |
+
onehot_label[candidates[idx][0]] = 1
|
| 389 |
+
return True, text, onehot_label
|
| 390 |
+
|
| 391 |
+
def replace_with_typo_letter(self, text, onehot_label):
|
| 392 |
+
"""
|
| 393 |
+
Replace a subword/letter with its homophones
|
| 394 |
+
Args:
|
| 395 |
+
text: a list of word tokens
|
| 396 |
+
onehot_label: onehot array indicate position of word that has already modify, so this
|
| 397 |
+
function only choose the word that do not has onehot label == 1.
|
| 398 |
+
return: True, text, onehot_label if successful replace, else False, None, None
|
| 399 |
+
"""
|
| 400 |
+
|
| 401 |
+
if len(text) == len(' '.join(text).split()):
|
| 402 |
+
its_me = True
|
| 403 |
+
else:
|
| 404 |
+
its_me = False
|
| 405 |
+
|
| 406 |
+
# find index noise
|
| 407 |
+
idx = np.random.randint(0, len(onehot_label))
|
| 408 |
+
prevent_loop = 0
|
| 409 |
+
while onehot_label[idx] != 0 or not self.vocab.exist(text[idx]):
|
| 410 |
+
idx = np.random.randint(0, len(onehot_label))
|
| 411 |
+
prevent_loop += 1
|
| 412 |
+
if prevent_loop > 10:
|
| 413 |
+
return False, text, onehot_label
|
| 414 |
+
|
| 415 |
+
index_noise = idx
|
| 416 |
+
onehot_label[index_noise] = 1
|
| 417 |
+
|
| 418 |
+
org_word = text[index_noise]
|
| 419 |
+
word_noise = text[index_noise]
|
| 420 |
+
|
| 421 |
+
pattern = "(" + "|".join(self.typo.keys()) + "){1}"
|
| 422 |
+
candidates = re.findall(pattern, word_noise)
|
| 423 |
+
if len(candidates) == 0:
|
| 424 |
+
return False, text, onehot_label
|
| 425 |
+
accent_pattern = "(s|f|r|x|j|1|2|3|4|5){1}"
|
| 426 |
+
for candidate in candidates:
|
| 427 |
+
replaced = self.replace_char_candidate_typo(candidate)
|
| 428 |
+
# Move accent to the end of text
|
| 429 |
+
result = re.findall(accent_pattern, replaced)
|
| 430 |
+
if len(result) != 0:
|
| 431 |
+
word_noise = re.sub(candidate, replaced[0:-1], word_noise)
|
| 432 |
+
word_noise += replaced[-1]
|
| 433 |
+
else:
|
| 434 |
+
word_noise = re.sub(candidate, replaced, word_noise)
|
| 435 |
+
|
| 436 |
+
text[index_noise] = word_noise
|
| 437 |
+
|
| 438 |
+
if len(word_noise) < 3:
|
| 439 |
+
return True, text, onehot_label
|
| 440 |
+
### Introduce one or two edit on text
|
| 441 |
+
num_edits = np.random.choice([0, 1, 2], p = [0.5, 0.35, 0.15])
|
| 442 |
+
|
| 443 |
+
for i in range(num_edits):
|
| 444 |
+
coin = np.random.choice([0, 1, 2, 3])
|
| 445 |
+
word_noise = list(text[index_noise])
|
| 446 |
+
start_char = word_noise.pop(0)
|
| 447 |
+
|
| 448 |
+
if coin == 0:
|
| 449 |
+
chosen_idx = np.random.randint(0, len(word_noise))
|
| 450 |
+
word_noise[chosen_idx] = self.vn_alphabet[np.random.randint(0, self.alphabet_len)]
|
| 451 |
+
text[index_noise] = start_char + "".join(word_noise)
|
| 452 |
+
elif coin == 1:
|
| 453 |
+
chosen_idx = np.random.randint(0, len(word_noise))
|
| 454 |
+
word_noise[chosen_idx] += self.vn_alphabet[np.random.randint(0, self.alphabet_len)]
|
| 455 |
+
text[index_noise] = start_char + "".join(word_noise)
|
| 456 |
+
elif coin == 2:
|
| 457 |
+
if len(word_noise) < 2:
|
| 458 |
+
continue
|
| 459 |
+
chosen_idxs = np.random.choice(range(len(word_noise)), size = 2)
|
| 460 |
+
word_noise[chosen_idxs[0]], word_noise[chosen_idxs[1]] = \
|
| 461 |
+
word_noise[chosen_idxs[1]], word_noise[chosen_idxs[0]]
|
| 462 |
+
text[index_noise] = start_char + "".join(word_noise)
|
| 463 |
+
else:
|
| 464 |
+
chosen_idx = np.random.randint(0, len(word_noise))
|
| 465 |
+
word_noise[chosen_idx] = ""
|
| 466 |
+
text[index_noise] = start_char + "".join(word_noise)
|
| 467 |
+
|
| 468 |
+
return True, text, onehot_label
|
| 469 |
+
|
| 470 |
+
def split_word(self, text, onehot_label):
|
| 471 |
+
|
| 472 |
+
# find index noise
|
| 473 |
+
idx = np.random.randint(0, len(onehot_label))
|
| 474 |
+
prevent_loop = 0
|
| 475 |
+
while onehot_label[idx] not in [0, 1] or len(text[idx]) < 3 or text[idx] in r'''!"#$%&'()*+,-./:;<=>?@[]^_`{|}~''' :
|
| 476 |
+
idx = np.random.randint(0, len(onehot_label))
|
| 477 |
+
prevent_loop += 1
|
| 478 |
+
if prevent_loop > 10:
|
| 479 |
+
return False, text, onehot_label
|
| 480 |
+
|
| 481 |
+
org_word = text[idx]
|
| 482 |
+
new_text = text[:idx]
|
| 483 |
+
new_onehot = onehot_label[:idx]
|
| 484 |
+
|
| 485 |
+
index_split = np.random.randint(1, len(org_word))
|
| 486 |
+
|
| 487 |
+
new_text.extend([org_word[:index_split], org_word[index_split:]])
|
| 488 |
+
new_onehot.extend([2, 2])
|
| 489 |
+
|
| 490 |
+
if idx < len(text) - 1:
|
| 491 |
+
new_text.extend(text[idx+1:])
|
| 492 |
+
new_onehot.extend(onehot_label[idx+1:])
|
| 493 |
+
|
| 494 |
+
return True, new_text, new_onehot
|
| 495 |
+
|
| 496 |
+
def merge_word(self, text, onehot_label):
|
| 497 |
+
length = len(onehot_label)
|
| 498 |
+
if length < 2:
|
| 499 |
+
return False, text, onehot_label
|
| 500 |
+
|
| 501 |
+
def validate_len(idx, size):
|
| 502 |
+
while idx + size > length:
|
| 503 |
+
if idx > 0:
|
| 504 |
+
idx -= 1
|
| 505 |
+
else:
|
| 506 |
+
size -= 1
|
| 507 |
+
return idx, size
|
| 508 |
+
|
| 509 |
+
def validate_value(idx, size):
|
| 510 |
+
for i in range(idx, idx+size):
|
| 511 |
+
if onehot_label[i] not in [0, 1] or text[i] in r'''!"#$%&'()*+,-./:;<=>?@[]^_`{|}~''':
|
| 512 |
+
return False
|
| 513 |
+
return True
|
| 514 |
+
|
| 515 |
+
# find index noise
|
| 516 |
+
min_words = 2
|
| 517 |
+
max_words = 3 if length > 3 else length
|
| 518 |
+
num_words = np.random.randint(min_words, max_words + 1)
|
| 519 |
+
idx = np.random.randint(0, length)
|
| 520 |
+
prevent_loop = 0
|
| 521 |
+
idx, num_words = validate_len(idx, num_words)
|
| 522 |
+
while not validate_value(idx, num_words) :
|
| 523 |
+
prevent_loop += 1
|
| 524 |
+
if prevent_loop > 10:
|
| 525 |
+
return False, text, onehot_label
|
| 526 |
+
idx = np.random.randint(0, length)
|
| 527 |
+
num_words = np.random.randint(min_words, max_words + 1)
|
| 528 |
+
idx, num_words = validate_len(idx, num_words)
|
| 529 |
+
|
| 530 |
+
new_text = text[:idx]
|
| 531 |
+
new_onehot = onehot_label[:idx]
|
| 532 |
+
new_text.append(''.join(text[idx:idx+num_words]))
|
| 533 |
+
|
| 534 |
+
new_onehot.append(-num_words+1)
|
| 535 |
+
|
| 536 |
+
if idx + num_words < length:
|
| 537 |
+
new_text.extend(text[idx+num_words:])
|
| 538 |
+
new_onehot.extend(onehot_label[idx+num_words:])
|
| 539 |
+
|
| 540 |
+
return True, new_text, new_onehot
|
| 541 |
+
|
| 542 |
+
def add_normal_noise(self, sentence, percent_err=0.2, num_type_err=4):
|
| 543 |
+
|
| 544 |
+
tokens = sentence.split()
|
| 545 |
+
|
| 546 |
+
if len(tokens) <= 0:
|
| 547 |
+
print(f"SOMETHING WROONG - sent: {sentence}")
|
| 548 |
+
|
| 549 |
+
onehot_label = [0] * len(tokens)
|
| 550 |
+
|
| 551 |
+
num_wrong = int(np.ceil(percent_err * len(tokens)))
|
| 552 |
+
num_wrong = np.random.randint(1, num_wrong + 1)
|
| 553 |
+
if np.random.rand() < 0.05:
|
| 554 |
+
num_wrong = 0
|
| 555 |
+
|
| 556 |
+
prevent_loop = 0
|
| 557 |
+
|
| 558 |
+
for i in range(0, num_wrong):
|
| 559 |
+
|
| 560 |
+
err = np.random.choice(range(num_type_err + 1)\
|
| 561 |
+
, p = [0.15, 0.15, 0.1, 0.2, 0.4])
|
| 562 |
+
|
| 563 |
+
if err == 0:
|
| 564 |
+
_, tokens, onehot_label = self.remove_diacritics(
|
| 565 |
+
tokens, onehot_label)
|
| 566 |
+
|
| 567 |
+
elif err == 1:
|
| 568 |
+
_, tokens, onehot_label = self.replace_with_typo_letter(
|
| 569 |
+
tokens, onehot_label)
|
| 570 |
+
|
| 571 |
+
elif err == 2:
|
| 572 |
+
_, tokens, onehot_label = self.replace_with_random_letter(
|
| 573 |
+
tokens, onehot_label)
|
| 574 |
+
|
| 575 |
+
elif err == 3:
|
| 576 |
+
_, tokens, onehot_label = self.replace_with_homophone_letter(
|
| 577 |
+
tokens, onehot_label)
|
| 578 |
+
|
| 579 |
+
else:
|
| 580 |
+
_, tokens, onehot_label = self.replace_with_homophone_word(
|
| 581 |
+
tokens, onehot_label)
|
| 582 |
+
|
| 583 |
+
|
| 584 |
+
prevent_loop += 1
|
| 585 |
+
|
| 586 |
+
if prevent_loop > 10:
|
| 587 |
+
return ' '.join(tokens), ' '.join([str(i) for i in onehot_label])
|
| 588 |
+
|
| 589 |
+
# print(tokens)
|
| 590 |
+
|
| 591 |
+
self.verify(tokens, sentence)
|
| 592 |
+
|
| 593 |
+
return ' '.join(tokens), ' '.join([str(i) for i in onehot_label])
|
| 594 |
+
|
| 595 |
+
def add_split_merge_noise(self, sentence, percent_err=0.15, num_type_err=2, percent_normal_err = 0.15):
|
| 596 |
+
|
| 597 |
+
def count_zero_one(onehot_label):
|
| 598 |
+
return sum([1 if onehot in [0, 1] else 0 for onehot in onehot_label])
|
| 599 |
+
|
| 600 |
+
## Introduce normal noise before split merge
|
| 601 |
+
normal_noise, normal_onehot = self.add_normal_noise(
|
| 602 |
+
sentence, percent_err=percent_normal_err)
|
| 603 |
+
|
| 604 |
+
tokens = normal_noise.split()
|
| 605 |
+
length = len(tokens)
|
| 606 |
+
|
| 607 |
+
onehot_label = [int(x) for x in normal_onehot.split(" ")]
|
| 608 |
+
|
| 609 |
+
num_wrong = int(np.ceil(percent_err * length))
|
| 610 |
+
num_wrong = np.random.randint(1, num_wrong + 1)
|
| 611 |
+
if np.random.rand() < 0.05:
|
| 612 |
+
num_wrong = 0
|
| 613 |
+
|
| 614 |
+
min_zeroes = length - num_wrong
|
| 615 |
+
zero_one_num = length
|
| 616 |
+
prevent_loop = 0
|
| 617 |
+
while zero_one_num > min_zeroes:
|
| 618 |
+
|
| 619 |
+
err = np.random.randint(0, num_type_err)
|
| 620 |
+
|
| 621 |
+
if err == 0:
|
| 622 |
+
_, tokens, onehot_label = self.split_word(
|
| 623 |
+
tokens, onehot_label)
|
| 624 |
+
|
| 625 |
+
else:
|
| 626 |
+
_, tokens, onehot_label = self.merge_word(
|
| 627 |
+
tokens, onehot_label)
|
| 628 |
+
|
| 629 |
+
prevent_loop += 1
|
| 630 |
+
|
| 631 |
+
if prevent_loop > 10:
|
| 632 |
+
return ' '.join(tokens), ' '.join([str(i) for i in onehot_label])
|
| 633 |
+
|
| 634 |
+
zero_one_num = count_zero_one(onehot_label)
|
| 635 |
+
|
| 636 |
+
return ' '.join(tokens), ' '.join([str(i) for i in onehot_label])
|
| 637 |
+
|
| 638 |
+
def verify(self, noised_tokens, sentence):
|
| 639 |
+
if len(noised_tokens) != len(' '.join(noised_tokens).split()):
|
| 640 |
+
print("ERROR:")
|
| 641 |
+
print("TEXT : ", sentence)
|
| 642 |
+
print("TOKENS: ", ' '.join(noised_tokens))
|
| 643 |
+
exit()
|
| 644 |
+
|
| 645 |
+
return True
|
| 646 |
+
|
| 647 |
+
|
| 648 |
+
if __name__ == "__main__":
|
| 649 |
+
text = "Ô kìa ai như cô thắm , con bác năm ở xa mới về , nghiêng nghiêng"
|
| 650 |
+
dict_pickle_path = '../data/vi/datasets/vi_wiki/vi_wiki.vocab.test.pkl'
|
| 651 |
+
vocab = Vocab()
|
| 652 |
+
vocab.load_vocab_dict(dict_pickle_path)
|
| 653 |
+
noiser = SynthesizeData(vocab)
|
| 654 |
+
noised_text, onehot_label = noiser.add_split_merge_noise(text, percent_err=0.5)
|
| 655 |
+
print(noised_text)
|
dataset/noising_resources/accents.json
ADDED
|
@@ -0,0 +1,498 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{"ă": [
|
| 2 |
+
["ắằẳẵặ", "âấầẩẫậ", "aáàảãạ"
|
| 3 |
+
],
|
| 4 |
+
[
|
| 5 |
+
0.7,
|
| 6 |
+
0.15,
|
| 7 |
+
0.15
|
| 8 |
+
]
|
| 9 |
+
], "â": [
|
| 10 |
+
["ấầẩẫậ", "aáàảãạ", "ăắằẳẵặ"
|
| 11 |
+
],
|
| 12 |
+
[
|
| 13 |
+
0.7,
|
| 14 |
+
0.15,
|
| 15 |
+
0.15
|
| 16 |
+
]
|
| 17 |
+
], "á": [
|
| 18 |
+
["aàảãạ", "ăắằẳẵặ", "âấầẩẫậ"
|
| 19 |
+
],
|
| 20 |
+
[
|
| 21 |
+
0.7,
|
| 22 |
+
0.15,
|
| 23 |
+
0.15
|
| 24 |
+
]
|
| 25 |
+
], "à": [
|
| 26 |
+
["aáảãạ", "ăắằẳẵặ", "âấầẩẫậ"
|
| 27 |
+
],
|
| 28 |
+
[
|
| 29 |
+
0.7,
|
| 30 |
+
0.15,
|
| 31 |
+
0.15
|
| 32 |
+
]
|
| 33 |
+
], "ả": [
|
| 34 |
+
["aáàãạ", "ăắằẳẵặ", "âấầẩẫậ"
|
| 35 |
+
],
|
| 36 |
+
[
|
| 37 |
+
0.7,
|
| 38 |
+
0.15,
|
| 39 |
+
0.15
|
| 40 |
+
]
|
| 41 |
+
], "ã": [
|
| 42 |
+
["aáàảạ", "ăắằẳẵặ", "âấầẩẫậ"
|
| 43 |
+
],
|
| 44 |
+
[
|
| 45 |
+
0.7,
|
| 46 |
+
0.15,
|
| 47 |
+
0.15
|
| 48 |
+
]
|
| 49 |
+
], "ạ": [
|
| 50 |
+
["aáàảã", "ăắằẳẵặ", "âấầẩẫậ"
|
| 51 |
+
],
|
| 52 |
+
[
|
| 53 |
+
0.7,
|
| 54 |
+
0.15,
|
| 55 |
+
0.15
|
| 56 |
+
]
|
| 57 |
+
], "ắ": [
|
| 58 |
+
["ăằẳẵặ", "aáàảãạ", "âấầẩẫậ"
|
| 59 |
+
],
|
| 60 |
+
[
|
| 61 |
+
0.7,
|
| 62 |
+
0.15,
|
| 63 |
+
0.15
|
| 64 |
+
]
|
| 65 |
+
], "ằ": [
|
| 66 |
+
["ăắẳẵặ", "aáàảãạ", "âấầẩẫậ"
|
| 67 |
+
],
|
| 68 |
+
[
|
| 69 |
+
0.7,
|
| 70 |
+
0.15,
|
| 71 |
+
0.15
|
| 72 |
+
]
|
| 73 |
+
], "ẳ": [
|
| 74 |
+
["ăắằẵặ", "aáàảãạ", "âấầẩẫậ"
|
| 75 |
+
],
|
| 76 |
+
[
|
| 77 |
+
0.7,
|
| 78 |
+
0.15,
|
| 79 |
+
0.15
|
| 80 |
+
]
|
| 81 |
+
], "ặ": [
|
| 82 |
+
["ăắằẳẵ", "aáàảãạ", "âấầẩẫậ"
|
| 83 |
+
],
|
| 84 |
+
[
|
| 85 |
+
0.7,
|
| 86 |
+
0.15,
|
| 87 |
+
0.15
|
| 88 |
+
]
|
| 89 |
+
], "ẵ": [
|
| 90 |
+
["ăắằẳặ", "aáàảãạ", "âấầẩẫậ"
|
| 91 |
+
],
|
| 92 |
+
[
|
| 93 |
+
0.7,
|
| 94 |
+
0.15,
|
| 95 |
+
0.15
|
| 96 |
+
]
|
| 97 |
+
], "ấ": [
|
| 98 |
+
["âầẩẫậ", "aáàảãạ", "ăắằẳẵặ"
|
| 99 |
+
],
|
| 100 |
+
[
|
| 101 |
+
0.7,
|
| 102 |
+
0.15,
|
| 103 |
+
0.15
|
| 104 |
+
]
|
| 105 |
+
], "ầ": [
|
| 106 |
+
["âấẩẫậ", "aáàảãạ", "ăắằẳẵặ"
|
| 107 |
+
],
|
| 108 |
+
[
|
| 109 |
+
0.7,
|
| 110 |
+
0.15,
|
| 111 |
+
0.15
|
| 112 |
+
]
|
| 113 |
+
], "ẩ": [
|
| 114 |
+
["âấầẫậ", "aáàảãạ", "ăắằẳẵặ"
|
| 115 |
+
],
|
| 116 |
+
[
|
| 117 |
+
0.7,
|
| 118 |
+
0.15,
|
| 119 |
+
0.15
|
| 120 |
+
]
|
| 121 |
+
], "ẫ": [
|
| 122 |
+
["âấầẩậ", "aáàảãạ", "ăắằẳẵặ"
|
| 123 |
+
],
|
| 124 |
+
[
|
| 125 |
+
0.7,
|
| 126 |
+
0.15,
|
| 127 |
+
0.15
|
| 128 |
+
]
|
| 129 |
+
], "ậ": [
|
| 130 |
+
["âấầẩẫ", "aáàảãạ", "ăắằẳẵặ"
|
| 131 |
+
],
|
| 132 |
+
[
|
| 133 |
+
0.7,
|
| 134 |
+
0.15,
|
| 135 |
+
0.15
|
| 136 |
+
]
|
| 137 |
+
], "é": [
|
| 138 |
+
["eèẻẽẹ", "êếềểễệ"
|
| 139 |
+
],
|
| 140 |
+
[
|
| 141 |
+
0.7,
|
| 142 |
+
0.3
|
| 143 |
+
]
|
| 144 |
+
], "è": [
|
| 145 |
+
["eéẻẽẹ", "êếềểễệ"
|
| 146 |
+
],
|
| 147 |
+
[
|
| 148 |
+
0.7,
|
| 149 |
+
0.3
|
| 150 |
+
]
|
| 151 |
+
], "ẻ": [
|
| 152 |
+
["eéèẽẹ", "êếềểễệ"
|
| 153 |
+
],
|
| 154 |
+
[
|
| 155 |
+
0.7,
|
| 156 |
+
0.3
|
| 157 |
+
]
|
| 158 |
+
], "ẽ": [
|
| 159 |
+
["eéèẻẹ", "êếềểễệ"
|
| 160 |
+
],
|
| 161 |
+
[
|
| 162 |
+
0.7,
|
| 163 |
+
0.3
|
| 164 |
+
]
|
| 165 |
+
], "ẹ": [
|
| 166 |
+
["eéèẻẽ", "êếềểễệ"
|
| 167 |
+
],
|
| 168 |
+
[
|
| 169 |
+
0.7,
|
| 170 |
+
0.3
|
| 171 |
+
]
|
| 172 |
+
], "ê": [
|
| 173 |
+
["eéèẻẽẹ", "ếềểễệ"
|
| 174 |
+
],
|
| 175 |
+
[
|
| 176 |
+
0.7,
|
| 177 |
+
0.3
|
| 178 |
+
]
|
| 179 |
+
], "ế": [
|
| 180 |
+
["eéèẻẽẹ", "êềểễệ"
|
| 181 |
+
],
|
| 182 |
+
[
|
| 183 |
+
0.3,
|
| 184 |
+
0.7
|
| 185 |
+
]
|
| 186 |
+
], "ề": [
|
| 187 |
+
["eéèẻẽẹ", "êếểễệ"
|
| 188 |
+
],
|
| 189 |
+
[
|
| 190 |
+
0.3,
|
| 191 |
+
0.7
|
| 192 |
+
]
|
| 193 |
+
], "ể": [
|
| 194 |
+
["eéèẻẽẹ", "êếềễệ"
|
| 195 |
+
],
|
| 196 |
+
[
|
| 197 |
+
0.3,
|
| 198 |
+
0.7
|
| 199 |
+
]
|
| 200 |
+
], "ễ": [
|
| 201 |
+
["eéèẻẽẹ", "êếềểệ"
|
| 202 |
+
],
|
| 203 |
+
[
|
| 204 |
+
0.3,
|
| 205 |
+
0.7
|
| 206 |
+
]
|
| 207 |
+
], "ệ": [
|
| 208 |
+
["eéèẻẽẹ", "êếềểễ"
|
| 209 |
+
],
|
| 210 |
+
[
|
| 211 |
+
0.3,
|
| 212 |
+
0.7
|
| 213 |
+
]
|
| 214 |
+
], "í": [
|
| 215 |
+
["iìỉĩị", "ýỳỷỹỵ"
|
| 216 |
+
],
|
| 217 |
+
[
|
| 218 |
+
0.7,
|
| 219 |
+
0.3
|
| 220 |
+
]
|
| 221 |
+
], "ì": [
|
| 222 |
+
["iíỉĩị", "ýỳỷỹỵ"
|
| 223 |
+
],
|
| 224 |
+
[
|
| 225 |
+
0.7,
|
| 226 |
+
0.3
|
| 227 |
+
]
|
| 228 |
+
], "ỉ": [
|
| 229 |
+
["iíìĩị", "ýỳỷỹỵ"
|
| 230 |
+
],
|
| 231 |
+
[
|
| 232 |
+
0.7,
|
| 233 |
+
0.3
|
| 234 |
+
]
|
| 235 |
+
], "ĩ": [
|
| 236 |
+
["iíìỉị", "ýỳỷỹỵ"
|
| 237 |
+
],
|
| 238 |
+
[
|
| 239 |
+
0.7,
|
| 240 |
+
0.3
|
| 241 |
+
]
|
| 242 |
+
], "ị": [
|
| 243 |
+
["iíìỉĩ", "ýỳỷỹỵ"
|
| 244 |
+
],
|
| 245 |
+
[
|
| 246 |
+
0.7,
|
| 247 |
+
0.3
|
| 248 |
+
]
|
| 249 |
+
], "ó": [
|
| 250 |
+
["oòỏọõ", "ôốồổỗộ", "ơớờởợỡ"
|
| 251 |
+
],
|
| 252 |
+
[
|
| 253 |
+
0.7,
|
| 254 |
+
0.15,
|
| 255 |
+
0.15
|
| 256 |
+
]
|
| 257 |
+
], "ò": [
|
| 258 |
+
["oóỏọõ", "ôốồổỗộ", "ơớờởợỡ"
|
| 259 |
+
],
|
| 260 |
+
[
|
| 261 |
+
0.7,
|
| 262 |
+
0.15,
|
| 263 |
+
0.15
|
| 264 |
+
]
|
| 265 |
+
], "ỏ": [
|
| 266 |
+
["oóòọõ", "ôốồổỗộ", "ơớờởợỡ"
|
| 267 |
+
],
|
| 268 |
+
[
|
| 269 |
+
0.7,
|
| 270 |
+
0.15,
|
| 271 |
+
0.15
|
| 272 |
+
]
|
| 273 |
+
], "õ": [
|
| 274 |
+
["oóòỏọ", "ôốồổỗộ", "ơớờởợỡ"
|
| 275 |
+
],
|
| 276 |
+
[
|
| 277 |
+
0.7,
|
| 278 |
+
0.15,
|
| 279 |
+
0.15
|
| 280 |
+
]
|
| 281 |
+
], "ọ": [
|
| 282 |
+
["oóòỏõ", "ôốồổỗộ", "ơớờởợỡ"
|
| 283 |
+
],
|
| 284 |
+
[
|
| 285 |
+
0.7,
|
| 286 |
+
0.15,
|
| 287 |
+
0.15
|
| 288 |
+
]
|
| 289 |
+
], "ô": [
|
| 290 |
+
["oóòỏọõ", "ốồổỗộ", "ơớờởợỡ"
|
| 291 |
+
],
|
| 292 |
+
[
|
| 293 |
+
0.15,
|
| 294 |
+
0.7,
|
| 295 |
+
0.15
|
| 296 |
+
]
|
| 297 |
+
], "ố": [
|
| 298 |
+
["oóòỏọõ", "ôồổỗộ", "ơớờởợỡ"
|
| 299 |
+
],
|
| 300 |
+
[
|
| 301 |
+
0.15,
|
| 302 |
+
0.7,
|
| 303 |
+
0.15
|
| 304 |
+
]
|
| 305 |
+
], "ồ": [
|
| 306 |
+
["oóòỏọõ", "ôốổỗộ", "ơớờởợỡ"
|
| 307 |
+
],
|
| 308 |
+
[
|
| 309 |
+
0.15,
|
| 310 |
+
0.7,
|
| 311 |
+
0.15
|
| 312 |
+
]
|
| 313 |
+
], "ổ": [
|
| 314 |
+
["oóòỏọõ", "ôốồỗộ", "ơớờởợỡ"
|
| 315 |
+
],
|
| 316 |
+
[
|
| 317 |
+
0.15,
|
| 318 |
+
0.7,
|
| 319 |
+
0.15
|
| 320 |
+
]
|
| 321 |
+
], "ộ": [
|
| 322 |
+
["oóòỏọõ", "ôốồổỗ", "ơớờởợỡ"
|
| 323 |
+
],
|
| 324 |
+
[
|
| 325 |
+
0.15,
|
| 326 |
+
0.7,
|
| 327 |
+
0.15
|
| 328 |
+
]
|
| 329 |
+
], "ỗ": [
|
| 330 |
+
["oóòỏọõ", "ôốồổộ", "ơớờởợỡ"
|
| 331 |
+
],
|
| 332 |
+
[
|
| 333 |
+
0.15,
|
| 334 |
+
0.7,
|
| 335 |
+
0.15
|
| 336 |
+
]
|
| 337 |
+
], "ơ": [
|
| 338 |
+
["oóòỏọõ", "ôốồổỗộ", "ớờởợỡ"
|
| 339 |
+
],
|
| 340 |
+
[
|
| 341 |
+
0.15,
|
| 342 |
+
0.15,
|
| 343 |
+
0.7
|
| 344 |
+
]
|
| 345 |
+
], "ớ": [
|
| 346 |
+
["oóòỏọõ", "ôốồổỗộ", "ơờởợỡ"
|
| 347 |
+
],
|
| 348 |
+
[
|
| 349 |
+
0.15,
|
| 350 |
+
0.15,
|
| 351 |
+
0.7
|
| 352 |
+
]
|
| 353 |
+
], "ờ": [
|
| 354 |
+
["oóòỏọõ", "ôốồổỗộ", "ơớởợỡ"
|
| 355 |
+
],
|
| 356 |
+
[
|
| 357 |
+
0.15,
|
| 358 |
+
0.15,
|
| 359 |
+
0.7
|
| 360 |
+
]
|
| 361 |
+
], "ở": [
|
| 362 |
+
["oóòỏọõ", "ôốồổỗộ", "ơớờợỡ"
|
| 363 |
+
],
|
| 364 |
+
[
|
| 365 |
+
0.15,
|
| 366 |
+
0.15,
|
| 367 |
+
0.7
|
| 368 |
+
]
|
| 369 |
+
], "ợ": [
|
| 370 |
+
["oóòỏọõ", "ôốồổỗộ", "ơớờởỡ"
|
| 371 |
+
],
|
| 372 |
+
[
|
| 373 |
+
0.15,
|
| 374 |
+
0.15,
|
| 375 |
+
0.7
|
| 376 |
+
]
|
| 377 |
+
], "ỡ": [
|
| 378 |
+
["oóòỏọõ", "ôốồổỗộ", "ơớờởợ"
|
| 379 |
+
],
|
| 380 |
+
[
|
| 381 |
+
0.15,
|
| 382 |
+
0.15,
|
| 383 |
+
0.7
|
| 384 |
+
]
|
| 385 |
+
], "ú": [
|
| 386 |
+
["uùủũụ", "ưứừữửự"
|
| 387 |
+
],
|
| 388 |
+
[
|
| 389 |
+
0.7,
|
| 390 |
+
0.3
|
| 391 |
+
]
|
| 392 |
+
], "ù": [
|
| 393 |
+
["uúủũụ", "ưứừữửự"
|
| 394 |
+
],
|
| 395 |
+
[
|
| 396 |
+
0.7,
|
| 397 |
+
0.3
|
| 398 |
+
]
|
| 399 |
+
], "ủ": [
|
| 400 |
+
["uúùũụ", "ưứừữửự"
|
| 401 |
+
],
|
| 402 |
+
[
|
| 403 |
+
0.7,
|
| 404 |
+
0.3
|
| 405 |
+
]
|
| 406 |
+
], "ũ": [
|
| 407 |
+
["uúùủụ", "ưứừữửự"
|
| 408 |
+
],
|
| 409 |
+
[
|
| 410 |
+
0.7,
|
| 411 |
+
0.3
|
| 412 |
+
]
|
| 413 |
+
], "ụ": [
|
| 414 |
+
["uúùủũ", "ưứừữửự"
|
| 415 |
+
],
|
| 416 |
+
[
|
| 417 |
+
0.7,
|
| 418 |
+
0.3
|
| 419 |
+
]
|
| 420 |
+
], "ư": [
|
| 421 |
+
["uúùủũụ", "ứừữửự"
|
| 422 |
+
],
|
| 423 |
+
[
|
| 424 |
+
0.3,
|
| 425 |
+
0.7
|
| 426 |
+
]
|
| 427 |
+
], "ứ": [
|
| 428 |
+
["uúùủũụ", "ưừữửự"
|
| 429 |
+
],
|
| 430 |
+
[
|
| 431 |
+
0.3,
|
| 432 |
+
0.7
|
| 433 |
+
]
|
| 434 |
+
], "ừ": [
|
| 435 |
+
["uúùủũụ", "ưứữửự"
|
| 436 |
+
],
|
| 437 |
+
[
|
| 438 |
+
0.3,
|
| 439 |
+
0.7
|
| 440 |
+
]
|
| 441 |
+
], "ử": [
|
| 442 |
+
["uúùủũụ", "ưứừữự"
|
| 443 |
+
],
|
| 444 |
+
[
|
| 445 |
+
0.3,
|
| 446 |
+
0.7
|
| 447 |
+
]
|
| 448 |
+
], "ữ": [
|
| 449 |
+
["uúùủũụ", "ưứừửự"
|
| 450 |
+
],
|
| 451 |
+
[
|
| 452 |
+
0.3,
|
| 453 |
+
0.7
|
| 454 |
+
]
|
| 455 |
+
], "ự": [
|
| 456 |
+
["uúùủũụ", "ưứừữử"
|
| 457 |
+
],
|
| 458 |
+
[
|
| 459 |
+
0.3,
|
| 460 |
+
0.7
|
| 461 |
+
]
|
| 462 |
+
], "ý": [
|
| 463 |
+
["yỳỷỵỹ", "iíìỉĩị"
|
| 464 |
+
],
|
| 465 |
+
[
|
| 466 |
+
0.7,
|
| 467 |
+
0.3
|
| 468 |
+
]
|
| 469 |
+
], "ỳ": [
|
| 470 |
+
["yýỷỵỹ", "iíìỉĩị"
|
| 471 |
+
],
|
| 472 |
+
[
|
| 473 |
+
0.7,
|
| 474 |
+
0.3
|
| 475 |
+
]
|
| 476 |
+
], "ỷ": [
|
| 477 |
+
["yýỳỵỹ", "iíìỉĩị"
|
| 478 |
+
],
|
| 479 |
+
[
|
| 480 |
+
0.7,
|
| 481 |
+
0.3
|
| 482 |
+
]
|
| 483 |
+
], "ỵ": [
|
| 484 |
+
["yýỳỷỹ", "iíìỉĩị"
|
| 485 |
+
],
|
| 486 |
+
[
|
| 487 |
+
0.7,
|
| 488 |
+
0.3
|
| 489 |
+
]
|
| 490 |
+
], "ỹ": [
|
| 491 |
+
["yýỳỷỵ", "iíìỉĩị"
|
| 492 |
+
],
|
| 493 |
+
[
|
| 494 |
+
0.7,
|
| 495 |
+
0.3
|
| 496 |
+
]
|
| 497 |
+
]
|
| 498 |
+
}
|
dataset/noising_resources/confusion_set.json
ADDED
|
The diff for this file is too large to render.
See raw diff
|
|
|
dataset/noising_resources/homo_leter.json
ADDED
|
@@ -0,0 +1,27 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{"s": ["x"],
|
| 2 |
+
"x": ["s"],
|
| 3 |
+
"gi": ["d", "j"],
|
| 4 |
+
"d": ["gi", "z", "đ"],
|
| 5 |
+
"ch": ["tr", "c"],
|
| 6 |
+
"tr": ["ch", "t"],
|
| 7 |
+
"ng": ["n", "ngh"],
|
| 8 |
+
"n": ["ng", "nh", "l", "m"],
|
| 9 |
+
"nh": ["n", "ngh"],
|
| 10 |
+
"ngh": ["ng", "nh"],
|
| 11 |
+
"y": ["i"],
|
| 12 |
+
"i": ["y", "j"],
|
| 13 |
+
"l": ["n"],
|
| 14 |
+
"qu": ["w", "q"],
|
| 15 |
+
"w": ["qu"],
|
| 16 |
+
"ph": ["f"],
|
| 17 |
+
"f": ["ph"],
|
| 18 |
+
"th": ["t"],
|
| 19 |
+
"t": ["th", "c", "p", "tr"],
|
| 20 |
+
"z": ["d"],
|
| 21 |
+
"c": ["k", "t", "ch"],
|
| 22 |
+
"k": ["c"],
|
| 23 |
+
"q": ["qu"],
|
| 24 |
+
"j": ["i", "gi"],
|
| 25 |
+
"đ": ["d"],
|
| 26 |
+
"m": ["n"],
|
| 27 |
+
"p": ["t"]}
|
dataset/noising_resources/kieu_go_dau_cu_moi.txt
ADDED
|
@@ -0,0 +1,78 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
hóa hoá
|
| 2 |
+
hòa hoà
|
| 3 |
+
ủy uỷ
|
| 4 |
+
thủy thuỷ
|
| 5 |
+
khỏe khoẻ
|
| 6 |
+
tòa toà
|
| 7 |
+
khóa khoá
|
| 8 |
+
họa hoạ
|
| 9 |
+
túy tuý
|
| 10 |
+
thỏa thoả
|
| 11 |
+
hủy huỷ
|
| 12 |
+
thúy thuý
|
| 13 |
+
tùy tuỳ
|
| 14 |
+
tỏa toả
|
| 15 |
+
dọa doạ
|
| 16 |
+
hỏa hoả
|
| 17 |
+
xóa xoá
|
| 18 |
+
thùy thuỳ
|
| 19 |
+
thụy thuỵ
|
| 20 |
+
tọa toạ
|
| 21 |
+
úy uý
|
| 22 |
+
lũy luỹ
|
| 23 |
+
khỏa khoả
|
| 24 |
+
lụy luỵ
|
| 25 |
+
tụy tuỵ
|
| 26 |
+
tủy tuỷ
|
| 27 |
+
ngụy nguỵ
|
| 28 |
+
òa oà
|
| 29 |
+
đóa đoá
|
| 30 |
+
xòe xoè
|
| 31 |
+
hòe hoè
|
| 32 |
+
lòa loà
|
| 33 |
+
nhòa nhoà
|
| 34 |
+
khóe khoé
|
| 35 |
+
trụy truỵ
|
| 36 |
+
góa goá
|
| 37 |
+
tóe toé
|
| 38 |
+
xòa xoà
|
| 39 |
+
lóa loá
|
| 40 |
+
lòe loè
|
| 41 |
+
đọa đoạ
|
| 42 |
+
nhòe nhoè
|
| 43 |
+
lõa loã
|
| 44 |
+
lóe loé
|
| 45 |
+
nhụy nhuỵ
|
| 46 |
+
ngọa ngoạ
|
| 47 |
+
súy suý
|
| 48 |
+
xõa xoã
|
| 49 |
+
xúy xuý
|
| 50 |
+
quá qúa
|
| 51 |
+
chọe choẹ
|
| 52 |
+
quả qủa
|
| 53 |
+
chóe choé
|
| 54 |
+
thóa thoá
|
| 55 |
+
giá gía
|
| 56 |
+
chúy chuý
|
| 57 |
+
ọe oẹ
|
| 58 |
+
khụy khuỵ
|
| 59 |
+
nóe noé
|
| 60 |
+
họe hoẹ
|
| 61 |
+
húy huý
|
| 62 |
+
ngõa ngoã
|
| 63 |
+
chòe choè
|
| 64 |
+
dụy duỵ
|
| 65 |
+
chùy chuỳ
|
| 66 |
+
hùy huỳ
|
| 67 |
+
thõa thoã
|
| 68 |
+
khủy khuỷ
|
| 69 |
+
quí qúi
|
| 70 |
+
chóa choá
|
| 71 |
+
quà qùa
|
| 72 |
+
trủy truỷ
|
| 73 |
+
già gìa
|
| 74 |
+
tóa toá
|
| 75 |
+
lúy luý
|
| 76 |
+
giả gỉa
|
| 77 |
+
chõa choã
|
| 78 |
+
đòa đoà
|
dataset/noising_resources/typo.json
ADDED
|
@@ -0,0 +1,650 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"ă": [
|
| 3 |
+
"aw",
|
| 4 |
+
"a8"
|
| 5 |
+
],
|
| 6 |
+
"â": [
|
| 7 |
+
"aa",
|
| 8 |
+
"a6"
|
| 9 |
+
],
|
| 10 |
+
"ấ": [
|
| 11 |
+
"aas",
|
| 12 |
+
"a61",
|
| 13 |
+
"âs",
|
| 14 |
+
"â1"
|
| 15 |
+
],
|
| 16 |
+
"ầ": [
|
| 17 |
+
"aaf",
|
| 18 |
+
"a62",
|
| 19 |
+
"âf",
|
| 20 |
+
"â2"
|
| 21 |
+
],
|
| 22 |
+
"ẩ": [
|
| 23 |
+
"aar",
|
| 24 |
+
"a63",
|
| 25 |
+
"âr",
|
| 26 |
+
"â3"
|
| 27 |
+
],
|
| 28 |
+
"ẫ": [
|
| 29 |
+
"aax",
|
| 30 |
+
"a64",
|
| 31 |
+
"âx",
|
| 32 |
+
"â4"
|
| 33 |
+
],
|
| 34 |
+
"ậ": [
|
| 35 |
+
"aaj",
|
| 36 |
+
"a65",
|
| 37 |
+
"âj",
|
| 38 |
+
"â5"
|
| 39 |
+
],
|
| 40 |
+
"á": [
|
| 41 |
+
"as",
|
| 42 |
+
"a1"
|
| 43 |
+
],
|
| 44 |
+
"à": [
|
| 45 |
+
"af",
|
| 46 |
+
"a2"
|
| 47 |
+
],
|
| 48 |
+
"ả": [
|
| 49 |
+
"ar",
|
| 50 |
+
"a3"
|
| 51 |
+
],
|
| 52 |
+
"ã": [
|
| 53 |
+
"ax",
|
| 54 |
+
"a4"
|
| 55 |
+
],
|
| 56 |
+
"ạ": [
|
| 57 |
+
"aj",
|
| 58 |
+
"a5"
|
| 59 |
+
],
|
| 60 |
+
"ắ": [
|
| 61 |
+
"aws",
|
| 62 |
+
"ăs",
|
| 63 |
+
"ă1",
|
| 64 |
+
"a81"
|
| 65 |
+
],
|
| 66 |
+
"ổ": [
|
| 67 |
+
"oor",
|
| 68 |
+
"ô3",
|
| 69 |
+
"ôr",
|
| 70 |
+
"o63"
|
| 71 |
+
],
|
| 72 |
+
"ỗ": [
|
| 73 |
+
"oox",
|
| 74 |
+
"ô4",
|
| 75 |
+
"ôx",
|
| 76 |
+
"o64"
|
| 77 |
+
],
|
| 78 |
+
"ộ": [
|
| 79 |
+
"ooj",
|
| 80 |
+
"ô5",
|
| 81 |
+
"ôj",
|
| 82 |
+
"o65"
|
| 83 |
+
],
|
| 84 |
+
"ơ": [
|
| 85 |
+
"ow",
|
| 86 |
+
"o7"
|
| 87 |
+
],
|
| 88 |
+
"ằ": [
|
| 89 |
+
"awf",
|
| 90 |
+
"ă2",
|
| 91 |
+
"ăf",
|
| 92 |
+
"a82"
|
| 93 |
+
],
|
| 94 |
+
"ẳ": [
|
| 95 |
+
"awr",
|
| 96 |
+
"ă3",
|
| 97 |
+
"ăr",
|
| 98 |
+
"a83"
|
| 99 |
+
],
|
| 100 |
+
"ẵ": [
|
| 101 |
+
"awx",
|
| 102 |
+
"ă4",
|
| 103 |
+
"ăx",
|
| 104 |
+
"a84"
|
| 105 |
+
],
|
| 106 |
+
"ặ": [
|
| 107 |
+
"awj",
|
| 108 |
+
"ă5",
|
| 109 |
+
"ăj",
|
| 110 |
+
"a85"
|
| 111 |
+
],
|
| 112 |
+
"ó": [
|
| 113 |
+
"os",
|
| 114 |
+
"o1"
|
| 115 |
+
],
|
| 116 |
+
"ò": [
|
| 117 |
+
"of",
|
| 118 |
+
"o2"
|
| 119 |
+
],
|
| 120 |
+
"ỏ": [
|
| 121 |
+
"or",
|
| 122 |
+
"o3"
|
| 123 |
+
],
|
| 124 |
+
"õ": [
|
| 125 |
+
"ox",
|
| 126 |
+
"o4"
|
| 127 |
+
],
|
| 128 |
+
"ọ": [
|
| 129 |
+
"oj",
|
| 130 |
+
"o5"
|
| 131 |
+
],
|
| 132 |
+
"ô": [
|
| 133 |
+
"oo",
|
| 134 |
+
"o6"
|
| 135 |
+
],
|
| 136 |
+
"ố": [
|
| 137 |
+
"oos",
|
| 138 |
+
"ô1",
|
| 139 |
+
"ôs",
|
| 140 |
+
"o61"
|
| 141 |
+
],
|
| 142 |
+
"ồ": [
|
| 143 |
+
"oof",
|
| 144 |
+
"ô2",
|
| 145 |
+
"ôf",
|
| 146 |
+
"o62"
|
| 147 |
+
],
|
| 148 |
+
"ớ": [
|
| 149 |
+
"ows",
|
| 150 |
+
"ơ1",
|
| 151 |
+
"ơs",
|
| 152 |
+
"o71"
|
| 153 |
+
],
|
| 154 |
+
"ờ": [
|
| 155 |
+
"owf",
|
| 156 |
+
"ơ2",
|
| 157 |
+
"ơf",
|
| 158 |
+
"o72"
|
| 159 |
+
],
|
| 160 |
+
"ở": [
|
| 161 |
+
"owr",
|
| 162 |
+
"ơ3",
|
| 163 |
+
"ơr",
|
| 164 |
+
"o73"
|
| 165 |
+
],
|
| 166 |
+
"ỡ": [
|
| 167 |
+
"owx",
|
| 168 |
+
"ơ4",
|
| 169 |
+
"ơx",
|
| 170 |
+
"o74"
|
| 171 |
+
],
|
| 172 |
+
"ợ": [
|
| 173 |
+
"owj",
|
| 174 |
+
"ơ5",
|
| 175 |
+
"ơj",
|
| 176 |
+
"o75"
|
| 177 |
+
],
|
| 178 |
+
"é": [
|
| 179 |
+
"es",
|
| 180 |
+
"e1"
|
| 181 |
+
],
|
| 182 |
+
"è": [
|
| 183 |
+
"ef",
|
| 184 |
+
"e2"
|
| 185 |
+
],
|
| 186 |
+
"ẻ": [
|
| 187 |
+
"er",
|
| 188 |
+
"e3"
|
| 189 |
+
],
|
| 190 |
+
"ẽ": [
|
| 191 |
+
"ex",
|
| 192 |
+
"e4"
|
| 193 |
+
],
|
| 194 |
+
"ẹ": [
|
| 195 |
+
"ej",
|
| 196 |
+
"e5"
|
| 197 |
+
],
|
| 198 |
+
"ê": [
|
| 199 |
+
"ee",
|
| 200 |
+
"e6"
|
| 201 |
+
],
|
| 202 |
+
"ế": [
|
| 203 |
+
"ees",
|
| 204 |
+
"ês",
|
| 205 |
+
"ê1",
|
| 206 |
+
"e61"
|
| 207 |
+
],
|
| 208 |
+
"ề": [
|
| 209 |
+
"eef",
|
| 210 |
+
"ê2",
|
| 211 |
+
"e62",
|
| 212 |
+
"êf"
|
| 213 |
+
],
|
| 214 |
+
"ể": [
|
| 215 |
+
"eer",
|
| 216 |
+
"ê3",
|
| 217 |
+
"êr",
|
| 218 |
+
"e63"
|
| 219 |
+
],
|
| 220 |
+
"ễ": [
|
| 221 |
+
"eex",
|
| 222 |
+
"ê4",
|
| 223 |
+
"êx",
|
| 224 |
+
"e64"
|
| 225 |
+
],
|
| 226 |
+
"ệ": [
|
| 227 |
+
"eej",
|
| 228 |
+
"ê5",
|
| 229 |
+
"êj",
|
| 230 |
+
"e65"
|
| 231 |
+
],
|
| 232 |
+
"ú": [
|
| 233 |
+
"us",
|
| 234 |
+
"u1"
|
| 235 |
+
],
|
| 236 |
+
"ù": [
|
| 237 |
+
"uf",
|
| 238 |
+
"u2"
|
| 239 |
+
],
|
| 240 |
+
"ủ": [
|
| 241 |
+
"ur",
|
| 242 |
+
"u3"
|
| 243 |
+
],
|
| 244 |
+
"ũ": [
|
| 245 |
+
"ux",
|
| 246 |
+
"u4"
|
| 247 |
+
],
|
| 248 |
+
"ụ": [
|
| 249 |
+
"uj",
|
| 250 |
+
"u5"
|
| 251 |
+
],
|
| 252 |
+
"ư": [
|
| 253 |
+
"uw",
|
| 254 |
+
"u7"
|
| 255 |
+
],
|
| 256 |
+
"ứ": [
|
| 257 |
+
"uws",
|
| 258 |
+
"ư1",
|
| 259 |
+
"ưs",
|
| 260 |
+
"u71"
|
| 261 |
+
],
|
| 262 |
+
"ừ": [
|
| 263 |
+
"uwf",
|
| 264 |
+
"ư2",
|
| 265 |
+
"ưf",
|
| 266 |
+
"u72"
|
| 267 |
+
],
|
| 268 |
+
"ử": [
|
| 269 |
+
"uwr",
|
| 270 |
+
"ư3",
|
| 271 |
+
"ưr",
|
| 272 |
+
"u73"
|
| 273 |
+
],
|
| 274 |
+
"ữ": [
|
| 275 |
+
"uwx",
|
| 276 |
+
"ư4",
|
| 277 |
+
"ưx",
|
| 278 |
+
"u74"
|
| 279 |
+
],
|
| 280 |
+
"ự": [
|
| 281 |
+
"uwj",
|
| 282 |
+
"ư5",
|
| 283 |
+
"ưj",
|
| 284 |
+
"u75"
|
| 285 |
+
],
|
| 286 |
+
"í": [
|
| 287 |
+
"is",
|
| 288 |
+
"i1"
|
| 289 |
+
],
|
| 290 |
+
"ì": [
|
| 291 |
+
"if",
|
| 292 |
+
"i2"
|
| 293 |
+
],
|
| 294 |
+
"ỉ": [
|
| 295 |
+
"ir",
|
| 296 |
+
"i3"
|
| 297 |
+
],
|
| 298 |
+
"ị": [
|
| 299 |
+
"ij",
|
| 300 |
+
"i5"
|
| 301 |
+
],
|
| 302 |
+
"ĩ": [
|
| 303 |
+
"ix",
|
| 304 |
+
"i4"
|
| 305 |
+
],
|
| 306 |
+
"ý": [
|
| 307 |
+
"ys",
|
| 308 |
+
"y1"
|
| 309 |
+
],
|
| 310 |
+
"ỳ": [
|
| 311 |
+
"yf",
|
| 312 |
+
"y2"
|
| 313 |
+
],
|
| 314 |
+
"ỷ": [
|
| 315 |
+
"yr",
|
| 316 |
+
"y3"
|
| 317 |
+
],
|
| 318 |
+
"ỵ": [
|
| 319 |
+
"yj",
|
| 320 |
+
"y5"
|
| 321 |
+
],
|
| 322 |
+
"đ": [
|
| 323 |
+
"dd",
|
| 324 |
+
"d9"
|
| 325 |
+
],
|
| 326 |
+
"Ă": [
|
| 327 |
+
"Aw",
|
| 328 |
+
"A8"
|
| 329 |
+
],
|
| 330 |
+
"Â": [
|
| 331 |
+
"Aa",
|
| 332 |
+
"A6"
|
| 333 |
+
],
|
| 334 |
+
"Ấ": [
|
| 335 |
+
"Aas",
|
| 336 |
+
"A61",
|
| 337 |
+
"Âs",
|
| 338 |
+
"Ă1"
|
| 339 |
+
],
|
| 340 |
+
"Ầ": [
|
| 341 |
+
"Aaf",
|
| 342 |
+
"A62",
|
| 343 |
+
"Âf",
|
| 344 |
+
"Ă2"
|
| 345 |
+
],
|
| 346 |
+
"Ẩ": [
|
| 347 |
+
"Aar",
|
| 348 |
+
"A63",
|
| 349 |
+
"Âr",
|
| 350 |
+
"Ă3"
|
| 351 |
+
],
|
| 352 |
+
"Ẫ": [
|
| 353 |
+
"Aax",
|
| 354 |
+
"A64",
|
| 355 |
+
"Âx",
|
| 356 |
+
"Ă4"
|
| 357 |
+
],
|
| 358 |
+
"Ậ": [
|
| 359 |
+
"Aaj",
|
| 360 |
+
"A65",
|
| 361 |
+
"Âj",
|
| 362 |
+
"Ă5"
|
| 363 |
+
],
|
| 364 |
+
"Á": [
|
| 365 |
+
"As",
|
| 366 |
+
"A1"
|
| 367 |
+
],
|
| 368 |
+
"À": [
|
| 369 |
+
"Af",
|
| 370 |
+
"A2"
|
| 371 |
+
],
|
| 372 |
+
"Ả": [
|
| 373 |
+
"Ar",
|
| 374 |
+
"A3"
|
| 375 |
+
],
|
| 376 |
+
"Ã": [
|
| 377 |
+
"Ax",
|
| 378 |
+
"A4"
|
| 379 |
+
],
|
| 380 |
+
"Ạ": [
|
| 381 |
+
"Aj",
|
| 382 |
+
"A5"
|
| 383 |
+
],
|
| 384 |
+
"Ắ": [
|
| 385 |
+
"Aws",
|
| 386 |
+
"Ă1",
|
| 387 |
+
"Ăs",
|
| 388 |
+
"A81"
|
| 389 |
+
],
|
| 390 |
+
"Ổ": [
|
| 391 |
+
"Oor",
|
| 392 |
+
"Ô3",
|
| 393 |
+
"Ôr",
|
| 394 |
+
"O63"
|
| 395 |
+
],
|
| 396 |
+
"Ỗ": [
|
| 397 |
+
"Oox",
|
| 398 |
+
"Ô4",
|
| 399 |
+
"Ôx",
|
| 400 |
+
"O64"
|
| 401 |
+
],
|
| 402 |
+
"Ộ": [
|
| 403 |
+
"Ooj",
|
| 404 |
+
"Ô5",
|
| 405 |
+
"Ôj",
|
| 406 |
+
"O65"
|
| 407 |
+
],
|
| 408 |
+
"Ơ": [
|
| 409 |
+
"Ow",
|
| 410 |
+
"O7"
|
| 411 |
+
],
|
| 412 |
+
"Ằ": [
|
| 413 |
+
"Awf",
|
| 414 |
+
"Ă2",
|
| 415 |
+
"Ăf",
|
| 416 |
+
"A82"
|
| 417 |
+
],
|
| 418 |
+
"Ẳ": [
|
| 419 |
+
"Awr",
|
| 420 |
+
"Ă3",
|
| 421 |
+
"Ăr",
|
| 422 |
+
"A83"
|
| 423 |
+
],
|
| 424 |
+
"Ẵ": [
|
| 425 |
+
"Awx",
|
| 426 |
+
"Ă4",
|
| 427 |
+
"Ăx",
|
| 428 |
+
"A84"
|
| 429 |
+
],
|
| 430 |
+
"Ặ": [
|
| 431 |
+
"Awj",
|
| 432 |
+
"Ă5",
|
| 433 |
+
"Ăj",
|
| 434 |
+
"A85"
|
| 435 |
+
],
|
| 436 |
+
"Ó": [
|
| 437 |
+
"Os",
|
| 438 |
+
"O1"
|
| 439 |
+
],
|
| 440 |
+
"Ò": [
|
| 441 |
+
"Of",
|
| 442 |
+
"O2"
|
| 443 |
+
],
|
| 444 |
+
"Ỏ": [
|
| 445 |
+
"Or",
|
| 446 |
+
"O3"
|
| 447 |
+
],
|
| 448 |
+
"Õ": [
|
| 449 |
+
"Ox",
|
| 450 |
+
"O4"
|
| 451 |
+
],
|
| 452 |
+
"Ọ": [
|
| 453 |
+
"Oj",
|
| 454 |
+
"O5"
|
| 455 |
+
],
|
| 456 |
+
"Ô": [
|
| 457 |
+
"Oo",
|
| 458 |
+
"O6"
|
| 459 |
+
],
|
| 460 |
+
"Ố": [
|
| 461 |
+
"Oos",
|
| 462 |
+
"Ô1",
|
| 463 |
+
"Ôs",
|
| 464 |
+
"O61"
|
| 465 |
+
],
|
| 466 |
+
"Ồ": [
|
| 467 |
+
"Oof",
|
| 468 |
+
"Ô2",
|
| 469 |
+
"Ôf",
|
| 470 |
+
"O62"
|
| 471 |
+
],
|
| 472 |
+
"Ớ": [
|
| 473 |
+
"Ows",
|
| 474 |
+
"Ơ1",
|
| 475 |
+
"Ơs",
|
| 476 |
+
"O71"
|
| 477 |
+
],
|
| 478 |
+
"Ờ": [
|
| 479 |
+
"Owf",
|
| 480 |
+
"Ơ2",
|
| 481 |
+
"Ơf",
|
| 482 |
+
"O72"
|
| 483 |
+
],
|
| 484 |
+
"Ở": [
|
| 485 |
+
"Owr",
|
| 486 |
+
"Ơ3",
|
| 487 |
+
"Ơr",
|
| 488 |
+
"O73"
|
| 489 |
+
],
|
| 490 |
+
"Ỡ": [
|
| 491 |
+
"Owx",
|
| 492 |
+
"Ơ4",
|
| 493 |
+
"Ơx",
|
| 494 |
+
"O74"
|
| 495 |
+
],
|
| 496 |
+
"Ợ": [
|
| 497 |
+
"Owj",
|
| 498 |
+
"Ơ5",
|
| 499 |
+
"Ơj",
|
| 500 |
+
"O75"
|
| 501 |
+
],
|
| 502 |
+
"É": [
|
| 503 |
+
"Es",
|
| 504 |
+
"E1"
|
| 505 |
+
],
|
| 506 |
+
"È": [
|
| 507 |
+
"Ef",
|
| 508 |
+
"E2"
|
| 509 |
+
],
|
| 510 |
+
"Ẻ": [
|
| 511 |
+
"Er",
|
| 512 |
+
"E3"
|
| 513 |
+
],
|
| 514 |
+
"Ẽ": [
|
| 515 |
+
"Ex",
|
| 516 |
+
"E4"
|
| 517 |
+
],
|
| 518 |
+
"Ẹ": [
|
| 519 |
+
"Ej",
|
| 520 |
+
"E5"
|
| 521 |
+
],
|
| 522 |
+
"Ê": [
|
| 523 |
+
"Ee",
|
| 524 |
+
"E6"
|
| 525 |
+
],
|
| 526 |
+
"Ế": [
|
| 527 |
+
"Ees",
|
| 528 |
+
"Ê1",
|
| 529 |
+
"Ês",
|
| 530 |
+
"E61"
|
| 531 |
+
],
|
| 532 |
+
"Ề": [
|
| 533 |
+
"Eef",
|
| 534 |
+
"Ê2",
|
| 535 |
+
"Êf",
|
| 536 |
+
"E62"
|
| 537 |
+
],
|
| 538 |
+
"Ể": [
|
| 539 |
+
"Eer",
|
| 540 |
+
"Ê3",
|
| 541 |
+
"Êr",
|
| 542 |
+
"E63"
|
| 543 |
+
],
|
| 544 |
+
"Ễ": [
|
| 545 |
+
"Eex",
|
| 546 |
+
"Ê4",
|
| 547 |
+
"Êx",
|
| 548 |
+
"E64"
|
| 549 |
+
],
|
| 550 |
+
"Ệ": [
|
| 551 |
+
"Eej",
|
| 552 |
+
"Ê5",
|
| 553 |
+
"Êj",
|
| 554 |
+
"E65"
|
| 555 |
+
],
|
| 556 |
+
"Ú": [
|
| 557 |
+
"Us",
|
| 558 |
+
"U1"
|
| 559 |
+
],
|
| 560 |
+
"Ù": [
|
| 561 |
+
"Uf",
|
| 562 |
+
"U2"
|
| 563 |
+
],
|
| 564 |
+
"Ủ": [
|
| 565 |
+
"Ur",
|
| 566 |
+
"U3"
|
| 567 |
+
],
|
| 568 |
+
"Ũ": [
|
| 569 |
+
"Ux",
|
| 570 |
+
"U4"
|
| 571 |
+
],
|
| 572 |
+
"Ụ": [
|
| 573 |
+
"Uj",
|
| 574 |
+
"U5"
|
| 575 |
+
],
|
| 576 |
+
"Ư": [
|
| 577 |
+
"Uw",
|
| 578 |
+
"U7"
|
| 579 |
+
],
|
| 580 |
+
"Ứ": [
|
| 581 |
+
"Uws",
|
| 582 |
+
"Ư1",
|
| 583 |
+
"Ưs",
|
| 584 |
+
"U71"
|
| 585 |
+
],
|
| 586 |
+
"Ừ": [
|
| 587 |
+
"Uwf",
|
| 588 |
+
"Ư2",
|
| 589 |
+
"Ưf",
|
| 590 |
+
"U72"
|
| 591 |
+
],
|
| 592 |
+
"Ử": [
|
| 593 |
+
"Uwr",
|
| 594 |
+
"Ư3",
|
| 595 |
+
"Ưr",
|
| 596 |
+
"U73"
|
| 597 |
+
],
|
| 598 |
+
"Ữ": [
|
| 599 |
+
"Uwx",
|
| 600 |
+
"Ư4",
|
| 601 |
+
"Ưx",
|
| 602 |
+
"U74"
|
| 603 |
+
],
|
| 604 |
+
"Ự": [
|
| 605 |
+
"Uwj",
|
| 606 |
+
"Ư5",
|
| 607 |
+
"Ưj",
|
| 608 |
+
"U75"
|
| 609 |
+
],
|
| 610 |
+
"Í": [
|
| 611 |
+
"Is",
|
| 612 |
+
"I1"
|
| 613 |
+
],
|
| 614 |
+
"Ì": [
|
| 615 |
+
"If",
|
| 616 |
+
"I2"
|
| 617 |
+
],
|
| 618 |
+
"Ỉ": [
|
| 619 |
+
"Ir",
|
| 620 |
+
"I3"
|
| 621 |
+
],
|
| 622 |
+
"Ị": [
|
| 623 |
+
"Ij",
|
| 624 |
+
"I5"
|
| 625 |
+
],
|
| 626 |
+
"Ĩ": [
|
| 627 |
+
"Ix",
|
| 628 |
+
"I4"
|
| 629 |
+
],
|
| 630 |
+
"Ý": [
|
| 631 |
+
"Ys",
|
| 632 |
+
"Y1"
|
| 633 |
+
],
|
| 634 |
+
"Ỳ": [
|
| 635 |
+
"Yf",
|
| 636 |
+
"Y2"
|
| 637 |
+
],
|
| 638 |
+
"Ỷ": [
|
| 639 |
+
"Yr",
|
| 640 |
+
"Y3"
|
| 641 |
+
],
|
| 642 |
+
"Ỵ": [
|
| 643 |
+
"Yj",
|
| 644 |
+
"Y5"
|
| 645 |
+
],
|
| 646 |
+
"Đ": [
|
| 647 |
+
"Dd",
|
| 648 |
+
"D9"
|
| 649 |
+
]
|
| 650 |
+
}
|
dataset/prepare_dataset.py
ADDED
|
@@ -0,0 +1,310 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
from vocab import Vocab
|
| 2 |
+
from noise import SynthesizeData
|
| 3 |
+
import os
|
| 4 |
+
import sys
|
| 5 |
+
import ray
|
| 6 |
+
import re
|
| 7 |
+
import time
|
| 8 |
+
from datetime import datetime as dt
|
| 9 |
+
sys.path.append("..")
|
| 10 |
+
import numpy as np
|
| 11 |
+
from params import PERCENT_NOISE, NUM_CPUS, NUM_PROCESSES
|
| 12 |
+
from utils.logger import get_logger
|
| 13 |
+
from viet_text_tools import normalize_diacritics
|
| 14 |
+
|
| 15 |
+
from transformers import AutoTokenizer
|
| 16 |
+
CHAR_TRANSFORMER_MAX_SEQ_LEN = 512
|
| 17 |
+
tokenizer = AutoTokenizer.from_pretrained("vinai/bartpho-word-base", use_fast=False)
|
| 18 |
+
logger = get_logger("./log/prepare_data.log")
|
| 19 |
+
|
| 20 |
+
@ray.remote
|
| 21 |
+
class PrepareActor(object):
|
| 22 |
+
def __init__(self, id, lang, data_root='../data', corpus="binhbq") -> None:
|
| 23 |
+
self.data_root, self.lang, self.corpus = data_root, lang, corpus
|
| 24 |
+
self.id = id
|
| 25 |
+
self.data_dir = f'{data_root}/{corpus}'
|
| 26 |
+
|
| 27 |
+
def open_files(self):
|
| 28 |
+
self.train_noise_file_name = f'{self.corpus}.train.noise' + str(self.id)
|
| 29 |
+
self.train_file_name = f'{self.corpus}.train' + str(self.id)
|
| 30 |
+
self.train_onehot_file_name = f'{self.corpus}.onehot.train' + str(self.id)
|
| 31 |
+
self.train_length_file_name = f'{self.corpus}.length.train' + str(self.id)
|
| 32 |
+
self.train_file_path = self.data_dir + '/' + self.train_file_name
|
| 33 |
+
self.train_noise_file_path = self.data_dir + '/' + self.train_noise_file_name
|
| 34 |
+
self.train_onehot_file_path = self.data_dir + '/' + self.train_onehot_file_name
|
| 35 |
+
self.train_length_file_path = self.data_dir + '/' + self.train_length_file_name
|
| 36 |
+
self.train_file = open(self.train_file_path, 'w', encoding='utf-8')
|
| 37 |
+
self.train_noise_file = open(self.train_noise_file_path, 'w', encoding='utf-8')
|
| 38 |
+
self.train_onehot_file = open(self.train_onehot_file_path, 'w', encoding='utf-8')
|
| 39 |
+
self.train_length_file = open(self.train_length_file_path, 'w', encoding='utf-8')
|
| 40 |
+
|
| 41 |
+
self.valid_file_name = f'{self.corpus}.valid' + str(self.id)
|
| 42 |
+
self.valid_noise_file_name = f'{self.corpus}.valid.noise' + str(self.id)
|
| 43 |
+
self.valid_onehot_file_name = f'{self.corpus}.onehot.valid' + str(self.id)
|
| 44 |
+
self.valid_length_file_name = f'{self.corpus}.length.valid' + str(self.id)
|
| 45 |
+
self.valid_file_path = self.data_dir + '/' + self.valid_file_name
|
| 46 |
+
self.valid_noise_file_path = self.data_dir + '/' + self.valid_noise_file_name
|
| 47 |
+
self.valid_onehot_file_path = self.data_dir + '/' + self.valid_onehot_file_name
|
| 48 |
+
self.valid_length_file_path = self.data_dir + '/' + self.valid_length_file_name
|
| 49 |
+
self.valid_file = open(self.valid_file_path, 'w', encoding='utf-8')
|
| 50 |
+
self.valid_noise_file = open(self.valid_noise_file_path, 'w', encoding='utf-8')
|
| 51 |
+
self.valid_onehot_file = open(self.valid_onehot_file_path, 'w', encoding='utf-8')
|
| 52 |
+
self.valid_length_file = open(self.valid_length_file_path, 'w', encoding='utf-8')
|
| 53 |
+
|
| 54 |
+
self.test_file_name = f'{self.corpus}.test' + str(self.id)
|
| 55 |
+
self.test_noise_file_name = f'{self.corpus}.test.noise' + str(self.id)
|
| 56 |
+
self.test_onehot_file_name = f'{self.corpus}.onehot.test' + str(self.id)
|
| 57 |
+
self.test_length_file_name = f'{self.corpus}.length.test' + str(self.id)
|
| 58 |
+
self.test_file_path = self.data_dir + '/' + self.test_file_name
|
| 59 |
+
self.test_noise_file_path = self.data_dir + '/' + self.test_noise_file_name
|
| 60 |
+
self.test_onehot_file_path = self.data_dir + '/' + self.test_onehot_file_name
|
| 61 |
+
self.test_length_file_path = self.data_dir + '/' + self.test_length_file_name
|
| 62 |
+
self.test_file = open(self.test_file_path, 'w', encoding='utf-8')
|
| 63 |
+
self.test_noise_file = open(self.test_noise_file_path, 'w', encoding='utf-8')
|
| 64 |
+
self.test_onehot_file = open(self.test_onehot_file_path, 'w', encoding='utf-8')
|
| 65 |
+
self.test_length_file = open(self.test_length_file_path, 'w', encoding='utf-8')
|
| 66 |
+
|
| 67 |
+
def close_files(self):
|
| 68 |
+
if self.train_noise_file:
|
| 69 |
+
self.train_noise_file.close()
|
| 70 |
+
if self.train_onehot_file:
|
| 71 |
+
self.train_onehot_file.close()
|
| 72 |
+
if self.train_length_file:
|
| 73 |
+
self.train_length_file.close()
|
| 74 |
+
if self.train_file:
|
| 75 |
+
self.train_file.close()
|
| 76 |
+
|
| 77 |
+
if self.test_noise_file:
|
| 78 |
+
self.test_noise_file.close()
|
| 79 |
+
if self.test_onehot_file:
|
| 80 |
+
self.test_onehot_file.close()
|
| 81 |
+
if self.test_length_file:
|
| 82 |
+
self.test_length_file.close()
|
| 83 |
+
if self.test_file:
|
| 84 |
+
self.test_file.close()
|
| 85 |
+
|
| 86 |
+
if self.valid_noise_file:
|
| 87 |
+
self.valid_noise_file.close()
|
| 88 |
+
if self.valid_onehot_file:
|
| 89 |
+
self.valid_onehot_file.close()
|
| 90 |
+
if self.valid_length_file:
|
| 91 |
+
self.valid_length_file.close()
|
| 92 |
+
if self.valid_file:
|
| 93 |
+
self.valid_file.close()
|
| 94 |
+
|
| 95 |
+
|
| 96 |
+
|
| 97 |
+
|
| 98 |
+
def prepare_subword_sents_and_vocab(self, lines: ray.data.Dataset):
|
| 99 |
+
|
| 100 |
+
vocab = Vocab(self.lang)
|
| 101 |
+
self.subword_sents = []
|
| 102 |
+
|
| 103 |
+
print(f"{dt.now()} PrepareActor[{self.id}].prepare_sublist_and_vocab() BEGIN...")
|
| 104 |
+
|
| 105 |
+
for line in lines.iter_rows():
|
| 106 |
+
line = line.strip("\n")
|
| 107 |
+
words = line.split(" ")
|
| 108 |
+
###
|
| 109 |
+
if len(words) > 150:
|
| 110 |
+
splited_lines = re.split("[.;]+", line)
|
| 111 |
+
for splited_line in splited_lines:
|
| 112 |
+
words = splited_line.split(" ")
|
| 113 |
+
if len(words) < 10 or len(words) > 150:
|
| 114 |
+
continue
|
| 115 |
+
words = [normalize_diacritics(word) for word in words]
|
| 116 |
+
vocab.update_subword_freq(words)
|
| 117 |
+
splited_line = " ".join(words)
|
| 118 |
+
self.subword_sents.append(splited_line)
|
| 119 |
+
continue
|
| 120 |
+
###
|
| 121 |
+
if len(words) < 10:
|
| 122 |
+
continue
|
| 123 |
+
words = [normalize_diacritics(word) for word in words]
|
| 124 |
+
line = " ".join(words)
|
| 125 |
+
vocab.update_subword_freq(words)
|
| 126 |
+
self.subword_sents.append(line)
|
| 127 |
+
|
| 128 |
+
print(f"{dt.now()} PrepareActor[{self.id}].prepare_sublist_and_vocab() COMPLETED...")
|
| 129 |
+
|
| 130 |
+
return vocab
|
| 131 |
+
|
| 132 |
+
|
| 133 |
+
def gen_noised_and_onehot(self, noiser:SynthesizeData = None):
|
| 134 |
+
print(f"{dt.now()} PrepareActor[{self.id}].gen_training_data() BEGIN...")
|
| 135 |
+
self.open_files()
|
| 136 |
+
logger = get_logger(f"log/prepare_data_worker{self.id}.log")
|
| 137 |
+
assert noiser != None
|
| 138 |
+
|
| 139 |
+
self.noiser = noiser
|
| 140 |
+
np.random.seed(2001)
|
| 141 |
+
np.random.shuffle(self.subword_sents)
|
| 142 |
+
|
| 143 |
+
train_examples = 0
|
| 144 |
+
#### Train 0.89 Valid 0.01 Test 0.10
|
| 145 |
+
max_train_examples = int(0.89 * len(self.subword_sents))
|
| 146 |
+
max_valid_examples = int(0.90 * len(self.subword_sents))
|
| 147 |
+
|
| 148 |
+
for line in self.subword_sents:
|
| 149 |
+
train_examples += 1
|
| 150 |
+
|
| 151 |
+
if train_examples < max_train_examples:
|
| 152 |
+
data_for = "train"
|
| 153 |
+
elif train_examples < max_valid_examples:
|
| 154 |
+
data_for = "valid"
|
| 155 |
+
else:
|
| 156 |
+
data_for = "test"
|
| 157 |
+
|
| 158 |
+
|
| 159 |
+
if len(line) > (CHAR_TRANSFORMER_MAX_SEQ_LEN - 2):
|
| 160 |
+
continue
|
| 161 |
+
|
| 162 |
+
normal_noise, normal_onehot = self.noiser.add_normal_noise(
|
| 163 |
+
line, percent_err=PERCENT_NOISE)
|
| 164 |
+
|
| 165 |
+
split_merge_noise, split_merge_onehot = self.noiser.add_split_merge_noise(
|
| 166 |
+
line, percent_err=PERCENT_NOISE, percent_normal_err=PERCENT_NOISE)
|
| 167 |
+
|
| 168 |
+
la = len(normal_noise)
|
| 169 |
+
lb = len(split_merge_noise)
|
| 170 |
+
|
| 171 |
+
if la > (CHAR_TRANSFORMER_MAX_SEQ_LEN - 2):
|
| 172 |
+
logger.log(f"INFO: Noised longer than Transformer's max limit (NORMAL NOISE).")
|
| 173 |
+
logger.log(f"TEXT: {normal_noise}")
|
| 174 |
+
continue
|
| 175 |
+
|
| 176 |
+
if lb > (CHAR_TRANSFORMER_MAX_SEQ_LEN - 2):
|
| 177 |
+
logger.log(f"INFO: Noised longer than Transformer's max limit (SPLIT MERGE NOISE).")
|
| 178 |
+
logger.log(f"TEXT: {split_merge_noise}")
|
| 179 |
+
continue
|
| 180 |
+
|
| 181 |
+
if data_for == "train":
|
| 182 |
+
self.train_noise_file.write(normal_noise + '\n')
|
| 183 |
+
self.train_noise_file.write(split_merge_noise + '\n')
|
| 184 |
+
self.train_onehot_file.write(normal_onehot + '\n')
|
| 185 |
+
self.train_onehot_file.write(split_merge_onehot + '\n')
|
| 186 |
+
self.train_file.write(line + "\n")
|
| 187 |
+
self.train_length_file.write(str(la) + "\n")
|
| 188 |
+
self.train_length_file.write(str(lb) + "\n")
|
| 189 |
+
elif data_for == "test":
|
| 190 |
+
self.test_noise_file.write(normal_noise + '\n')
|
| 191 |
+
self.test_noise_file.write(split_merge_noise + '\n')
|
| 192 |
+
self.test_onehot_file.write(normal_onehot + '\n')
|
| 193 |
+
self.test_onehot_file.write(split_merge_onehot + '\n')
|
| 194 |
+
self.test_file.write(line + "\n")
|
| 195 |
+
self.test_length_file.write(str(la) + "\n")
|
| 196 |
+
self.test_length_file.write(str(lb) + "\n")
|
| 197 |
+
else:
|
| 198 |
+
self.valid_noise_file.write(normal_noise + '\n')
|
| 199 |
+
self.valid_noise_file.write(split_merge_noise + '\n')
|
| 200 |
+
self.valid_onehot_file.write(normal_onehot + '\n')
|
| 201 |
+
self.valid_onehot_file.write(split_merge_onehot + '\n')
|
| 202 |
+
self.valid_file.write(line + "\n")
|
| 203 |
+
self.valid_length_file.write(str(la) + "\n")
|
| 204 |
+
self.valid_length_file.write(str(lb) + "\n")
|
| 205 |
+
|
| 206 |
+
print(f"{dt.now()} PrepareActor[{self.id}].gen_training_data() COMPLETED...")
|
| 207 |
+
self.close_files()
|
| 208 |
+
|
| 209 |
+
|
| 210 |
+
class PrepareDataset:
|
| 211 |
+
|
| 212 |
+
def __init__(self, data_root='../data', lang='vi', corpus='binhvq'):
|
| 213 |
+
self.data_root, self.lang, self.corpus = data_root, lang, corpus
|
| 214 |
+
self.data_dir = f'{data_root}/{corpus}'
|
| 215 |
+
|
| 216 |
+
self.vocab = Vocab(self.lang)
|
| 217 |
+
|
| 218 |
+
# Number of CPUS
|
| 219 |
+
self.MAX_CPUS = 12
|
| 220 |
+
self.NUM_CPUS = NUM_CPUS if NUM_CPUS < self.MAX_CPUS else self.MAX_CPUS
|
| 221 |
+
|
| 222 |
+
ray.init(num_cpus=NUM_CPUS)
|
| 223 |
+
|
| 224 |
+
print(f"{dt.now()} PrepareDataset: Initiating {NUM_PROCESSES} PrepareActor")
|
| 225 |
+
self.actors = [PrepareActor.remote(i, lang, self.data_root, self.corpus) for i in range(NUM_PROCESSES)]
|
| 226 |
+
|
| 227 |
+
self.vocab_pickle_name = f'{self.corpus}.vocab.pkl'
|
| 228 |
+
self.vocab_pickle_path = self.data_dir + '/' + self.vocab_pickle_name
|
| 229 |
+
self.vocab_dict_name = f'{self.corpus}.dict.txt'
|
| 230 |
+
self.vocab_dict_path = self.data_dir + '/' + self.vocab_dict_name
|
| 231 |
+
|
| 232 |
+
def build_vocab_and_subwords(self, ray_ds: ray.data.Dataset):
|
| 233 |
+
|
| 234 |
+
print(f"{dt.now()} PrepareDataset.build_vocab_and_subwords()")
|
| 235 |
+
|
| 236 |
+
shards = ray_ds.split(n = NUM_PROCESSES)
|
| 237 |
+
|
| 238 |
+
subword_and_vocab_refs = [actor.prepare_subword_sents_and_vocab.remote(
|
| 239 |
+
shard) for actor, shard in zip(self.actors, shards)]
|
| 240 |
+
subwords_and_vocabs = ray.get(subword_and_vocab_refs)
|
| 241 |
+
# Return results is vocab
|
| 242 |
+
|
| 243 |
+
for i in range(NUM_PROCESSES):
|
| 244 |
+
self.vocab.merge_sub_vocabs(subwords_and_vocabs[i])
|
| 245 |
+
|
| 246 |
+
|
| 247 |
+
def build_noised_and_onehot(self):
|
| 248 |
+
|
| 249 |
+
print(f"{dt.now()} PrepareDataset.build_noised_and_onehot.remote() BEGIN...")
|
| 250 |
+
|
| 251 |
+
noiser = SynthesizeData(self.vocab)
|
| 252 |
+
|
| 253 |
+
noised_and_onehot_refs = [actor.gen_noised_and_onehot.remote(noiser) \
|
| 254 |
+
for actor in self.actors]
|
| 255 |
+
|
| 256 |
+
_ = ray.get(noised_and_onehot_refs)
|
| 257 |
+
|
| 258 |
+
print(f"{dt.now()} PrepareDataset.build_noised_and_onehot.remote() COMPLETE !!!")
|
| 259 |
+
|
| 260 |
+
print(f"{dt.now()} PrepareDataset.build_noised_and_onehot(): Writing to noised and onehot files!!!")
|
| 261 |
+
|
| 262 |
+
|
| 263 |
+
def prepare_data(self, in_file_name='vi_wiki.data.txt'):
|
| 264 |
+
|
| 265 |
+
print(f"{dt.now()} PrepareDataset.prepare_data(): open_files()")
|
| 266 |
+
|
| 267 |
+
self.in_file_path = self.data_dir + '/' + in_file_name
|
| 268 |
+
|
| 269 |
+
if not os.path.exists(self.in_file_path):
|
| 270 |
+
print(f"{dt.now()} PrepareDataset.prepare_data(): Cannot find input file!!!")
|
| 271 |
+
print(f'File path: {self.in_file_path}')
|
| 272 |
+
return
|
| 273 |
+
|
| 274 |
+
print(f"{dt.now()} PrepareDataset.prepare_data(): Processing file part by part ...")
|
| 275 |
+
|
| 276 |
+
with open(self.in_file_path, 'r', encoding='utf-8') as ifile:
|
| 277 |
+
lines = ifile.readlines()
|
| 278 |
+
|
| 279 |
+
ray_ds = ray.data.from_items(lines)
|
| 280 |
+
del lines
|
| 281 |
+
print(f"{dt.now()} PrepareDataset.prepare_data(): Building Vocabulary...")
|
| 282 |
+
self.build_vocab_and_subwords(ray_ds)
|
| 283 |
+
self.vocab.build_vocab(topk=100000)
|
| 284 |
+
print(f"{dt.now()} PrepareDataset.prepare_data(): Writing Vocabulary to text file...")
|
| 285 |
+
self.vocab.save_dict_text(self.vocab_dict_path)
|
| 286 |
+
print(f"{dt.now()} PrepareDataset.prepare_data(): Writing Vocabulary to pickle file...")
|
| 287 |
+
self.vocab.save_vocab_dict(self.vocab_pickle_path)
|
| 288 |
+
print(f"{dt.now()} PrepareDataset.prepare_data(): Gen train noised and onehot...")
|
| 289 |
+
self.build_noised_and_onehot()
|
| 290 |
+
print(f"{dt.now()} PrepareDataset - Complete preparing dataset!!!")
|
| 291 |
+
|
| 292 |
+
|
| 293 |
+
if __name__ == "__main__":
|
| 294 |
+
import argparse
|
| 295 |
+
description = '''
|
| 296 |
+
prepare_dataset.py:
|
| 297 |
+
|
| 298 |
+
Usage: python prepare_dataset.py --dataset vi_wiki --file vi_wiki.data.txt --test False
|
| 299 |
+
|
| 300 |
+
'''
|
| 301 |
+
parser = argparse.ArgumentParser(description=description)
|
| 302 |
+
parser.add_argument('--file', type=str, default='corpus-small.txt')
|
| 303 |
+
parser.add_argument('--corpus', type=str, default='binhvq')
|
| 304 |
+
parser.add_argument('--data_root', type=str, default="../data")
|
| 305 |
+
args = parser.parse_args()
|
| 306 |
+
creater = PrepareDataset(data_root = args.data_root, corpus=args.corpus)
|
| 307 |
+
start_time = time.time()
|
| 308 |
+
creater.prepare_data(args.file)
|
| 309 |
+
end_time = time.time()
|
| 310 |
+
print(f"Time consumed for generate data: {end_time - start_time}")
|
dataset/prepare_vsec.py
ADDED
|
@@ -0,0 +1,46 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
import json
|
| 2 |
+
from tqdm import tqdm
|
| 3 |
+
import sys
|
| 4 |
+
from viet_text_tools import normalize_diacritics
|
| 5 |
+
sys.path.append("..")
|
| 6 |
+
from utils.logger import get_logger
|
| 7 |
+
import re
|
| 8 |
+
vsec_path = "../data/vsec/VSEC.jsonl"
|
| 9 |
+
test_file = open("../data/vsec/vsec.test", "w+")
|
| 10 |
+
test_noise_file = open("../data/vsec/vsec.test.noise", "w+")
|
| 11 |
+
|
| 12 |
+
with open(vsec_path, "r") as file:
|
| 13 |
+
data = [json.loads(x[0:-1]) for x in file.readlines()]
|
| 14 |
+
|
| 15 |
+
def get_true_text(sentence: dict):
|
| 16 |
+
true_tokens = []
|
| 17 |
+
for word in sentence['annotations']:
|
| 18 |
+
if word['is_correct'] == True:
|
| 19 |
+
true_tokens.append(word['current_syllable'])
|
| 20 |
+
else:
|
| 21 |
+
true_tokens.append(word['alternative_syllables'][0])
|
| 22 |
+
true_sentence = " ".join(true_tokens)
|
| 23 |
+
words = re.findall("\w+|[^\w\s]{1}", true_sentence)
|
| 24 |
+
return " ".join(words)
|
| 25 |
+
|
| 26 |
+
def get_noise_text(sentence: dict):
|
| 27 |
+
noised_tokens = []
|
| 28 |
+
for word in sentence['annotations']:
|
| 29 |
+
noised_tokens.append(word['current_syllable'])
|
| 30 |
+
noised_sentence = " ".join(noised_tokens)
|
| 31 |
+
words = re.findall("\w+|[^\w\s]{1}", noised_sentence)
|
| 32 |
+
noised_tokens = []
|
| 33 |
+
for word in words:
|
| 34 |
+
new_word = normalize_diacritics(word)
|
| 35 |
+
noised_tokens.append(new_word)
|
| 36 |
+
return " ".join(noised_tokens)
|
| 37 |
+
|
| 38 |
+
for sentence in tqdm(data):
|
| 39 |
+
true_text = get_true_text(sentence)
|
| 40 |
+
noised_text = get_noise_text(sentence)
|
| 41 |
+
|
| 42 |
+
test_file.write(true_text + "\n")
|
| 43 |
+
test_noise_file.write(noised_text + "\n")
|
| 44 |
+
|
| 45 |
+
test_file.close()
|
| 46 |
+
test_noise_file.close()
|
dataset/util.py
ADDED
|
@@ -0,0 +1,128 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
import os
|
| 2 |
+
import numpy as np
|
| 3 |
+
from tqdm import tqdm
|
| 4 |
+
from math import ceil
|
| 5 |
+
|
| 6 |
+
def load_vsec_dataset(base_path, corr_file, incorr_file):
|
| 7 |
+
# load files
|
| 8 |
+
if base_path:
|
| 9 |
+
assert os.path.exists(base_path) == True
|
| 10 |
+
incorr_data = []
|
| 11 |
+
opfile1 = open(os.path.join(base_path, incorr_file), "r", encoding="utf-8")
|
| 12 |
+
for line in opfile1:
|
| 13 |
+
if line.strip() != "":
|
| 14 |
+
incorr_data.append(line.strip())
|
| 15 |
+
opfile1.close()
|
| 16 |
+
corr_data = []
|
| 17 |
+
opfile2 = open(os.path.join(base_path, corr_file), "r", encoding="utf-8")
|
| 18 |
+
for line in opfile2:
|
| 19 |
+
if line.strip() != "":
|
| 20 |
+
corr_data.append(line.strip())
|
| 21 |
+
opfile2.close()
|
| 22 |
+
|
| 23 |
+
assert len(incorr_data) == len(corr_data)
|
| 24 |
+
|
| 25 |
+
data = []
|
| 26 |
+
for x, y in zip(corr_data, incorr_data):
|
| 27 |
+
data.append((x, y))
|
| 28 |
+
|
| 29 |
+
print(f"loaded tuples of (incorr, corr) examples from {base_path}")
|
| 30 |
+
return data
|
| 31 |
+
|
| 32 |
+
def load_dataset(base_path, corr_file, incorr_file, length_file = None):
|
| 33 |
+
# load files
|
| 34 |
+
if base_path:
|
| 35 |
+
assert os.path.exists(base_path) == True
|
| 36 |
+
|
| 37 |
+
data = []
|
| 38 |
+
opfile2 = open(os.path.join(base_path, corr_file), "r", encoding="utf-8")
|
| 39 |
+
for line in tqdm(opfile2):
|
| 40 |
+
if line.strip() != "":
|
| 41 |
+
data.append([line.strip()])
|
| 42 |
+
data.append([line.strip()])
|
| 43 |
+
opfile2.close()
|
| 44 |
+
|
| 45 |
+
opfile1 = open(os.path.join(base_path, incorr_file), "r", encoding="utf-8")
|
| 46 |
+
for i, line in tqdm(enumerate(opfile1)):
|
| 47 |
+
if line.strip() != "":
|
| 48 |
+
data[i].append(line.strip())
|
| 49 |
+
opfile1.close()
|
| 50 |
+
|
| 51 |
+
opfile4 = open(os.path.join(base_path, length_file), "r", encoding="utf-8")
|
| 52 |
+
for i, line in tqdm(enumerate(opfile4)):
|
| 53 |
+
if line.strip() != "":
|
| 54 |
+
data[i].append(int(line))
|
| 55 |
+
opfile4.close()
|
| 56 |
+
|
| 57 |
+
print(f"loaded tuples of (incorr, corr, length) examples from {base_path}")
|
| 58 |
+
return data
|
| 59 |
+
|
| 60 |
+
def load_epoch_dataset(base_path, corr_file, incorr_file, length_file, epoch: int, num_epoch: int):
|
| 61 |
+
# load files
|
| 62 |
+
if base_path:
|
| 63 |
+
assert os.path.exists(base_path) == True
|
| 64 |
+
assert num_epoch >= 1
|
| 65 |
+
assert epoch >= 1 and epoch <= num_epoch
|
| 66 |
+
|
| 67 |
+
## Count number of data
|
| 68 |
+
opfile = open(os.path.join(base_path, length_file), "r", encoding="utf-8")
|
| 69 |
+
count = 0
|
| 70 |
+
for i, line in tqdm(enumerate(opfile)):
|
| 71 |
+
count +=1
|
| 72 |
+
opfile.close()
|
| 73 |
+
print(f"Number of training datas: {count} examples!")
|
| 74 |
+
|
| 75 |
+
epochdataset_examples = int(ceil(1 / num_epoch * count))
|
| 76 |
+
start_index = epochdataset_examples * (epoch - 1)
|
| 77 |
+
end_index = start_index + epochdataset_examples
|
| 78 |
+
|
| 79 |
+
data = []
|
| 80 |
+
opfile2 = open(os.path.join(base_path, corr_file), "r", encoding="utf-8")
|
| 81 |
+
traverse_count = 0
|
| 82 |
+
for i, line in tqdm(enumerate(opfile2)):
|
| 83 |
+
|
| 84 |
+
if line.strip() != "":
|
| 85 |
+
if traverse_count >= start_index and traverse_count < end_index :
|
| 86 |
+
data.append([line.strip()])
|
| 87 |
+
traverse_count += 1
|
| 88 |
+
elif traverse_count >= end_index:
|
| 89 |
+
break
|
| 90 |
+
else:
|
| 91 |
+
traverse_count += 1
|
| 92 |
+
|
| 93 |
+
if traverse_count >= start_index and traverse_count < end_index :
|
| 94 |
+
data.append([line.strip()])
|
| 95 |
+
traverse_count += 1
|
| 96 |
+
elif traverse_count >= end_index:
|
| 97 |
+
break
|
| 98 |
+
else:
|
| 99 |
+
traverse_count += 1
|
| 100 |
+
|
| 101 |
+
opfile2.close()
|
| 102 |
+
opfile1 = open(os.path.join(base_path, incorr_file), "r", encoding="utf-8")
|
| 103 |
+
traverse_count = 0
|
| 104 |
+
for i, line in tqdm(enumerate(opfile1)):
|
| 105 |
+
if line.strip() != "":
|
| 106 |
+
if traverse_count >= start_index and traverse_count < end_index :
|
| 107 |
+
data[i - start_index].append(line.strip())
|
| 108 |
+
elif traverse_count >= end_index:
|
| 109 |
+
break
|
| 110 |
+
traverse_count += 1
|
| 111 |
+
opfile1.close()
|
| 112 |
+
traverse_count = 0
|
| 113 |
+
opfile4 = open(os.path.join(base_path, length_file), "r", encoding="utf-8")
|
| 114 |
+
for i, line in tqdm(enumerate(opfile4)):
|
| 115 |
+
if line.strip() != "":
|
| 116 |
+
if traverse_count >= start_index and traverse_count < end_index :
|
| 117 |
+
data[i - start_index].append(int(line))
|
| 118 |
+
elif traverse_count >= end_index:
|
| 119 |
+
break
|
| 120 |
+
traverse_count += 1
|
| 121 |
+
opfile4.close()
|
| 122 |
+
|
| 123 |
+
print(f"loaded tuples of (incorr, corr, length) examples from {base_path}")
|
| 124 |
+
return data
|
| 125 |
+
|
| 126 |
+
|
| 127 |
+
|
| 128 |
+
|
dataset/vocab.py
ADDED
|
@@ -0,0 +1,188 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
from __future__ import annotations
|
| 2 |
+
import pickle
|
| 3 |
+
import re
|
| 4 |
+
import os
|
| 5 |
+
import sys
|
| 6 |
+
|
| 7 |
+
|
| 8 |
+
sys.path.append("..")
|
| 9 |
+
|
| 10 |
+
from params import *
|
| 11 |
+
|
| 12 |
+
class Vocab():
|
| 13 |
+
def __init__(self, lang='vi'):
|
| 14 |
+
self.not_alphabet_regex = '''[^aAàÀảẢãÃáÁạẠăĂằẰẳẲẵẴắẮặẶâÂầẦẩẨẫẪấẤậẬbBcCdDđĐeEèÈẻẺẽẼéÉẹẸêÊềỀểỂễỄếẾệỆfFgGhHiIìÌỉỈĩĨíÍịỊjJkKlLmMnNoOòÒỏỎõÕóÓọỌôÔồỒổỔỗỖốỐộỘơƠờỜởỞỡỠớỚợỢpPqQrRsStTuUùÙủỦũŨúÚụỤưƯừỪửỬữỮứỨựỰvVwWxXyYỳỲỷỶỹỸýÝỵỴzZ0123456789!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~ ]'''
|
| 15 |
+
self.lang = lang
|
| 16 |
+
self.token_freq_list = []
|
| 17 |
+
self.token_freq, self.token2idx, self.idx2token = {}, {}, {}
|
| 18 |
+
self.pad_token = "<<PAD>>"
|
| 19 |
+
self.unk_token = "<<UNK>>"
|
| 20 |
+
self.sub_token = "<<SUB>>"
|
| 21 |
+
self.eos_token = "<<EOS>>"
|
| 22 |
+
|
| 23 |
+
self.chartoken2idx, self.idx2chartoken = {}, {}
|
| 24 |
+
self.char_unk_token, self.char_pad_token, self.char_start_token, self.char_end_token = \
|
| 25 |
+
"<<CHAR_UNK>>", "<<CHAR_PAD>>", "<<CHAR_START>>", "<<CHAR_END>>"
|
| 26 |
+
self.char_space_token = "<<CHAR_SPACE>>"
|
| 27 |
+
|
| 28 |
+
def set_lang(self, lang):
|
| 29 |
+
self.lang = lang
|
| 30 |
+
|
| 31 |
+
def exist(self, word):
|
| 32 |
+
|
| 33 |
+
return word in self.token2idx
|
| 34 |
+
|
| 35 |
+
def update_subword_freq(self, subwords: list):
|
| 36 |
+
for subword in subwords:
|
| 37 |
+
if not subword.isdigit():
|
| 38 |
+
if re.search(self.not_alphabet_regex, subword):
|
| 39 |
+
continue
|
| 40 |
+
if subword not in self.token_freq:
|
| 41 |
+
self.token_freq[subword] = 0
|
| 42 |
+
self.token_freq[subword] += 1
|
| 43 |
+
|
| 44 |
+
def merge_sub_vocabs(self, vocab: Vocab):
|
| 45 |
+
for subword in vocab.token_freq:
|
| 46 |
+
if subword not in self.token_freq:
|
| 47 |
+
self.token_freq[subword] = 0
|
| 48 |
+
self.token_freq[subword] += vocab.token_freq[subword]
|
| 49 |
+
|
| 50 |
+
def insert_special_tokens(self):
|
| 51 |
+
# add <<PAD>> special token
|
| 52 |
+
self.pad_token_idx = len(self.token2idx)
|
| 53 |
+
self.token2idx[self.pad_token] = self.pad_token_idx
|
| 54 |
+
self.idx2token[self.pad_token_idx] = self.pad_token
|
| 55 |
+
|
| 56 |
+
# add <<SUB>> special token
|
| 57 |
+
self.sub_token_idx = len(self.token2idx)
|
| 58 |
+
self.token2idx[self.sub_token] = self.sub_token_idx
|
| 59 |
+
self.idx2token[self.sub_token_idx] = self.sub_token
|
| 60 |
+
|
| 61 |
+
# add <<UNK>> special token
|
| 62 |
+
self.unk_token_idx = len(self.token2idx)
|
| 63 |
+
self.token2idx[self.unk_token] = self.unk_token_idx
|
| 64 |
+
self.idx2token[self.unk_token_idx] = self.unk_token
|
| 65 |
+
|
| 66 |
+
# add <<EOS>> special token
|
| 67 |
+
self.eos_token_idx = len(self.token2idx)
|
| 68 |
+
self.token2idx[self.eos_token] = self.eos_token_idx
|
| 69 |
+
self.idx2token[self.eos_token_idx] = self.eos_token
|
| 70 |
+
|
| 71 |
+
def insert_dicts(self, build_char_vocab=True):
|
| 72 |
+
|
| 73 |
+
for (token, _) in self.token_freq_list:
|
| 74 |
+
idx = len(self.token2idx)
|
| 75 |
+
self.idx2token[idx] = token
|
| 76 |
+
self.token2idx[token] = idx
|
| 77 |
+
|
| 78 |
+
self.insert_special_tokens()
|
| 79 |
+
|
| 80 |
+
|
| 81 |
+
print(f"Total Vocab's size: {len(self.token2idx)}")
|
| 82 |
+
|
| 83 |
+
self.vocab_dict = {"token2idx": self.token2idx,
|
| 84 |
+
"idx2token": self.idx2token}
|
| 85 |
+
|
| 86 |
+
# load_char_tokens
|
| 87 |
+
if build_char_vocab:
|
| 88 |
+
print("loading character tokens")
|
| 89 |
+
self.get_char_tokens()
|
| 90 |
+
|
| 91 |
+
def build_vocab(self, topk=100000, build_char_vocab=True):
|
| 92 |
+
# retain only topk tokens
|
| 93 |
+
if topk is not None:
|
| 94 |
+
sorted_ = sorted(self.token_freq.items(),
|
| 95 |
+
key=lambda item: item[1], reverse=True)
|
| 96 |
+
|
| 97 |
+
self.token_freq_list = sorted_[:topk]
|
| 98 |
+
|
| 99 |
+
print(f"Total tokens retained: {len(self.token_freq_list)}")
|
| 100 |
+
|
| 101 |
+
self.insert_dicts(build_char_vocab)
|
| 102 |
+
|
| 103 |
+
def build_vocab_from_text(self, path_: str, build_char_vocab=True):
|
| 104 |
+
if not os.path.exists(path_):
|
| 105 |
+
print(f"Vocab: Cannot find dict file: {path_}")
|
| 106 |
+
else:
|
| 107 |
+
print("Building vocab from vocab dict file!")
|
| 108 |
+
with open(path_, 'r') as dict_file:
|
| 109 |
+
for line in dict_file:
|
| 110 |
+
token_freq = line.split()
|
| 111 |
+
if token_freq[0] not in [self.pad_token, self.sub_token, self.unk_token, self.eos_token]:
|
| 112 |
+
try:
|
| 113 |
+
self.token_freq_list.append((token_freq[0], token_freq[1]))
|
| 114 |
+
except:
|
| 115 |
+
print(line)
|
| 116 |
+
|
| 117 |
+
self.insert_dicts(build_char_vocab)
|
| 118 |
+
|
| 119 |
+
def load_vocab_dict(self, path_: str):
|
| 120 |
+
"""
|
| 121 |
+
path_: path where the vocab pickle file is saved
|
| 122 |
+
"""
|
| 123 |
+
with open(path_, 'rb') as fp:
|
| 124 |
+
self.vocab_dict = pickle.load(fp)
|
| 125 |
+
self.token2idx = self.vocab_dict['token2idx']
|
| 126 |
+
self.idx2token = self.vocab_dict['idx2token']
|
| 127 |
+
|
| 128 |
+
self.chartoken2idx = self.vocab_dict['chartoken2idx']
|
| 129 |
+
|
| 130 |
+
self.idx2chartoken = self.vocab_dict['idx2chartoken']
|
| 131 |
+
|
| 132 |
+
self.pad_token_idx = self.token2idx[self.pad_token]
|
| 133 |
+
self.sub_token_idx = self.token2idx[self.sub_token]
|
| 134 |
+
self.unk_token_idx = self.token2idx[self.unk_token]
|
| 135 |
+
|
| 136 |
+
self.char_unk_token_idx = self.chartoken2idx[self.char_unk_token]
|
| 137 |
+
|
| 138 |
+
def save_vocab_dict(self, path_: str):
|
| 139 |
+
"""
|
| 140 |
+
path_: path where the vocab pickle file to be saved
|
| 141 |
+
vocab_: the dict data
|
| 142 |
+
"""
|
| 143 |
+
with open(path_, 'wb') as fp:
|
| 144 |
+
pickle.dump(self.vocab_dict, fp, protocol=pickle.HIGHEST_PROTOCOL)
|
| 145 |
+
|
| 146 |
+
return
|
| 147 |
+
|
| 148 |
+
def save_dict_text(self, path_):
|
| 149 |
+
|
| 150 |
+
with open(path_, 'w', encoding='utf-8') as ofile:
|
| 151 |
+
print("len(self.token_freq_list): ", len(self.token_freq_list))
|
| 152 |
+
for (subword, fre) in self.token_freq_list:
|
| 153 |
+
ofile.write(f'{subword} {fre}\n')
|
| 154 |
+
|
| 155 |
+
ofile.write(f'{self.pad_token} -1\n')
|
| 156 |
+
ofile.write(f'{self.sub_token} -1\n')
|
| 157 |
+
ofile.write(f'{self.unk_token} -1\n')
|
| 158 |
+
ofile.write(f'{self.eos_token} -1\n')
|
| 159 |
+
|
| 160 |
+
def get_char_tokens(self):
|
| 161 |
+
special_tokens = [self.char_pad_token, self.char_start_token,
|
| 162 |
+
self.char_end_token, self.char_unk_token,
|
| 163 |
+
self.char_space_token]
|
| 164 |
+
|
| 165 |
+
for char in special_tokens:
|
| 166 |
+
idx = len(self.chartoken2idx)
|
| 167 |
+
self.chartoken2idx[char] = idx
|
| 168 |
+
self.idx2chartoken[idx] = char
|
| 169 |
+
|
| 170 |
+
if self.lang == 'vi':
|
| 171 |
+
chars = list(
|
| 172 |
+
'''aAàÀảẢãÃáÁạẠăĂằẰẳẲẵẴắẮặẶâÂầẦẩẨẫẪấẤậẬbBcCdDđĐeEèÈẻẺẽẼéÉẹẸêÊềỀểỂễỄếẾệỆfFgGhHiIìÌỉỈĩĨíÍịỊjJkKlLmMnNoOòÒỏỎõÕóÓọỌôÔồỒổỔỗỖốỐộỘơƠờỜởỞỡỠớỚợỢpPqQrRsStTuUùÙủỦũŨúÚụỤưƯừỪửỬữỮứỨựỰvVwWxXyYỳỲỷỶỹỸýÝỵỴzZ0123456789!"#$%&'()*+,-./:;<=>?@[]^_`{|}~''')
|
| 173 |
+
else:
|
| 174 |
+
chars = list(
|
| 175 |
+
'''aAbBcCdDeEfFgGhHiIjJkKlLmMnNoOpPqQrRsStTuUvVwWxXyYzZ0123456789,;.!?:'"/\_@#$%^&*~`+-=<>()[]{|}''')
|
| 176 |
+
|
| 177 |
+
for char in chars:
|
| 178 |
+
if char not in self.chartoken2idx:
|
| 179 |
+
idx = len(self.chartoken2idx)
|
| 180 |
+
self.chartoken2idx[char] = idx
|
| 181 |
+
self.idx2chartoken[idx] = char
|
| 182 |
+
|
| 183 |
+
print(f"number of unique chars found: {len(self.chartoken2idx)}")
|
| 184 |
+
|
| 185 |
+
self.vocab_dict["chartoken2idx"] = self.chartoken2idx
|
| 186 |
+
self.vocab_dict["idx2chartoken"] = self.idx2chartoken
|
| 187 |
+
|
| 188 |
+
|
models/__init__.py
ADDED
|
File without changes
|
models/__pycache__/__init__.cpython-310.pyc
ADDED
|
Binary file (151 Bytes). View file
|
|
|
models/__pycache__/collator.cpython-310.pyc
ADDED
|
Binary file (2.72 kB). View file
|
|
|
models/__pycache__/corrector.cpython-310.pyc
ADDED
|
Binary file (5.21 kB). View file
|
|
|
models/__pycache__/model.cpython-310.pyc
ADDED
|
Binary file (1.07 kB). View file
|
|
|
models/__pycache__/sampler.cpython-310.pyc
ADDED
|
Binary file (3.83 kB). View file
|
|
|
models/__pycache__/tokenizer.cpython-310.pyc
ADDED
|
Binary file (2.56 kB). View file
|
|
|
models/__pycache__/transformer.cpython-310.pyc
ADDED
|
Binary file (2.29 kB). View file
|
|
|
models/__pycache__/util.cpython-310.pyc
ADDED
|
Binary file (1.48 kB). View file
|
|
|
models/collator.py
ADDED
|
@@ -0,0 +1,78 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
|
| 2 |
+
from abc import abstractmethod
|
| 3 |
+
from models.tokenizer import TokenAligner
|
| 4 |
+
|
| 5 |
+
class PTCollator():
|
| 6 |
+
|
| 7 |
+
def __init__(self, tokenAligner: TokenAligner):
|
| 8 |
+
self.tokenAligner = tokenAligner
|
| 9 |
+
|
| 10 |
+
def collate(self, dataloader_batch, type = "train") -> dict:
|
| 11 |
+
if type == "train":
|
| 12 |
+
return self.collate_train(dataloader_batch)
|
| 13 |
+
elif type == "test":
|
| 14 |
+
return self.collate_test(dataloader_batch)
|
| 15 |
+
elif type == "correct":
|
| 16 |
+
return self.collate_correct(dataloader_batch)
|
| 17 |
+
|
| 18 |
+
@abstractmethod
|
| 19 |
+
def collate_train(self, dataloader_batch):
|
| 20 |
+
|
| 21 |
+
pass
|
| 22 |
+
|
| 23 |
+
@abstractmethod
|
| 24 |
+
def collate_test(self, dataloader_batch):
|
| 25 |
+
pass
|
| 26 |
+
|
| 27 |
+
|
| 28 |
+
@abstractmethod
|
| 29 |
+
def collate_correct(self, dataloader_batch):
|
| 30 |
+
pass
|
| 31 |
+
|
| 32 |
+
class DataCollatorForCharacterTransformer(PTCollator):
|
| 33 |
+
|
| 34 |
+
def __init__(self, tokenAligner: TokenAligner):
|
| 35 |
+
super().__init__(tokenAligner)
|
| 36 |
+
|
| 37 |
+
def collate_train(self, dataloader_batch):
|
| 38 |
+
noised, labels = [], []
|
| 39 |
+
for sample in dataloader_batch:
|
| 40 |
+
labels.append(sample[0])
|
| 41 |
+
noised.append(sample[1])
|
| 42 |
+
|
| 43 |
+
batch_srcs, batch_tgts, batch_lengths, batch_attention_masks = self.tokenAligner.tokenize_for_transformer_with_tokenization(noised, labels)
|
| 44 |
+
data = dict()
|
| 45 |
+
data['batch_src'] = batch_srcs
|
| 46 |
+
data['batch_tgt'] = batch_tgts
|
| 47 |
+
data['attn_masks'] = batch_attention_masks
|
| 48 |
+
data['lengths'] = batch_lengths
|
| 49 |
+
return data
|
| 50 |
+
|
| 51 |
+
def collate_test(self, dataloader_batch):
|
| 52 |
+
noised, labels = [], []
|
| 53 |
+
for sample in dataloader_batch:
|
| 54 |
+
labels.append(sample[0])
|
| 55 |
+
noised.append(sample[1])
|
| 56 |
+
|
| 57 |
+
batch_srcs, batch_attention_masks = self.tokenAligner.tokenize_for_transformer_with_tokenization(noised, None)
|
| 58 |
+
data = dict()
|
| 59 |
+
data['batch_src'] = batch_srcs
|
| 60 |
+
data['noised_texts'] = noised
|
| 61 |
+
data['label_texts'] = labels
|
| 62 |
+
data['attn_masks'] = batch_attention_masks
|
| 63 |
+
return data
|
| 64 |
+
|
| 65 |
+
def collate_correct(self, dataloader_batch):
|
| 66 |
+
noised, labels = [], []
|
| 67 |
+
for sample in dataloader_batch:
|
| 68 |
+
noised.append(sample[1])
|
| 69 |
+
|
| 70 |
+
batch_srcs, batch_attention_masks= self.tokenAligner.tokenize_for_transformer_with_tokenization(noised)
|
| 71 |
+
|
| 72 |
+
data = dict()
|
| 73 |
+
data['batch_src'] = batch_srcs
|
| 74 |
+
data['noised_texts'] = noised
|
| 75 |
+
data['attn_masks'] = batch_attention_masks
|
| 76 |
+
return data
|
| 77 |
+
|
| 78 |
+
|
models/corrector.py
ADDED
|
@@ -0,0 +1,170 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
import torch
|
| 2 |
+
import time
|
| 3 |
+
|
| 4 |
+
from torch.utils.data import DataLoader
|
| 5 |
+
from datetime import datetime as dt
|
| 6 |
+
from params import *
|
| 7 |
+
from models.model import ModelWrapper
|
| 8 |
+
from utils.metrics import get_mned_metric_from_TruePredict, get_metric_from_TrueWrongPredictV3
|
| 9 |
+
from utils.logger import get_logger
|
| 10 |
+
from models.sampler import RandomBatchSampler, BucketBatchSampler
|
| 11 |
+
from termcolor import colored
|
| 12 |
+
import re
|
| 13 |
+
|
| 14 |
+
class Corrector:
|
| 15 |
+
def __init__(self, model_wrapper: ModelWrapper):
|
| 16 |
+
self.model_name = model_wrapper.model_name
|
| 17 |
+
self.model = model_wrapper.model
|
| 18 |
+
self.model_wrapper = model_wrapper
|
| 19 |
+
self.logger = get_logger("./log/test.log")
|
| 20 |
+
|
| 21 |
+
self.device = DEVICE
|
| 22 |
+
|
| 23 |
+
self.model.to(self.device)
|
| 24 |
+
self.logger.log(f"Device: {self.device}")
|
| 25 |
+
self.logger.log("Loaded model")
|
| 26 |
+
|
| 27 |
+
def correct_transfomer_with_tr(self, batch, num_beams = 2):
|
| 28 |
+
correction = dict()
|
| 29 |
+
original = batch
|
| 30 |
+
splits = re.findall("\w\S+\w|\w+|[^\w\s]{1}", batch)
|
| 31 |
+
batch = " ".join(splits)
|
| 32 |
+
with torch.no_grad():
|
| 33 |
+
self.model.eval()
|
| 34 |
+
batch_infer_start = time.time()
|
| 35 |
+
batch = self.model_wrapper.collator.collate([[None, batch,None, None]], type = "correct")
|
| 36 |
+
|
| 37 |
+
result = self.model.inference(batch['batch_src'], num_beams = num_beams,
|
| 38 |
+
tokenAligner=self.model_wrapper.collator.tokenAligner)
|
| 39 |
+
correction['predict_text'] = result
|
| 40 |
+
correction['noised_text'] = batch['noised_texts']
|
| 41 |
+
correction['original_text'] = original
|
| 42 |
+
|
| 43 |
+
total_infer_time = time.time() - batch_infer_start
|
| 44 |
+
correction['time'] = total_infer_time
|
| 45 |
+
|
| 46 |
+
t = re.sub(r"(\s*)([.,:?!;]{1})(\s*)", r"\2\3", correction['predict_text'][0])
|
| 47 |
+
t = re.sub(r"((?P<parenthesis>\()\s)", r"\g<parenthesis>", t)
|
| 48 |
+
t = re.sub(r"(\s(?P<parenthesis>\)))", r"\g<parenthesis>", t)
|
| 49 |
+
t = re.sub(r"((?P<bracket>\[)\s)", r"\g<bracket>", t)
|
| 50 |
+
t = re.sub(r"(\s(?P<bracket>\]))", r"\g<bracket>", t)
|
| 51 |
+
t = re.sub(r"([\'\"])\s(.*)\s([\'\"])", r"\1\2\3", t)
|
| 52 |
+
correction['predict_text']= re.sub(r"\s(%)", "%", t)
|
| 53 |
+
return correction
|
| 54 |
+
|
| 55 |
+
def _get_transfomer_with_tr_generations(self, batch, num_beams = 2):
|
| 56 |
+
correction = dict()
|
| 57 |
+
with torch.no_grad():
|
| 58 |
+
self.model.eval()
|
| 59 |
+
batch_infer_start = time.time()
|
| 60 |
+
|
| 61 |
+
result = self.model.inference(batch['batch_src'], num_beams = num_beams,
|
| 62 |
+
tokenAligner=self.model_wrapper.collator.tokenAligner)
|
| 63 |
+
|
| 64 |
+
correction['predict_text'] = result
|
| 65 |
+
correction['noised_text'] = batch['noised_texts']
|
| 66 |
+
|
| 67 |
+
total_infer_time = time.time() - batch_infer_start
|
| 68 |
+
correction['time'] = total_infer_time
|
| 69 |
+
|
| 70 |
+
return correction
|
| 71 |
+
|
| 72 |
+
def step(self, batch, num_beams = 2):
|
| 73 |
+
outputs= self._get_transfomer_with_tr_generations(batch, num_beams)
|
| 74 |
+
batch_predictions = outputs['predict_text']
|
| 75 |
+
batch_label_texts = batch['label_texts']
|
| 76 |
+
batch_noised_texts = batch['noised_texts']
|
| 77 |
+
|
| 78 |
+
return batch_predictions, batch_noised_texts, batch_label_texts
|
| 79 |
+
|
| 80 |
+
def _evaluation_loop_autoregressive(self, data_loader, num_beams = 2):
|
| 81 |
+
TP, FP, FN = 0, 0, 0
|
| 82 |
+
MNED = 0.0
|
| 83 |
+
O_MNED = 0.0
|
| 84 |
+
total_infer_time = 0.0
|
| 85 |
+
twp_logger = get_logger(f"./log/true_wrong_predict{time.time()}.log")
|
| 86 |
+
with torch.no_grad():
|
| 87 |
+
|
| 88 |
+
self.model.eval()
|
| 89 |
+
|
| 90 |
+
for step, batch in enumerate(data_loader):
|
| 91 |
+
|
| 92 |
+
batch_infer_start = time.time()
|
| 93 |
+
|
| 94 |
+
batch_predictions, batch_noised_texts, batch_label_texts = \
|
| 95 |
+
self.step(batch, num_beams = num_beams)
|
| 96 |
+
|
| 97 |
+
batch_infer_time = time.time() - batch_infer_start
|
| 98 |
+
|
| 99 |
+
_TP, _FP, _FN = get_metric_from_TrueWrongPredictV3(batch_label_texts, batch_noised_texts, batch_predictions, self.model_wrapper.tokenAligner.vocab, twp_logger)
|
| 100 |
+
|
| 101 |
+
TP += _TP
|
| 102 |
+
FP += _FP
|
| 103 |
+
FN += _FN
|
| 104 |
+
|
| 105 |
+
_MNED = get_mned_metric_from_TruePredict(batch_label_texts, batch_predictions)
|
| 106 |
+
MNED += _MNED
|
| 107 |
+
|
| 108 |
+
_O_MNED = get_mned_metric_from_TruePredict(batch_label_texts, batch_noised_texts)
|
| 109 |
+
O_MNED += _O_MNED
|
| 110 |
+
|
| 111 |
+
info = '{} - Evaluate - iter: {:08d}/{:08d} - TP: {} - FP: {} - FN: {} - _MNED: {:.5f} - _O_MNED: {:.5f} - {} time: {:.2f}s'.format(
|
| 112 |
+
dt.now(),
|
| 113 |
+
step,
|
| 114 |
+
self.test_iters,
|
| 115 |
+
_TP,
|
| 116 |
+
_FP,
|
| 117 |
+
_FN,
|
| 118 |
+
_MNED,
|
| 119 |
+
_O_MNED,
|
| 120 |
+
self.device,
|
| 121 |
+
batch_infer_time)
|
| 122 |
+
|
| 123 |
+
self.logger.log(info)
|
| 124 |
+
|
| 125 |
+
torch.cuda.empty_cache()
|
| 126 |
+
total_infer_time += time.time() - batch_infer_start
|
| 127 |
+
return total_infer_time, TP, FP, FN, MNED / len(data_loader), O_MNED / len(data_loader)
|
| 128 |
+
|
| 129 |
+
def evaluate(self, dataset, beams: int = None):
|
| 130 |
+
|
| 131 |
+
def test_collate_wrapper(batch):
|
| 132 |
+
return self.model_wrapper.collator.collate(batch, type = "test")
|
| 133 |
+
|
| 134 |
+
if not BUCKET_SAMPLING:
|
| 135 |
+
self.test_sampler = RandomBatchSampler(dataset, VALID_BATCH_SIZE, shuffle = False)
|
| 136 |
+
else:
|
| 137 |
+
self.test_sampler = BucketBatchSampler(dataset, shuffle = True)
|
| 138 |
+
|
| 139 |
+
data_loader = DataLoader(dataset=dataset,batch_sampler= self.test_sampler,\
|
| 140 |
+
collate_fn=test_collate_wrapper)
|
| 141 |
+
|
| 142 |
+
self.test_iters = len(data_loader)
|
| 143 |
+
|
| 144 |
+
assert beams != None
|
| 145 |
+
total_infer_time, TP, FP, FN, MNED, O_MNED = self._evaluation_loop_autoregressive(data_loader, num_beams = beams)
|
| 146 |
+
|
| 147 |
+
|
| 148 |
+
self.logger.log("Total inference time for this data is: {:4f} secs".format(total_infer_time))
|
| 149 |
+
self.logger.log("###############################################")
|
| 150 |
+
|
| 151 |
+
info = f"Metrics for Auto-Regressive with Beam Search number {beams}"
|
| 152 |
+
self.logger.log(colored(info, "green"))
|
| 153 |
+
|
| 154 |
+
dc_TP = TP
|
| 155 |
+
dc_FP = FP
|
| 156 |
+
dc_FN = FN
|
| 157 |
+
|
| 158 |
+
dc_precision = dc_TP / (dc_TP + dc_FP)
|
| 159 |
+
dc_recall = dc_TP / (dc_TP + dc_FN)
|
| 160 |
+
dc_F1 = 2. * dc_precision * dc_recall/ ((dc_precision + dc_recall) + 1e-8)
|
| 161 |
+
|
| 162 |
+
self.logger.log(f"TP: {TP}. FP: {FP}. FN: {FN}")
|
| 163 |
+
|
| 164 |
+
self.logger.log(f"Precision: {dc_precision}")
|
| 165 |
+
self.logger.log(f"Recall: {dc_recall}")
|
| 166 |
+
self.logger.log(f"F1: {dc_F1}")
|
| 167 |
+
self.logger.log(f"MNED: {MNED}")
|
| 168 |
+
self.logger.log(f"O_MNED: {O_MNED}")
|
| 169 |
+
|
| 170 |
+
return
|
models/model.py
ADDED
|
@@ -0,0 +1,22 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
from models.transformer import TransformerWithTR
|
| 2 |
+
from models.collator import *
|
| 3 |
+
from transformers import AutoTokenizer
|
| 4 |
+
import transformers
|
| 5 |
+
from models.tokenizer import TokenAligner
|
| 6 |
+
from dataset.vocab import Vocab
|
| 7 |
+
|
| 8 |
+
class ModelWrapper:
|
| 9 |
+
|
| 10 |
+
def __init__(self, model, vocab: Vocab):
|
| 11 |
+
self.model_name = model
|
| 12 |
+
|
| 13 |
+
if model == "tfmwtr":
|
| 14 |
+
self.tokenizer = AutoTokenizer.from_pretrained("vinai/bartpho-word-base")
|
| 15 |
+
self.tokenAligner = TokenAligner(self.tokenizer, vocab)
|
| 16 |
+
self.bart = transformers.MBartForConditionalGeneration.from_pretrained("vinai/bartpho-word-base")
|
| 17 |
+
self.model = TransformerWithTR(self.bart, self.tokenizer.pad_token_id)
|
| 18 |
+
self.collator = DataCollatorForCharacterTransformer(self.tokenAligner)
|
| 19 |
+
# self.model.resize_token_embeddings(self.tokenAligner)
|
| 20 |
+
else:
|
| 21 |
+
raise(Exception(f"Model {model} isn't implemented!"))
|
| 22 |
+
|
models/sampler.py
ADDED
|
@@ -0,0 +1,99 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
from torch.utils.data.dataloader import Sampler
|
| 2 |
+
import sys
|
| 3 |
+
sys.path.append("..")
|
| 4 |
+
from dataset.autocorrect_dataset import SpellCorrectDataset
|
| 5 |
+
import numpy as np
|
| 6 |
+
from params import RANDOM_SEED, MAXIMUM_TOKENS_PER_BATCH
|
| 7 |
+
import copy
|
| 8 |
+
from tqdm import tqdm
|
| 9 |
+
import time
|
| 10 |
+
|
| 11 |
+
class RandomBatchSampler(Sampler):
|
| 12 |
+
def __init__(self, data: SpellCorrectDataset, batch_size = 1, shuffle = True):
|
| 13 |
+
self.data = data
|
| 14 |
+
self.seq = list(range(0, len(self.data)))
|
| 15 |
+
self.shuffle = shuffle
|
| 16 |
+
self.iters = 0
|
| 17 |
+
self.batch_size = batch_size
|
| 18 |
+
if self.shuffle:
|
| 19 |
+
np.random.seed(RANDOM_SEED)
|
| 20 |
+
np.random.shuffle(self.seq)
|
| 21 |
+
self.seq = [ self.seq[index: index + self.batch_size] \
|
| 22 |
+
for index in range(self.iters, len(self.seq), self.batch_size)]
|
| 23 |
+
self.default_seq = copy.deepcopy(self.seq)
|
| 24 |
+
|
| 25 |
+
def __iter__(self):
|
| 26 |
+
return iter(self.seq)
|
| 27 |
+
|
| 28 |
+
def __len__(self):
|
| 29 |
+
return len(self.seq)
|
| 30 |
+
|
| 31 |
+
def load_checkpoints(self, iters = 0):
|
| 32 |
+
self.seq = list(range(0, len(self.data)))
|
| 33 |
+
if self.shuffle:
|
| 34 |
+
np.random.seed(RANDOM_SEED)
|
| 35 |
+
np.random.shuffle(self.seq)
|
| 36 |
+
self.iters = iters
|
| 37 |
+
self.seq = [ self.seq[index: index + self.batch_size] \
|
| 38 |
+
for index in range(self.iters, len(self.seq), self.batch_size)]
|
| 39 |
+
|
| 40 |
+
class BucketBatchSampler(Sampler):
|
| 41 |
+
def __init__(self, data: SpellCorrectDataset, shuffle = True):
|
| 42 |
+
start = time.time()
|
| 43 |
+
self.remained_indies = None
|
| 44 |
+
self.data = data
|
| 45 |
+
self.shuffle = shuffle
|
| 46 |
+
print("Initializing Bucket Batch Sampler From Scratch")
|
| 47 |
+
self.data.dataset = sorted(self.data.dataset, key = lambda x: x[2])
|
| 48 |
+
token_counts = 0
|
| 49 |
+
indies_lists = []
|
| 50 |
+
self.seq = []
|
| 51 |
+
for index, values in tqdm(enumerate(self.data.dataset)):
|
| 52 |
+
if token_counts >= MAXIMUM_TOKENS_PER_BATCH:
|
| 53 |
+
self.seq.append(indies_lists)
|
| 54 |
+
indies_lists = []
|
| 55 |
+
token_counts = 0
|
| 56 |
+
indies_lists.append(index)
|
| 57 |
+
token_counts += values[2]
|
| 58 |
+
if len(indies_lists) != 0 and token_counts != 0:
|
| 59 |
+
self.seq.append(indies_lists)
|
| 60 |
+
|
| 61 |
+
if shuffle:
|
| 62 |
+
np.random.seed(RANDOM_SEED)
|
| 63 |
+
np.random.shuffle(self.seq)
|
| 64 |
+
end = time.time()
|
| 65 |
+
print(f"Initialized Bucket Batch Sampler From Scratch: {end - start}")
|
| 66 |
+
self.default_seq = copy.deepcopy(self.seq)
|
| 67 |
+
|
| 68 |
+
def __iter__(self):
|
| 69 |
+
return iter(self.seq)
|
| 70 |
+
|
| 71 |
+
def __len__(self):
|
| 72 |
+
return len(self.seq)
|
| 73 |
+
|
| 74 |
+
def load_checkpoints(self, remained_indies):
|
| 75 |
+
start = time.time()
|
| 76 |
+
print("Loading Bucket Batch Sampler From Checkpoint")
|
| 77 |
+
remained_indies = sorted(remained_indies)
|
| 78 |
+
token_counts = 0
|
| 79 |
+
indies_lists = []
|
| 80 |
+
self.seq = []
|
| 81 |
+
for index in tqdm(remained_indies):
|
| 82 |
+
values = self.data.dataset[index]
|
| 83 |
+
if token_counts >= MAXIMUM_TOKENS_PER_BATCH:
|
| 84 |
+
self.seq.append(indies_lists)
|
| 85 |
+
indies_lists = []
|
| 86 |
+
token_counts = 0
|
| 87 |
+
indies_lists.append(index)
|
| 88 |
+
token_counts += values[2]
|
| 89 |
+
|
| 90 |
+
if len(indies_lists) != 0 and token_counts != 0:
|
| 91 |
+
self.seq.append(indies_lists)
|
| 92 |
+
|
| 93 |
+
if self.shuffle:
|
| 94 |
+
np.random.seed(RANDOM_SEED)
|
| 95 |
+
np.random.shuffle(self.seq)
|
| 96 |
+
end = time.time()
|
| 97 |
+
print(f"Loaded Bucket Batch Sampler From Checkpoint: {end - start}")
|
| 98 |
+
|
| 99 |
+
|
models/tokenizer.py
ADDED
|
@@ -0,0 +1,55 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
import sys
|
| 2 |
+
sys.path.append("..")
|
| 3 |
+
from dataset.vocab import Vocab
|
| 4 |
+
from torch.nn.utils.rnn import pad_sequence
|
| 5 |
+
from transformers import AutoTokenizer
|
| 6 |
+
|
| 7 |
+
|
| 8 |
+
class TokenAligner():
|
| 9 |
+
def __init__(self, tokenizer: AutoTokenizer, vocab: Vocab):
|
| 10 |
+
self.tokenizer = tokenizer
|
| 11 |
+
self.vocab = vocab
|
| 12 |
+
|
| 13 |
+
"""
|
| 14 |
+
params:
|
| 15 |
+
text ---- str
|
| 16 |
+
"""
|
| 17 |
+
def _char_tokenize(self, text):
|
| 18 |
+
characters = list(text)
|
| 19 |
+
tokens = [ token + "@@" if i < len(characters) - 1 and characters[i + 1] != " " else token for i, token in enumerate(characters)]
|
| 20 |
+
tokens = [token for token in tokens if token not in [" @@", " "]]
|
| 21 |
+
encoded = self.tokenizer.encode_plus(tokens, return_tensors = "pt")
|
| 22 |
+
token_ids = encoded['input_ids'].squeeze(0)
|
| 23 |
+
attn_mask = encoded['attention_mask'].squeeze(0)
|
| 24 |
+
return tokens, token_ids, attn_mask
|
| 25 |
+
|
| 26 |
+
def char_tokenize(self, batch_texts):
|
| 27 |
+
doc = dict()
|
| 28 |
+
doc['tokens'] = []
|
| 29 |
+
doc['token_ids'] = []
|
| 30 |
+
doc['attention_mask'] = []
|
| 31 |
+
for text in batch_texts:
|
| 32 |
+
tokens, token_ids, attn_mask = self._char_tokenize(text)
|
| 33 |
+
doc['tokens'].append(tokens)
|
| 34 |
+
doc['token_ids'].append(token_ids)
|
| 35 |
+
doc['attention_mask'].append(attn_mask)
|
| 36 |
+
return doc
|
| 37 |
+
|
| 38 |
+
def tokenize_for_transformer_with_tokenization(self, batch_noised_text, batch_label_texts = None):
|
| 39 |
+
docs = self.char_tokenize(batch_noised_text)
|
| 40 |
+
batch_srcs = docs['token_ids']
|
| 41 |
+
batch_attention_masks = docs['attention_mask']
|
| 42 |
+
|
| 43 |
+
batch_attention_masks = pad_sequence(batch_attention_masks ,
|
| 44 |
+
batch_first=True, padding_value=0)
|
| 45 |
+
|
| 46 |
+
batch_srcs = pad_sequence(batch_srcs ,
|
| 47 |
+
batch_first=True, padding_value=self.tokenizer.pad_token_id)
|
| 48 |
+
|
| 49 |
+
if batch_label_texts != None:
|
| 50 |
+
batch_lengths = [len(self.tokenizer.tokenize(text)) for text in batch_label_texts]
|
| 51 |
+
batch_tgts = self.tokenizer.batch_encode_plus(batch_label_texts, max_length = 512,
|
| 52 |
+
truncation = True, padding=True, return_tensors="pt")['input_ids']
|
| 53 |
+
return batch_srcs, batch_tgts, batch_lengths, batch_attention_masks
|
| 54 |
+
|
| 55 |
+
return batch_srcs, batch_attention_masks
|