Go to file
2019-12-21 12:30:20 +07:00
checkpoint daily push 2019-12-21 12:05:56 +07:00
data get accuracy 2019-12-17 17:16:50 +07:00
lm first commit 2019-11-09 12:05:35 +07:00
tools get accuracy 2019-12-20 16:29:35 +07:00
.gitignore first commit 2019-11-09 12:05:35 +07:00
analysis_data_test.py get accuracy 2019-12-20 16:29:35 +07:00
app_2.py cleaned code 2019-12-16 17:25:51 +07:00
app.py add edit distance 2019-11-29 11:40:44 +07:00
labels_log.txt get accuracy 2019-12-20 16:29:35 +07:00
labels_log2.txt get accuracy 2019-12-20 16:29:35 +07:00
labels_vinh.txt get accuracy 2019-12-20 16:29:35 +07:00
labels_vinh2.txt dtaa 2019-12-21 12:30:20 +07:00
loc_non.py get accuracy 2019-12-20 16:29:35 +07:00
main.py get accuracy 2019-12-20 16:29:35 +07:00
ordered_results2.txt get accuracy 2019-12-17 17:16:50 +07:00
ordered_results4_vinh.txt get accuracy 2019-12-20 16:29:35 +07:00
ordered_results4.txt filter non-word error 2019-12-18 17:40:11 +07:00
ordered_results5.txt filter non-word error 2019-12-18 17:40:11 +07:00
readme.md add read me 2019-12-10 11:24:28 +07:00
requirements.txt cleaned code 2019-12-16 17:25:51 +07:00
result.txt get accuracy 2019-12-20 16:29:35 +07:00
result1.txt get accuracy 2019-12-20 16:29:35 +07:00
return_top_5.py daily push 2019-12-21 12:05:56 +07:00
rl1.txt get accuracy 2019-12-20 16:29:35 +07:00
sandbox.py get accuracy 2019-12-20 16:29:35 +07:00
test_2.py dtaa 2019-12-21 12:30:20 +07:00

Giải thích

  • File từ điển: ./checkpoint/new_dictionary.txt
  • File 10000 câu (lấy 8240 lấy của m, với phần còn lại lấy từ file 2tr câu): ./data/data_test_v3/dataset_10000_v2.txt
  • File tính accuracy cũ là: test_2.py Run file này sẽ print ra "8239 6279 1960" (tổng số câu, số câu đúng, số câu sai)
  • Một số chức năng:
    • Hàm check English, số, chữ viết tắt nằm trong ./tools/check_number_english.py (gọi hàm để sử dụng)

Chú ý

  • Muốn chạy test_v2.py thì sửa path dẫn tới language model để chạy

Một vài kết quả test

Với tập test 8240 mẫu (ta chỉ quan tâm tới các từ ta đánh dấu nó là non-word error)

  • Với 4-grams: "6280 1960" (số câu đúng, số câu sai)
  • Với 3-grams: "5724 2515" (số câu đúng, số câu sai)
  • Với 2-grams: "4775 3464" (số câu đúng, số câu sai)