Skip to content

purequant/GlossaryGenerator

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

主要目的是配合英语学习的透析阅读法使用,什么叫透析阅读法请自行搜索。

程序很短,简单地说,就是:

  1. 读取一本小说的文本,干掉复数、时态这些东西,得到一本小说的词汇表;
  2. 和美国当代英语语料库COCA20000词频表对比,去掉特别高频的词和不常用的词,生成你可能不认识的词表。

生词表生成后可导入欧陆词典一类的app,快速预习一下,可以大幅提升阅读原版书籍时的体验。

用Jupyter Notebook写的,解释和可调参数也都在里面,请自行点开generator.ipynb阅读使用。 运行前请先安装nltk和textract库。

目前支持:

  • txt
  • pdf(文字版)
  • epub
  • doc/docx
  • csv
  • xls
  • xlsx

非txt文件花的时间会久一点,对其他格式的支持不一定好,我没有测试特别多文件。

About

英文原版书生词本生成器

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages

  • Jupyter Notebook 100.0%