主要目的是配合英语学习的透析阅读法使用,什么叫透析阅读法请自行搜索。
程序很短,简单地说,就是:
- 读取一本小说的文本,干掉复数、时态这些东西,得到一本小说的词汇表;
- 和美国当代英语语料库COCA20000词频表对比,去掉特别高频的词和不常用的词,生成你可能不认识的词表。
生词表生成后可导入欧陆词典一类的app,快速预习一下,可以大幅提升阅读原版书籍时的体验。
用Jupyter Notebook写的,解释和可调参数也都在里面,请自行点开generator.ipynb阅读使用。 运行前请先安装nltk和textract库。
目前支持:
- txt
- pdf(文字版)
- epub
- doc/docx
- csv
- xls
- xlsx
非txt文件花的时间会久一点,对其他格式的支持不一定好,我没有测试特别多文件。