对豆瓣电视剧中的指定电视剧页面的短评进行爬取,并存储为txt文件,爬取程序采用scrapy框架进行爬虫。将爬取短评分类为1星2星差评和4星5星好评。对爬取后的短评进行关键词分析
需要安装scrapy框架进行爬虫分析,以及gensim进行LDA分析
该文件实现的是Scrapy框架爬虫的自动化爬虫,命令行输入scrapy autodouban即可进行短评爬虫
豆瓣影评的LDA方法关键词分析
用于获取京东商品短评
修改待爬取电视剧的影评页面需要修改url
start_urls = ['https://movie.douban.com/subject/26801052/comments?start=0&limit=20&sort=new_score&status=P']