lyq/PDFOperation: 到位的一个同学的问题。在台湾某学术网站，下载中/英等学术性pdf，里面都是专业的中英文翻译。所以目的就是通过相关数据处理，提取所有pdf内容，对中英文文档进行对比。

到位的一个同学的问题。
在台湾某学术网站，下载中/英等学术性pdf，里面都是专业的中英文翻译。所以目的就是通过相关数据处理，提取所有pdf内容，对中英文文档进行对比。

到位的一个同学的问题

在台湾某学术网站，下载中/英等学术性pdf，里面都是专业的中英文翻译。所以目的就是通过相关数据处理，提取所有pdf内容，对中英文文档进行对比。甚至可以通过机器学习，让机器更好的翻译，而不是人工对每篇文章都提供中英文文档。

java 代码实现

1、pdf文件读取（python包很不成熟，试过几个一些pdf会出现异常），
2、去除空格
3、去除中文字符

python 代码实现

分句
分词