到位的一个同学的问题。
在台湾某学术网站,下载中/英等学术性pdf,里面都是专业的中英文翻译。所以目的就是通过相关数据处理,提取所有pdf内容,对中英文文档进行对比。
liuyuqi-dellpc 8da7e420fd 设置jdk1.8 | 7 years ago | |
---|---|---|
data | 7 years ago | |
java | 7 years ago | |
output | 7 years ago | |
python | 7 years ago | |
.classpath | 7 years ago | |
.gitignore | 7 years ago | |
.project | 7 years ago | |
.pydevproject | 7 years ago | |
pom.xml | 7 years ago | |
readme.md | 7 years ago |
在台湾某学术网站,下载中/英等学术性pdf,里面都是专业的中英文翻译。所以目的就是通过相关数据处理,提取所有pdf内容,对中英文文档进行对比。甚至可以通过机器学习,让机器更好的翻译,而不是人工对每篇文章都提供中英文文档。
java 代码实现
1、pdf文件读取(python包很不成熟,试过几个一些pdf会出现异常),
2、去除空格
3、去除中文字符
python 代码实现
分句
分词