到位的一个同学的问题。
在台湾某学术网站,下载中/英等学术性pdf,里面都是专业的中英文翻译。所以目的就是通过相关数据处理,提取所有pdf内容,对中英文文档进行对比。

liuyuqi-dellpc 8da7e420fd 设置jdk1.8 7 years ago
data d513412b38 go on 7 years ago
java 92bebdb4b0 go on 7 years ago
output 92bebdb4b0 go on 7 years ago
python 8da7e420fd 设置jdk1.8 7 years ago
.classpath 8da7e420fd 设置jdk1.8 7 years ago
.gitignore d513412b38 go on 7 years ago
.project d513412b38 go on 7 years ago
.pydevproject d513412b38 go on 7 years ago
pom.xml ca15d9768c 完成 pdf批量转换为txt 7 years ago
readme.md d513412b38 go on 7 years ago

readme.md

到位的一个同学的问题

在台湾某学术网站,下载中/英等学术性pdf,里面都是专业的中英文翻译。所以目的就是通过相关数据处理,提取所有pdf内容,对中英文文档进行对比。甚至可以通过机器学习,让机器更好的翻译,而不是人工对每篇文章都提供中英文文档。

解决问题:

  • 1、部署爬虫,网站批量下载文档。
  • 2、批量读取所有pdf文档,对文档每一句进行划分,随机提取100条句子。

使用:

java 代码实现

1、pdf文件读取(python包很不成熟,试过几个一些pdf会出现异常),
2、去除空格
3、去除中文字符

python 代码实现

分句
分词
  • 1、clone代码
  • 2、设置main.java中的项目目录,输出文件。
  • 3、运行main代码即可。