8 years ago · c27b0dc015
--- a/.gitignore
+++ b/.gitignore
@@ -0,0 +1,2 @@
 
				+/bin/
			
 
				+/target/
			
--- a/readme.md
+++ b/readme.md
@@ -0,0 +1,6 @@
 
				+到位的一个同学的问题。
			
 
				+	在台湾某学术网站，下载中/英等学术性pdf，里面都是专业的中英文翻译。所以目的就是通过相关数据处理，提取所有pdf内容，对中英文文档进行对比。甚至可以通过机器学习，让机器更好的翻译，而不是人工对每篇文章都提供中英文文档。
			
 
				+
			
 
				+解决问题：
			
 
				+1、部署爬虫，网站批量下载文档。
			
 
				+2、批量读取所有pdf文档，对文档每一句进行划分，随机提取100条句子。