Browse Source

添加readme

liuyuqi-dellpc 7 years ago
parent
commit
c27b0dc015
2 changed files with 8 additions and 0 deletions
  1. 2 0
      .gitignore
  2. 6 0
      readme.md

+ 2 - 0
.gitignore

@@ -0,0 +1,2 @@
+/bin/
+/target/

+ 6 - 0
readme.md

@@ -0,0 +1,6 @@
+到位的一个同学的问题。
+	在台湾某学术网站,下载中/英等学术性pdf,里面都是专业的中英文翻译。所以目的就是通过相关数据处理,提取所有pdf内容,对中英文文档进行对比。甚至可以通过机器学习,让机器更好的翻译,而不是人工对每篇文章都提供中英文文档。
+
+解决问题:
+1、部署爬虫,网站批量下载文档。
+2、批量读取所有pdf文档,对文档每一句进行划分,随机提取100条句子。