爱问知识人 爱问教育 医院库

word2vec中中文训练集训练成了英文是怎么回?

首页

word2vec中中文训练集训练成了英文是怎么回?

word2vec中中文训练集训练成了英文是怎么回事

提交回答

全部答案

    2016-07-31 08:01:59
  •   准备工作为了训练语料库,当然需要去下载。英文wiki语料库(11。9G) 中文wiki语料库(1。2G)然后就是准备好编译环境,语言选择的是python,使用了gensim的库,该库是由Radim Řehůřek博士基于google发布的C语言版本的word2vec编写的Python库。
      如何安装该库就不多说了。处理流程1、英文wiki训练首先需要将xml的文件转换成txt文件,主要通过process_wiki。py这个脚本来进行,在参考文考网页中提出了注意“wiki = WikiCorpus(inp, lemmatize=False, dictionary={})“将lemmatize设置为False避免使用Pattern来讲英文单词词干化处理,以免变得很慢,于是就华丽丽的接受。
      整个过程大概用了5个小时左右,共有差不多400W的articles。执行命令为:python3 process_wiki。py enwiki-latest-pages-articles。xml。bz2 wiki。en。text生成了wiki。
      en。text,生成的效果如下:文/howe_howe(简书作者)原文链接:http://www。jianshu。com/p/05800a28c5e4著作权归作者所有,转载请联系作者获得授权,并标注“简书作者”。

    梦***

    2016-07-31 08:01:59

类似问题

换一换
  • 办公软件 相关知识

  • 电脑网络技术
  • 电脑网络

相关推荐

正在加载...
最新问答 推荐信息 热门专题 热点推荐
  • 1-20
  • 21-40
  • 41-60
  • 61-80
  • 81-100
  • 101-120
  • 121-140
  • 141-160
  • 161-180
  • 181-200
  • 1-20
  • 21-40
  • 41-60
  • 61-80
  • 81-100
  • 101-120
  • 121-140
  • 141-160
  • 161-180
  • 181-200
  • 1-20
  • 21-40
  • 41-60
  • 61-80
  • 81-100
  • 101-120
  • 121-140
  • 141-160
  • 161-180
  • 181-200
  • 1-20
  • 21-40
  • 41-60
  • 61-80
  • 81-100
  • 101-120
  • 121-140
  • 141-160
  • 161-180
  • 181-200

热点检索

  • 1-20
  • 21-40
  • 41-60
  • 61-80
  • 81-100
  • 101-120
  • 121-140
  • 141-160
  • 161-180
  • 181-200
返回
顶部
帮助 意见
反馈

确定举报此问题

举报原因(必选):