博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
自然语言交流系统 phxnet团队 创新实训 个人博客 (十四)
阅读量:6733 次
发布时间:2019-06-25

本文共 2010 字,大约阅读时间需要 6 分钟。

 

关于的学习笔记:

 

WikiExtractor是一个Python 脚本,专门用于提取和清洗Wikipedia的dump数据,支持Python 2.7 或者 Python 3.3+,无额外依赖,安装和使用都非常方便:

安装:

git clone https://github.com/attardi/wikiextractor.git
cd wikiextractor/
sudo python setup.py install

使用:

WikiExtractor.py -o enwiki enwiki-latest-pages-articles.xml.bz2
......INFO: 53665431  PampapaulINFO: 53665433  Charles Frederick ZimpelINFO: Finished 11-process extraction of 5375019 articles in 8363.5s (642.7 art/s)

这个过程总计花了2个多小时,提取了大概537万多篇文章。关于我的机器配置,可参考:《》

提取后的文件按一定顺序切分存储在多个子目录下:

每个子目录下的又存放若干个以wiki_num命名的文件,每个大小在1M左右,这个大小可以通过参数 -b 控制:

-b n[KMG], --bytes n[KMG] maximum bytes per output file (default 1M)

我们看一下wiki_00里的具体内容:

<doc id="12" url="https://en.wikipedia.org/wiki?curid=12" title="Anarchism">
Anarchism
Anarchism is a political philosophy that advocates self-governed societies based on voluntary institutions. These are often described as stateless societies, although several authors have defined them more specifically as institutions based on non-hierarchical free associations. Anarchism holds the state to be undesirable, unnecessary, and harmful.
...
Criticisms of anarchism include moral criticisms and pragmatic criticisms. Anarchism is often evaluated as unfeasible or utopian by its critics.
</doc>
<doc id="25" url="https://en.wikipedia.org/wiki?curid=25" title="Autism">
Autism
Autism is a neurodevelopmental disorder characterized by impaired social interaction, verbal and non-verbal communication, and restricted and repetitive behavior. Parents usually notice signs in the first two years of their child's life. These signs often develop gradually, though some children with autism reach their developmental milestones at a normal pace and then regress. The diagnostic criteria require that symptoms become apparent in early childhood, typically before age three.
...
</doc>
...

每个wiki_num文件里又存放若干个doc,每个doc都有相关的tag标记,包括id, url, title等,很好区分。

 

 

 

 

 

 

如果您愿意花几块钱请我喝杯茶的话,可以用手机扫描下方的二维码,通过 支付宝 捐赠。我会努力写出更好的文章。 

(捐赠不显示捐赠者的个人信息,如需要,请注明您的联系方式) 
Thank you for your kindly donation!!

 

 

 
 

 

转载地址:http://qofqo.baihongyu.com/

你可能感兴趣的文章
公有云盈利了 阿里Q3财报云服务抢眼!
查看>>
实现VDI灾难恢复的四种方式
查看>>
NetSarang的Xmanager和Xshell多种产品被植入后门 绿盟科技发布分析与防护方案
查看>>
Python开发者面向文档编程的正确姿势
查看>>
第二届中国制造千人会在上海胜利召开 创新驱动转型成共识
查看>>
数据分析就学他们!全球十大数据分析榜样企业
查看>>
一种确保Java程序安全的简单方式
查看>>
从程序员的角度谈创业三年的亲身体会
查看>>
深层学习是AI更像人类的关键
查看>>
天天在做大数据,你的时间都花在哪了
查看>>
Windows 10 内测版本已加入死机“绿屏”
查看>>
开源、SaaS和API,谁将成为最后的赢家?
查看>>
大数据利益相关者的利益矛盾及其伦理治理
查看>>
小小光纤承载尖端技术 “中国制造”引领行业标准
查看>>
借助OpenStack实现灵活部署!烽火构建云网一体化
查看>>
作为程序员,你最理想的公司是什么样的?
查看>>
思科37亿美元收购App性能优化初创公司
查看>>
黑马程序员----java基础--网络编程
查看>>
DDos攻击猛于虎!信息安全必须做出防虎之计
查看>>
只要这样做 老旧Windows服务器也能挡住黑客
查看>>