NLTK 基础教程用NLTK和Python库构建机器学习应用

 zhangy  2023-12-08 08:52:04  1110  6  0

 NLTK 基础教程用NLTK和Python库构建机器学习应用

PDF下载链接:https://pan.baidu.com/s/1k4Kz2ghlxNu73mSsGfC7AQ?pwd=6666 
提取码:6666

作者简介

Nitin Hardeniya 数据科学家,拥有 4 年以上从业经验,期间分别任职于 Fidelity、 Groupon 和[24]7 等公司,其业务横跨各个不同的领域。此外,他还拥有 IIIT-H 的计算语言 学硕士学位,并且是 5 项客户体验专利的作者。 他热衷于研究语言处理及大型非结构化数据,至少拥有 5 年日常使用 Python 的工作经 验。他相信,用 Python 可以构建出大部分与数据科学相关问题的单点解决方案。 他将自己写这本书的经历看成是自己职业生涯的众多荣誉之一,希望用一种非常简单 的形式为人们介绍与 NLP 和机器学习相关的、所有的这些复杂工具。在这本书中,他为读 者提供了一种变通方法,即使用一些相关特定能力的 Python 库,如 NLTK、scikit-learn、 panda 和 NumPy 等

审阅者简介

Afroz Hussain 数据科学家,目前在 PredictifyMe 公司从事与美国基础数据科学、机器 学习起步相关的研究。他在数据科学领域拥有丰富的项目经验、多年使用 Python、 scikit-learn,以及基于 NLTK 进行文本挖掘的工作经历。他拥有 10 年以上的编程经验以及 与数据分析和商业智能项目相关的软件开发经验。此外,他还通过在线课程以及参加 Kaggle 比赛等活动,获得了不少数据科学领域的新技能。 Sujit Pal 目前就职于 Elsevier 实验室,这是一个包含了 Reed-Elsevier PLC 工作组在内 的研发团队。他的兴趣主要集中在信息检索、分布式处理、本体开发、自然语言处理和机 器学习这几个领域。而且,他也很喜欢用 Python、Scala 和 Java 来编写自己的代码。他充 分整合了自己在这些方面的技能,帮助公司改进了不同产品的一些特性并构建了一些新特 性。他深信自己需要终身学习,并且也在博客:sujitpal.blogspot.com 中分享其经验。 Kumar Raj 第二代数据科学家,目前就职于惠普软件的研发部门,为其提供相关的 解决方案。在那里,他主要负责开发以惠普软件产品为核心的分析层。他毕业于印度理工 学院 Kharagpur 技术分校,并具有两年以上各种大数据分析领域的工作经验,涉及文本分 析、网页抓取及检索、人力资源分析、虚拟系统的性能优化,以及气候变化的预测等

PDF下载链接:https://pan.baidu.com/s/1k4Kz2ghlxNu73mSsGfC7AQ?pwd=6666 
提取码:6666


部分目录


第 1 章 自然语言处理简介.......................1

1.1 为什么要学习 NLP......................2

1.2 先从 Python 开始吧.....................5

1.2.1 列表.....................................5

1.2.2 自助功能.............................6

1.2.3 正则表达式.........................8

1.2.4 字典.....................................9

1.2.5 编写函数...........................10

1.3 向 NLTK 迈进............................11

1.4 练习............................................16

1.5 小结............................................17

第 2 章 文本的歧义及其清理.................18

2.1 何谓文本歧义............................18

2.2 文本清理....................................20

2.3 语句分离器................................21

2.4 标识化处理................................22

2.5 词干提取....................................23

2.6 词形还原....................................24

2.7 停用词移除................................25

2.8 罕见词移除................................26

2.9 拼写纠错....................................26

2.10 练习..........................................27

2.11 小结 ..........................................28

第 3 章 词性标注.....................................29

3.1 何谓词性标注 ............................29

3.1.1 Stanford 标注器.................32

3.1.2 深入了解标注器 ...............33

3.1.3 顺序性标注器 ...................35

3.1.4 Brill 标注器.......................37

3.1.5 基于机器学习的标注器.....37

3.2 命名实体识别(NER) ............38

3.3 练习............................................40

3.4 小结............................................41

image.png


作者禁止了评论
评论内容