文章目录:
一、再读吴军《数学之美》——统计自然语言处理的通俗科普读物
吴军的《数学之美》一书,作为自然语言处理的通俗科普读物,从数学角度深入浅出地介绍了计算机科学中的离散数学、编译原理、信息论、统计学习等知识体系。此书内容丰富,与现代大模型的研究、魔改Transformer的研究乃至神经网络的研究有着不同但相互关联的视角。作者在文中结合自己的新感受,穿插吴军书中的结论与个人思考,探讨了文字与语言、数字与信息之间的关系,自然语言处理的历史与现代技术路线的转变,以及统计语言模型、分词、隐马尔可夫模型、信息度量等关键概念。书中还提到分治算法、逻辑回归、搜索广告以及神经网络的基础知识,并讨论了数学在解决自然语言处理问题中的应用。本书不仅介绍了技术的演变,还涉及了奥卡姆剃刀原则、最大熵模型、拼写输入法数学原理、密码学数学原理、布隆过滤器、维特比算法等,展示了数学之美在不同领域的广泛影响。
在自然语言处理领域,书中强调了统计NLP与深度学习NLP的区别与联系,从信息熵、条件熵、互信息到相对熵(KL散度)的数学概念,以及如何通过这些概念在文本处理中进行相关性度量。同时,书中深入分析了隐马尔可夫模型与现代搜索引擎、布尔代数、图论、PageRank算法、信息指纹等技术在处理网页和新闻分类、构建网络爬虫、计算余弦相似度、实现搜索引擎功能和反作弊机制中的应用。通过这些技术的介绍,读者不仅能够理解自然语言处理的历史发展,还能掌握其在现实世界中的实际应用。
书中还探讨了文本处理中的有限状态机、动态规划、矩阵运算、最大熵模型、拼音输入法设计以及数学模型的重要性,展现了数学在自然语言处理中不可或缺的作用。通过这些章节的学习,读者可以了解到如何利用数学原理解决实际问题,以及如何在自然语言处理领域实现高效、准确的文本分析与理解。
最后,作者提到数学模型的重要性和奥卡姆剃刀原则,强调在预测和解决问题时应保持简洁性,避免对未知情况做出主观假设。通过数学模型的学习,读者不仅能够掌握自然语言处理的技术细节,还能在设计和应用算法时坚持科学严谨的态度,追求最简洁、最有效的方法。
二、数学之美(28)——神奇多样的“记数方法”
一个人面对一堆文字时,往往会对其中的数字特别的敏感,所以很多文章借助数字来吸引读者的眼球,引起读者的兴趣.
古人是没有学过数字的,他们怎么记数呢?
为我们所熟知的有:古代巴比伦人用画点的方式表示数,六个点代表“6”,八个点代表“8”……可是当点越来越多,密密麻麻数不清怎么办?他们就发明了“<”表示“10”,五个“<”表示“50”;到了60,有个新的符号
这个符号既可以代表60,也代表360,所以容易混淆不清,并且古巴比伦有两种进制,十进制和六十进制,这给计算也带来了不便。
古埃及人的数字就比较“简单”一些,是“象形文字”。当然比我们现在所用得的数字要复杂的多,比如:
表示100万时,要画一个人双膝跪地,双手举至头顶的形状.
这种记数方法目前仍然在使用,V代表5,X代表10,L代表50,C代表100,D代表500,M代表1000,
数字重复几次,相当于这个数字的几倍,比如XX代表20,MMM代表3000……
原则(左减右加),小数在大数左边是减,在大数右边是加,和数轴上数字的平移规律类似.
再大的数字怎么办?他们还规定在数字上画一横,表示它的1000倍,比如:
这个就不用过多解释了,一、二、三、四……
出现的时间较晚,却成为了现在全世界通用的阿拉伯数字。流行的原因除了写法简单外,对于1~9每个数都有不用的记号,所以不会混乱。
我们在菜市场买菜时,如果价格是2.9元,我们通常会说:“两块九”,而不说:“三块少一毛。”这种说法是正确的,只不过不符合我们日常的习惯,可这启发我们去从另外一个角度改进现行的记数方法。
当然,这不是现在人最先想到的,早在18世纪前叶(1726年),就有人建议这种“加减记数法”了。
这种记数法不需要6,7,8,9这几个数字,比如6=10-4,7=10-3, 8=10-2, 9=10-1表示如下:
原则就是数字上加一横线,表示减去它.
大点的数字也可以,比如489=500-11, 3888=4000-112, 2781(只变78)……,如下
这种记数方法有哪些好处呢?
(1)少了四个数字,6,7,8,9,认识大数,加减更容易;
咱们看下面的例子,比较和感受下传统加法和新加法的不同。
新加法方法里,可以利用正负抵消来加快计算速度.
(2)减法和加法是一回事了,所有的减法转变成了加法:比如
减法变加法,只需会加法即可.
(3)国外学习我们九九乘法表成为了可能,九九乘法表从原来的36句(1的不算),变成了现在的10句:
2×2,2×3,2×4,2×5,3×3,3×4,3×5,4×4,4×5,5×5
(4)近似计算时,没有现在的“四舍五入”了,取而代之的是简单粗暴的去尾巴。比如:3.0886,用四舍五入,保留整数是3,精确到十分位是:3.1,精确到百分位是:3.09,精确到千分位是:3.089
新记法中,3.0886的数是:
保留到十分位,3.1,
问题来了,新记法中,怎么进行乘法和除法计算呢?
举个简答的例子:17×4=68.
除法大家可以自己试一下,欢迎交流.
写在最后,不过很可惜的是,这种算法不可能再普及及推广了,因为要改的话付出的代价太大太大太大……
我们今天所谈的不过是纸上谈兵尔尔……不要太过当真去用。
到此,以上就是小编对于数字之美 mobi的问题就介绍到这了,希望介绍关于数字之美 mobi的2点解答对大家有用。
留言评论
暂无留言