出口机会与数据单元Token

文字是语言的主要成分,人类通过说话或书写文字来表达认知和想法、从而实现复杂的沟通。文字是被赋予特定意义符号,每个符号都对应了具体意义。在远古时期,由于人类对自然的认知比较少、开发生产的新工具和生活用品也不多、思想与社会组织形式相对简单,因此每种文字数量都不多。然而,随着人类不断的积累对自然的认知和对自然规律的应用、人类的组织形式和生产方式也相应发生了变化,同时,新的生产工具也不断诞生等,每个新事物、新产品的诞生都需要特定的新文字符号与之对应、以便人们在沟通时无论是说还是书写都能准确表达自己的想法。因此,语言文字随着人类的发展不断增多,在16世纪,英语单词大约只有14万多个、到了今天,英语单词已经达到了100万个左右(有些资料显示70万单词左右)。在这400多年间、英语单词增加7-8倍,这表明人类使用的新事物和新产品也增加了7-8倍。确实如此,人类近代史、特别是自工业革命以来是飞速发展的人类历史时期;

文字的诞生源于新事物、新思想、新生产方式以及新产品的诞生,文字与客观存在一一对应、这种对应关系使人类能通过语言表达和传达自己的想法和认知,因此,一种语言的词汇丰富程度能直接影响这种语言对事物表达的准确性。当一种语言的词汇不足时、人们只能通过组合多个词汇来形成复合词、用每个单词的词义叠加共同表达一个词义,复合词就如同拼凑起来的木板、不具备单一木板的完整性。为了理解一个复合词的内涵、人们必须首先理解其构成的每个单词的含义,然后再整合这些含义来理解整个词组。这种多词组词往往存在理解误差、不具备那种只为此物此事而生的单词内涵的完整性、特别是在当代,人类使用的科学技术手段越来越复杂、复合词组承载的内涵难以被理解、这给人们学习现代科学带来了困难、因此,有些不使用拼写文字的国家也会引进外来语来补充本语言词汇的不足、甚至有些国家直接使用英文、以确保科学技术内容的准确性;

人工智能是计算机通过对文字(包括语音转文字)的识别、结合文本以及网络中现存可能被使用的所有数据的结合概率、使用数据单元Token编辑生成智能内容。生成的内容可以是视频、语音、文字、图表等不同格式的数据文件,因此作为智能生产基材的数据单元Token数量的多少直接决定了智能生成内容质量的优劣,Token可以是单词、可以是句子或一篇文章,或者是智能生成图片或视频时曾使用的图片碎片、也可以是一个矩阵单元等,而Token数量多少取决于一种语言的文字量以及文字组合量的多少,因此,即使使用相同的大模型生成人工智能答案、不同语言文字的Token得出的智能结果并不相同;

Token数量不仅能直接影响人工智能的智力水平、还影响人工智能商业应用的收益。企业拥有的Token越多,参与生成智能答案的概率就越大、Token被使用概率也是企业数据源被显示的概率、因此,企业拥有的Token多少决定了企业出口概率和获得其他商业机会的多少。Token数量由一种语言的文字多少决定、企业开发的Token数量越多、其产品出口的概率就越高、企业收益也就越大!

2024-06-30