越来越强大的硬件功能和大量数据使现有的机器学习方法(例如模式识别,自然语言处理和强化学习)成为可能。人工智能正在影响开发过程;它增加了版本控制,CI / CD和测试之类的复杂性。
ThoughtWorks人工智能全球负责人Christoph Windheuser在Goto Berlin 2018上谈到了该行业的AI应用。InfoQ将通过问答,摘要和文章涵盖本次会议。
Windheuser认为,机器学习方法的最大优点是可以通过从数据中学习而不是编程来优化算法的行为。这意味着算法可以实现无法编程的行为,例如光学和声学模式识别或自然语言处理。他说,因此,全新的应用成为可能,而可能性是无限的。
Windheuser表示,在数据科学和机器学习项目中,开发人员不仅必须照顾自己的编程代码,而且还必须照顾大量数据,例如训练模式,从这些模式中提取的功能以及参数和超参数。学习算法。他认为,这给开发过程带来了新的复杂性。
随着当今硬件功能的不断增强和可用数据的大量增加,古老而著名的机器学习方法可以突然以可扩展和可操作的方式应用。各种模式识别,例如语音识别和图像识别。在自然语言处理领域,诸如语言翻译,情感分析,意图识别,文本语音转换和聊天机器人等都是众所周知的。通过强化学习,甚至可以学习玩电子游戏,下棋或围棋或平稳安全地驾驶汽车的策略。没有机器学习方法,所有这些都是不可能的。
数据是任何机器学习算法的基础。对于像反向传播这样的有监督学习,您需要的训练模式数量要远远多于要优化的参数(权重)以实现网络的良好泛化。对于深度学习模型,其中的层数很高,每层单元数很多,参数的数量很容易变成数百万个,这需要更大数量的训练模式才能成功进行训练。
对于有监督的学习,训练模式需要标签(例如,该模式的正确分类),通常必须手动策划。除此之外,还必须将数据模式转换为正确的格式,以便通过学习算法进行消化。这意味着必须从训练数据中提取正确的特征。这对于获得良好的训练算法非常重要。
例如,如果您想了解未来客户对杂货店中商品的需求,则可以使用历史销售数据来预测未来的销售。您可以直接使用POS(销售点)数据来训练您的网络。但是,例如从POS数据中的时间戳中提取工作日并将其作为附加功能馈入网络非常有帮助。由于客户需求高度依赖工作日,因此这将有助于网络更轻松,更快速地学习和融合。