本博文由微软负责信息管理与机器学习的集团副总裁Joseph Sirosh撰稿。
Azure机器学习专为推广机器学习而生。我们希望降低机器学习技术的操作门槛,使它为更多人所用。同支持开源创新、以大数据推动学习能力的突破一样,社区化开发,以及便捷化地创建云端控制API、开发应用,都是非常重要的命题。但更重要的是,我们希望机器学习能让用户如虎添翼,运筹帷幄于未来的数据科学领域。
现在,这份希望已具雏形。在由Strata和Hadoop统领的世界中,我们发布了可实现云端完全托管服务的Azure机器学习正式版。无需下载软件,也无需管理服务器,只要打开浏览器,访问网络,就可以开始进行数据工作了。这完全是颠覆性的创新——下面介绍几个亮点:
我们彻底改造了在线服务创建流程,令创建数据工作流及在线分析更为直观,而一切只需花费几分钟时间。我们还准备了一个即时的Excel客户端,方便用户导入数据以供调试。
本次发布中升级的新功能还包括循序渐进地以新数据改进Azure机器学习模型。此功能允许对一个模型进行反复训练,比如有新数据被引入时。同样也允许模型的其他用户使用自己的数据训练此模型。例如,现在你可以在应用市场为你的用户创建一个新的API,并为他们使用新数据训练模型提供帮助。
现在,你可以使用Python的Anaconda科学计算包,并直接从Azure机器学习平台中调用其丰富的科学计算模块库,如numpy,scipy,pandas及scikit-learn等。只需几次点击,Python开发者就能轻松建立复杂分析实验及云端服务,对R也是一样。你甚至能在同一个工作流中混合使用Python、R和微软机器学习算法。将两种不同语言中丰富的开源库结合起来,这是所有致力于应用开发的创新者们梦寐以求的。
Azure机器学习现在支持Learning with Counts,这项颠覆性的升级允许对TB大小的数据集进行高效的分类和回归,还允许在Azure大数据服务HDInsight中使用并行Map Reduce,从超大数据中获取代表性样本。凭以上功能和样本,用户就能应用前沿算法,包括神经网络与决策树,训练高精度的预测模型。
目前,我们在Azure商店中提供了一系列服务型应用,支持常见机器学习软件,如Recommendations, Anomaly Detection和Text Analytics。数据专家们能以简洁的方式将它们整合入任何网站、手机应用或SaaS程序的代码中,进而把这些强大的应用发布到Azure商店,切实参与到新兴的大数据经济中去。
正式版新增的社区化资源库帮助开发者们发掘和分享彼此的灵感。在社区中,你可以提问、评论以及发布自己的实验,还可以将有趣的实验分享至领英和Twitter等社交网站。我们希望此社区能成为用户们入门Azure机器学习、互相学习的起点。
除了上述优势,我们还为云端大数据的入门者准备了详细的用户指南,从原始数据处理到用户网络服务无所不包。此外,Azure机器学习配备了包括iPython Notebook和Python Tools for Visual Studio在内的有力工具。正式版还增加了数据读取和转换功能、SQLite模块、以及包括Quantile Regression在内的新算法。目前,整合了多样化工具的Azure机器学习可以说是市面上最全能的大数据和机器学习服务了。
我们的客户一直创新地将Azure机器学习应用于不同商业场景中。比如,挪威公司eSmart System就是将Azure应用于智能电网管理的先行者。传统的智能电网包括多种相互孤立的数据类型,如SCADA网络、自动化系统和基站仪表数据,预测损耗和用电瓶颈因此变得十分困难。对电力公司来说,升级整个系统代价昂贵,即便对感应器或仪表进行升级,也还是很难自由读取它们产生的数据。eSmart System使用Azure云平台整合分析、预测用电数据,它几乎相当于整套管理系统的“大脑”。最终分析结果被用于预测电网负荷问题,并能自动控制每座大楼的用电量。
eSmart Systems首席策略官Sigurd Seteklev表示:
“eSmart需要一套云解决方案来处理我们的巨量数据,否则保险起见,我们将用到大量存储空间。我们也试过用Hadloop处理数据,但它对运行环境的要求还是很高。现在我们很高兴一切都能通过Azure机器学习来完成,也无需管理虚拟机。”
Mendeley也是一个极具创新精神的客户。作为世界上最大的科研文献库之一,Mendeley 以全球化平台和社交网络推动科学探索和社区合作。为了完善用户体验,过去它一直在寻求对新用户的早期使用行为进行分析和预测。使用Azure机器学习服务仅仅两周,新模型就实现了高于过去自主开发模型30%的精确度。对于Mendeley,这不仅是模型效率提高了三五倍,更意味着公司将更有效地洞察用户需求。
Mendeley首席技术官Fernando Fanton表示,
“Azure机器学习给出了更好的自动化模型,相比之前的模型,从模型评估到配置完毕只用到三分之一的时间。”“Azure机器学习的可贵之处在于它是开放的,它能通过广泛使用的REST和Hive等工具很轻松地进行整合。”
还有包括Booz Allen Hamilton、Cognizant Technology Solutions、Dell 和Infosys在内的数百名微软合作伙伴都在使用Azure机器学习平台,将创新的前沿分析解决方案提供给客户。其中有些还为全球数据科学社区提供基于Azure的训练服务。今后的文章中,我们将分享更多Azure机器学习合作伙伴的信息。
今天早些时候,我们还宣布了Informatica加入微软生态系统,成为我们新的合作伙伴。Informatica云允许用户从不同的备份系统和云,以及包括Salesforce.com、Workday和Marketo在内的SaaS应用,移至Azure Blob存储服务。这些数据一经导入,Azure机器学习就能立刻进行处理和分析。关于Informatica云及其与Azure Blob互通的信息请看这里。
如果你还未亲自体验过Azure机器学习,我推荐试用今天发布的正式版。它免费,而且非常容易上手,无需信用卡也无需订阅Azure资讯。
Azure机器学习是颠覆性的。目前还没有其他分析工具能从工作范围、开放度和广度上与之媲美,也没有任何工具能如此方便地利用云环境开发和部署应用。Azure机器学习,与其他Azure旗下产品——大数据服务HDInsight、实时分析工具Azure Stream Analytics、数据流优化服务Azure Data Factory、以及商业智能服务Power BI一道,必将使每一字节数据都发挥出最大的商业潜力。曙光存在于一个拥有优化数据、深刻见解和卓越智慧的世界。
Joseph