雪花:简化机器学习

简化机器学习

引言:雪花的策略

雪花的使命是让每个人都能访问、使用和有价值的数据. 使雪花成为行业领导者的支柱之一是其坚定不移的承诺,即易于使用和交钥匙. 雪花首席执行官弗兰克•斯洛特曼在23年第二季度财报电话会议上的一句话证明了这一点:

你认为最大的不同在于总拥有成本, 这还不包括计算和存储的成本. 换句话说,运行这项技术的成本是多少? 这就是雪花的巨大优势,mg官方游戏中心的客户也知道这一点. 只是减少了技能, 更少的人, 并且不必触及底层平台的复杂性. mg官方游戏中心更像是苹果和特斯拉的后代,而不是Hadoop的后代, 就像有些人在市场上一样, 正确的? 所以mg官方游戏中心把复杂性抽象出来了. 这就是产生TCO优势的原因. 但是计算和存储的原始成本,并没有那么多的机会.

以这一战略为基础, 雪花继续创新和简化即使是最复杂的任务. 展望未来, mg官方游戏中心可以预期,雪花标志性的用户友好方式将塑造以下项目:

容器:为应用程序提供隔离的环境.

  • 低管理:减少运营开销.

非组织性数据。:简化对多种数据的管理.

  • DocumentAI高级文档处理和见解.

机器学习:用户友好的ML工具和功能.

  • ML SQL函数:在SQL中嵌入ML功能.

AI

  • 带有NVDA的AI:尖端人工智能工具的协作.

  • 微软:合作将微软直接带入数据云

  • 法学硕士的公司数据:扩大数据覆盖范围和效用.

数据应用使以数据为中心的应用程序更易于访问.

  • Streamlit

  • 本机应用程序框架:应用开发的无缝集成.

机器学习SQL函数在开放预览

为什么可用性测试很重要,而且对任何项目或应用程序都很重要,原因有很多. 用户体验设计师经常被提醒“你不是用户”这句话。. 这是一个需要记住的重要短语, 因为即使一个设计对设计师来说很有意义, 这并不意味着用户将获得良好的体验. 这也是用户体验设计的全部目标, 确保您的应用程序为最广泛的用户提供最佳的用户体验. 这对于早期发现问题也很重要. 想象一下,有人在校对你写的论文时发现了一个语法错误, 即使你没有注意到. 可用性测试也是如此. 经常, mg官方游戏中心离设计太近了,一双新鲜的眼睛可以帮助mg官方游戏中心发现mg官方游戏中心从未注意到的东西.

Designing a Usability Test

雪花的ML SQL函数目前处于开放预览状态,它正在改变mg官方游戏中心看待SQL和ML的方式. 这三个先行者是:

1.     预测:根据过去的数据预测未来的值. 理想的销售预测,股票趋势,和更多.

2.     异常检测识别数据中不符合预期行为的异常模式. 用于欺诈检测、系统健康监控等.

3.     贡献的探险家了解导致特定结果的因素. 这就像对每个“什么”都要问一个“为什么”.

需求 & 限制

与开发中的任何工具一样,存在需求和限制. 以下是这些函数的当前约束:

  • 最多500,000行用于模型训练.

  • 至少12行用于模型训练.

  • 1秒最小粒度.

  • 季节性组件的最小粒度为1分钟.

  • 时间戳必须具有固定的间隔.

  • 与输入频率相关的自回归特征的季节长度.

  • Existing models cannot be updated; a new one must be trained.

  • 异常值会影响算法. 如果不需要,用户可能需要删除.

  • 不可能跨帐户克隆模型.

开始学习ML SQL函数

深入研究这些功能需要一个系统的过程:

  1. 准备数据整理和清理您的数据,以确保其准备就绪.

    • 最重要的一步

  2. 创建模型:为你的机器学习模型建立基础.

  3. 火车模型:使用你的数据来训练和完善模型.

  4. 获取数据:提取见解和结果.

例子:

我有一个数据集,里面有纳斯达克所有股票的收盘价数据 & 陶氏. 我想在接下来的两个月里对数据集进行预测分析. 我想在2019年1月1日开始的数据上训练模型.

准备数据

在这一步中,视图是您的朋友. 这是进一步为ML准备数据的地方. 做事要符合要求. 对于这个股票数据集,有一些事情需要处理:

  • 1.     有少于12行的股票(新股发行或上市后12天内上市的股票).  

    • 通过视图排除这些记录

  • 2.     有一个日期列,但我需要这是一个时间戳数据类型

    • 将数据类型更改为视图中的时间戳

  • 3.     周末和节假日数据不存在. 需要通过模拟这些日期的数据来满足固定的间隔.

    • 缺失的数据是否通过视图显示为之前的收盘价

  • 4.     当在更大的集合上训练时,重要的是最终视图按照TIMESTAMP列排序

创建模型

现在艰苦的工作已经完成了. mg官方游戏中心创建模型.

火车模型

对模型进行60个预测周期的训练. 这一步可能会花费很长时间,但搭建仓库可以减少这一时间.

获取数据

如果使用直接SQL, 使用RESULT_SCAN函数将前一步的结果放入表中,以便进一步分析.

结论

雪花通过引入功能强大且用户友好的工具,继续塑造数据分析和机器学习的未来. mg官方游戏中心期待着进一步的创新和改进, 很明显,雪花, 机器学习真的适合每个人.

以前所未有的方式潜入、探索和利用数据的力量!

安迪Wickman

经验丰富的技术领导者,在IT行业拥有超过20年的经验, 在不同的领导角色中一直表现出成功. 具有强大的数据库背景和按时交付项目的良好记录, Andy具有敏锐的识别和执行公司战略目标的能力.

一个有远见的创新者,以强大的解决问题的能力和坚定的职业道德而闻名, 使他能够有效地为不同范围的客户管理多个复杂的项目. 在IT领域的丰富经验使他能够提供有价值的见解,并与客户和高级管理人员分享他的技术专长.

安迪“训练”员工的能力, 再加上他强大的商业头脑和技术眼光, 对他在全面改进流程方面的成功有何贡献. 他有效的人际交往能力也使他成为业内备受追捧的领导者和合作者.

在他的技术博客文章中, 安迪分享他丰富的知识和经验, 为读者提供有关快速发展的技术和数据库管理世界的宝贵见解. 作为一个自我激励的专业人士,需要最少的监督, Andy继续为IT行业的创新和进步铺平道路.

以前的
以前的

用雪花和流光创建一个Web应用程序

下一个
下一个

人工智能能接管数据和分析吗?