19个超赞的数据科学和机器学习工具,编程小白必看!(附资料)
点击此处查看最新的网赚项目教程
作者:AARSHAY JAIN;翻译:王婷;校对:丁楠雅;
本文共4700字,建议阅读10+分钟。
本文为你介绍GUI驱动的数据科学工具,帮助新手构建高质量的机器学习模型。
引言
编程是数据科学的一个组成部分。事实上,理解编程逻辑、循环和函数的人更有可能成为成功的数据科学家。但那些在学校里从未学习过编程的人怎么办?
难道他们就没办法成为一名数据科学家了吗?
近年来,随着数据科学的蓬勃发展,许多人都有兴趣进入这个领域。但对编程却一筹莫展。事实上,在我的第一份工作之前,我也是非编程联盟的成员。因此,我明白当一个你从未学过的东西在任何一步都困扰着你的时候,有多么可怕。
好消息是无论你的编程技巧如何,你都有办法成为数据科学家!有一些工具可以避免编程,并提供用户友好的GUI(图形用户界面),因此任何对算法知之甚少的人都可以简单地使用它们来构建高质量的机器学习模型。
许多公司(尤其是初创公司)最近推出了GUI驱动的数据科学工具。我尽力在本文中介绍一些重要的工具,并尽可能提供视频。
注意:所有提供的信息都是从开源信息源收集的。我们只是展示一些事实而不是观点。我们决不会尝试宣传或为任何产品/服务打广告。
以下是本次介绍的工具列表:
1. RapidMiner
介绍视频:
RapidMiner(RM)最初于2006年作为一款名为Rapid-I的开源独立软件被启动。多年来,他们以RapidMiner的名字给它命名,并获得了约3500万美元的资金。该工具的旧版本(低于v6)是开源的,但最新版本会有14天的试用期并在此之后需要许可证。
RM涵盖了预测建模的整个生命周期,从数据准备到建模,最后验证和部署。GUI基于一个框图方法,与Matlab Simulink非常相似。有预定义的块用作即插即用设备。你只需要以正确的方式连接它们,就可以在没有一行代码的情况下运行各种各样的算法。最重要的是,它们允许将自定义的R和Python脚本集成到系统中。
目前的产品包括以下内容:
RM目前已经应用于汽车、银行、保险、生命科学、制造业、石油和天然气、零售、电信和公用事业等各个行业。
2. DataRobot
介绍视频:
DataRobot(DR)是一款高度自动化的机器学习平台,由全球最好的Kagglers构建,包括Jeremy Achin,Thoman DeGodoy和Owen Zhang。该平台声称已经消除了对数据科学家的需求。这从他们网站的一句话中可以明显看出 – “数据科学需要数学和统计资质、编程技能和商业知识。借助DataRobot,你只需提供商业知识和数据,而我们的尖端自动化负责其余部分。”
DR宣称具有以下优点:
3. BigML
介绍视频:
BigML提供了一个良好的图形用户界面,可以让用户通过以下6个步骤掌握:
这些过程显然会以不同的顺序迭代。BigML平台提供了很好的结果可视化,并具有求解分类、回归、聚类、异常检测和关联发现问题的算法。他们提供按月、季度和年度订阅捆绑在一起的几个软件包。他们甚至提供免费套餐,但上传数据集的大小限制为16MB。
您可以通过他们的YouTube频道了解他们的界面如何运作。
4. Google Cloud AutoML
介绍视频:
Cloud AutoML是Google机器学习组件的一部分,它允许有限ML专业知识的人员来构建高质量模型。作为Cloud AutoML产品组合的一部分,第一款产品是Cloud AutoMLVision。该服务使得训练图像识别模型变得更加简单。它具有拖放界面,可以让您上传图像,训练模型,然后直接在Google Cloud上部署这些模型。
Cloud AutoML Vision基于Google的迁移学习和神经架构搜索等技术。这个工具已经被很多组织所使用。看看这篇文章,看看AutoML在两个惊人的现实生活例子的表现,以及它如何产生比任何其他工具更好的结果。
5. Paxata
介绍视频:
Paxata是少数几家专注于数据清洗和预处理的组织之一,而不是机器学习或统计建模部分。这是一个易于使用的MS Excel类应用程序。它还提供了可视化的指导,可以轻松地将数据汇集在一起,查找并修复数据中混杂的噪音或缺失,以及在团队之间共享和重复使用数据项目。与本文中提到的其他工具一样,Paxata取消了编码或脚本,从而克服了处理数据所涉及的技术障碍。
Paxata平台遵循以下流程:
Praxata已经涉足金融服务、消费品和网络领域。如果您的工作需要大量数据清洗,它可能是一个很好的工具。
6. Trifacta
介绍视频:
Trifacta是另一家重点关注数据预处理的创业公司。它有3种产品:
Trifacta提供了一个非常直观的GUI来执行数据清洗。它将数据作为输入并按列提供各种统计数据的摘要。另外,对于每一列,它都会自动推荐一些可以通过单击进行选择的转换。可以使用一些预先定义的函数对数据执行各种转换,这些函数可以在界面中轻松调用。
Trifacta平台使用以下数据准备步骤:
发现:首先看看数据和分布,以便快速了解您的具体情况。
结构:为数据分配适当的形态和变量类型并解决异常。
清理:此步骤包括插补、文本标准化等过程。这是使数据模型准备就绪所必需的一步。
充实:此步骤有助于提高分析的质量,可以通过添加更多数据源或对现有数据执行一些功能工程来完成。
验证:此步骤对数据执行最终检测。
发布:最后将数据导出以供进一步使用。
Trifacta主要应用于金融、生命科学和电信行业。
7. MLBase
介绍视频:
MLBase是加州大学伯克利分校的AMP(算法机器人)实验室开发的一个开源项目。背后的核心思想是为机器学习应用于大规模问题提供一个简单的解决方案。
它有3种产品:
8. Auto-WEKA
介绍视频:
Auto-WEKA是一个用Java编写的数据挖掘软件,由新西兰怀卡托大学的机器学习小组开发。这是一个基于GUI的工具,对数据科学初学者非常有用。它的最大优点是它是开源的,开发人员提供了教程和论文来帮助你入门。你可以在AV的文章中了解更多相关信息。目前它主要应用于教育和学术目的。
9. Driverless AI
介绍视频:
Driverless AI是支持自动机器学习的h2o.ai企业的神奇平台。这个链接上可以使用1月试用版的docker映像。您只需使用简单的下拉列表选择文件来训练,测试并指定您想要跟踪模型性能的指标。坐下来,看着界面直观的平台在你的数据集上训练出优秀的结果,并能与一个经验丰富的数据科学家能够提出的好解决方案相比。
这些是Driverless AI 的业务功能:
10. Microsoft Azure ML Studio
介绍视频:
当这个领域有这么多大牌玩家时,微软怎么会落后?Azure ML Studio是一个简单却强大的基于浏览器的ML平台。它有一个可视化的拖放环境,不需要编程。他们已经为新手发布了全面的教程和示例实验,可以帮助他们快速掌握该工具。
它采用简单的五个步骤:
导入数据集。
如有必要,执行数据清洗和其他预处理步骤。
将数据分解为训练和测试集。
应用内置ML算法来训练您的模型。
评价你的模型,并得到你的预测!
11. MLJar
介绍视频:
MLJar是一个基于浏览器的平台,用于快速构建和部署机器学习模型。它有一个直观的界面,并允许您并行地训练模型。它具有内置的超参数搜索功能,可以更轻松地部署模型。MLJar提供与NVIDIA的CUDA,python,TensorFlow等的集成。
你只需要执行三个步骤来建立一个不错的模型:
目前该工具用于订阅版本。它有一个免费的版本并且有0.25GB的数据集限制。这绝对值得一试。
12. Amazon Lex
介绍视频:
Amazon Lex提供了一个易于使用的控制台,可在几分钟内构建自己的聊天机器人。您可以使用Lex在应用程序或网站中构建对话界面。所有你需要做的是提供一些短语,Amazon Lex完成其余步骤!它构建了一个完整的自然语言模型,使用该模型,客户可以使用语音和文本与应用程序进行交互。
它还内置了与亚马逊网络服务(AWS)平台的集成。Amazon Lex是一项完全托管服务,因此您的用户参与度不断增加,您无需担心配置硬件和管理基础设施以提高您的机器人体验。
13. IBM Wastson Studio
介绍视频:
本文怎么能少了IBM Watson?它是世界上最知名的品牌之一。IBM Watson Studio为构建和部署学习机和深度学习模型提供了一个美丽的平台。您可以交互式地发现、清理和转换您的数据,使用Jupyter笔记本电脑和RStudio等熟悉的开源工具,访问最流行的库,训练深度神经网络以及大量其他事物。
对于刚进入这个领域的人来说,他们提供了一系列视频以简化入门阶段。您可以选择免费试用,并亲自查看这款超棒的工具。以上视频将指导您如何在Watson Studio中创建项目。
14. Automatic Statistician
Automatic Statistician本身不是一个产品,而是一个创建数据探索和分析工具的研究机构。它可以采用各种数据,并以其自然语言处理为核心,生成详细的报告。它由在剑桥和麻省理工学院工作的研究人员开发,并以75万美元的价格赢得了Google的焦点研究奖。
它目前仍处于积极发展阶段,但在不久的将来应该密切关注。您可以在这里查看一些关于最终报告的示例。
———END———
限 时 特 惠: 本站每日持续更新海量各大内部创业教程,一年会员只需98元,全站资源免费下载 点击查看详情
站 长 微 信: qs62318888
主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网