分类:大数据

86 篇文章

基于DPDK实现VPC和IDC间互联互通的高性能网关
前言:随着云计算和网络技术的不断发展,越来越多的业务有着上云的需求。上云后,业务能够使用云上已有的服务提升开发效率,也可以利用云平台的弹性伸缩特性,及时应对业务的负载变化。实际生产环境中,用户的服务一部分部署在云平台上,另一部分部署在自己的IDC机房。用户有从VPC访问IDC中服务的需求,且IDC内的服务需要支持负载均衡。为了实现IDC的平滑上云,…
自动超参优化简述
机器学习建模是一个十分依赖建模工程师本身的知识和经验的工作,它涉及对问题背景的理解,数据的清理、变形和分析,特征的选择和构造(特征工程)以及模型的训练、调优和评估。只有专业高级人才才能优质并高效地完成整个流程,这就意味着机器学习建模的人力成本是非常高的。Prophet机器学习平台的愿景,就是降低机器学习建模的成本,普及机器学习模型的应用。若能将上述…
SPDK概览
女主宣言:SPDK是Intel针对NVMe SSD开源的高性能存储框架,它能够减低IO路径上软件栈所占用的耗时占比,从而尽可能发挥出硬件设备的性能。接下来小编带大家去深入了解SPDK,让我们一起探究它的奥妙所在吧! 01简介: 随着硬件设备存储介质的改变和性能不断的提升,存储设备处理IO的能力越来越快,传统的旋转设备HDD单个IO需要几毫秒到十几毫…
基于MM2的跨IDC kafka热备多活方案
MM2简介 在介绍MM2之前先谈一下MM1,  这个是kafka很早之前就有的组件,本质来说就是实现了consumer + producer, 从集群A将数据同步到集群B, 使用的是kafka client的high level api。如果网络不稳定,会有频…
基于Openstack的企业级实例在360的落地实战
背景 当前公司内部使用的虚拟机,主要为共享型实例。共享型实例在物理CPU上采用超卖机制,如超卖3倍到超卖5倍。共享型实例采用非绑定CPU调度模式,每个vCPU会被随机分配到任何空闲CPU超线程上,不同实例vCPU会争抢物理CPU资源,并导致高负载时计算性能波动不稳定,但是每台实例的成本相对来说较低。 随着企业内部对虚拟化性能的要求日益提高,共享型实…
360HDFS从0.20到3.0的升级之路
1.我们为什么要升级? 360的hadoop集群,自搭建之初到现在已经陆续经历了近10年的时间。陆续承接了司内的大搜网页库、核心安全样本、APT log,商业化相关数仓分析、模型及公司几乎所有打点log的存储任务,随着公司的发展也陆续扩展到了上万台的规模。随着规模扩大以及时间的推移,当初的facebook 0.20版本也陆续面临了诸多的问题与挑战,…
计算图反向传播的原理及实现
简介 神经网络的结构并不仅限于多层全连接,在深度学习领域,存在局部连接、权值共享、跳跃连接等丰富多样的神经元连接方式,多层全连接仅仅是其中的一种。在打开更广阔的新世界的大门之前,我们首先需要掌握描述和训练任意神经网络的方法。 计算图是一个强大的工具,绝大部分神经网络都可以用计算图描述。计算图用节点表示变量,用有向边表示计算。自动求导应用链式法则求某…
主动学习介绍
一.简介 监督学习需要大量的标注样本进行训练。然而标注大量样本会产生昂贵的标注成本。如何在模型达到目标性能的前提下,尽可能减少标注成本是主动学习主要解决的问题。本文主要介绍主动学习的概念与基本流程以及较常用的主动学习方法。 二.背景 传统的机器学习(Machine Leaning)任务,特别是有监督学习任务为取得良好的性能,通常需要在成百上千的有标…
卷积神经网络简介
一、卷积 我们在 2 维上说话。有两个 的函数 f(x, y) 和 g(x, y) 。所谓 f 和 g 的卷积就是一个新的 的函数 c(x, y) 。通过下式得到: 这式子的含义是:遍览从负无穷到正无穷的全部 s 和 t 值,把 g 在 (x-s, y-t) 上的值乘以 f 在 (s, t) 上的值之后再“加和”到一起(积分意义…