大数据

Ruby:从Windows上的外部进程的stdout和stderr读取大数据
问答问候,所有, 我需要从Windows上的Ruby 1.9.2运行一个可能长时间运行的进程,然后从外部进程的标准输出和错误中捕获和解析数据.可以向每个数据发送大量数据,但我一次只对一行感兴趣(不捕获和存 ...
机器学习 – 机器学习和大数据
问答一开始我想描述我目前的立场和想要实现的目标. 我是一名处理机器学习的研究人员.到目前为止,已经通过了涵盖机器学习算法和社会网络分析的几个理论课程,因此已经获得了实现机器学习算法和实时数据馈送的一些理论 ...
amazon-dynamodb – 从DynamoDB中删除具有相同分区键的大数据
问答我有这样结构的DynamoDB表 A B C D 1 id1 foo hi 1 id2 var hello A是分区键,B是排序键. 假设我只有分区键而不知道排序键,我想删除所有具有相同分区键的条目. ...
数据库 – 数据仓库和大数据之间的实际区别是什么?
问答我知道什么是数据仓库和什么是大数据 但我对数据仓库与大数据感到困惑. 两者与不同的名称相同,或者两者都是不同的(概念和物理). 先谢谢你.::我知道这是一个较旧的线程,但在过去一年里有一些发展.将数据 ...
数据库 – 如何处理大数据数据集市/事实表? (2.4亿行)
问答我们有一个BI客户,他们的销售数据库表每月产生大约4千万行,这些行是根据他们的销售交易生成的.他们希望使用5年的历史数据构建销售数据集市,这意味着该事实表可能会有大约2.4亿行. (40 x 12个月 ...
c# – 在同一台计算机上的.net应用程序之间传输大数据
问答我有两个在同一台机器上运行的.net应用程序. 第一个应用是"引擎".它构建图像 – 图像的大小约为4M. 第二个应用是"查看器".它显示"引擎&qu ...
流星 – 发布/订阅大数据收集
问答我有一个非常大的集合(大约有200个字段,大约有20-25个字段,包括带有一组约500个项目的数组字段)和~2000个订阅者(现在它们只是机器人). 因此,当用户订阅整个集合(不包括服务器发布中的某些 ...
编辑器 – 采样大数据文件
问答我目前在Data Warehouse程序员的位置工作,因此必须通过ETL过程放置大量的平面文件.当然在加载文件之前我必须知道它的内容,问题是大多数文件都是> 1 GB大,我不能用我亲爱的老朋友& ...
商业智能 – 用于数据集成的Talend Open Studio与用于大数据的Talend Open Studio之间的差异
问答我对Talend提供的不同产品感到困惑. 似乎Talend Open Studio for Data Integration和Talend Open Studio for Big Data是相同的产品 ...
大数据相关技术 – 脑图 大数据相关技术 – 脑图
问答大数据第六章内容知识整理::
大数据 – 流程图 大数据 – 流程图
问答大数据技术构架图(初稿),仅供参照.::
用于映射大数据的Python共享内存字典
问答我一直很难使用大型字典(~86GB,17.5亿个键)来处理使用Python中的多处理的大数据集(2TB). 上下文:将字符串映射到字符串的字典从pickle文件加载到内存中.一旦加载,就创建工作进程( ...
Java在Internet Algorithmics(搜索,大数据等)中的流行
问答我多年来一直在编写C/C++代码.最近开始大量使用Java,因为我用来解决计算问题的一些非常好的产品都是用Java编写的(例如:Lucene / Solr,Hadoop,Neo4j,OpenNLP等) ...
使用tm的语料库函数和R中的大数据
问答我正在尝试使用tm对R中的大数据进行文本挖掘. 我经常遇到内存问题(例如无法分配大小的向量-.)并使用已建立的方法来解决这些问题,例如 >使用64位R >尝试不同的操作系统(Windows ...
c# – 如何在没有迭代的情况下从大数据表中删除行?
问答我有一个DataTable,包含数千行.有一个名为EmpID的列,其中包含某些行的"0".我想从我当前的DataTable中删除它们,并希望创建一个新的正确的DataTable.我 ...
可扩展性 – 为什么关系数据库不能满足大数据的规模?
问答经常重复的是,大数据问题是关系数据库无法扩展以处理现在正在创建的大量数据. 但是,像Hadoop这样的大数据解决方案不受约束的这些可扩展性限制是什么?为什么Oracle RAC或MySQL分片或MPD ...
hadoop – 可以ETL informatica大数据版本(不是云版本)连接到Cloudera Impala?
问答我们正在尝试在Informatica Big Data版本(而不是云端版本)上做出一个概念证明,并且我已经看到我们可以使用HDFS,Hive作为源代码和目标.但我的问题是Informatica是否连接 ...
用于Python的更高效的HashMap(Dictionary)用于大数据 用于Python的更高效的HashMap(Dictionary)用于大数据
问答我正在创建一个程序来计算巨大文件中字符串的出现次数.为此我使用了python字典,字符串作为键,计数作为值. 该程序适用于最多10000个字符串的较小文件.但是当我在我的实际文件~2-300万字符串上 ...
qt – 在UDP套接字上发送大数据
问答我需要使用udp发送和接收非常大的数据.不幸的是,udp每个图提供8192个字节,因此需要将数据分成更小的部分. 我正在使用Qt和QUdpSocket.有一个长度为921600的QByteArray我 ...