1.目录 1编程和数据科学——一个新的工具集1 什么是数据科学1 数据科学会长期存在吗?2 为什么数据科学正在兴起?3 数据科学与开发人员有什么关系?4 将这些概念付诸实践5 深入研究一个具体的示例6 数据管道蓝图7 数据科学家应该具备什么技能?9 IBM Watson Deep QA10 回到Twitter带#标签的情感分析项目13 从构建第一条企业级数据管道中汲取的经验教训15 数据科学策略16 Jupyter Notebook是我们的战略核心18 为什么Notebook这么流行?19 本章小结21 2Python和Jupyter Notebook为数据分析提供动力23 为什么选择Python?23 PixieDust入门27 SampleData——一个用于加载数据的简单API31 用pixiedust_rosie整理数据36 Display——一个简单的交互式数据可视化API42 过滤50 用PixieApp消除开发人员和数据科学家之间的壁垒52 操作化数据科学分析的体系结构55 本章小结59 3使用Python库加速数据分析60 PixieApp深度剖析61 路由62 生成路由请求65 GitHub项目跟踪示例程序67 在表格中显示搜索结果70 使用pd_entity属性调用PixieDust display()API78 使用pd_调用任意Python代码85 用pd_refresh让应用程序更具响应性90 创建可重用的小部件93 本章小结94 4用PixieApp工具发布数据分析结果95 Kubernetes概述96 安装和配置PixieGateway服务器97 PixieGateway服务器配置101 PixieGateway体系结构105 发布应用程序108 PixieApp URL中的编码状态112 通过将图表发布为网页来共享它们114 PixieGateway管理控制台118 Python控制台120 显示PixieApp的预热和运行代码121 本章小结121 5Python和PixieDust最佳实践与高级概念122 使用@captureOutput装饰器集成第三方Python库的输出123 使用@captureOutput创建词云图像123 增加模块化和代码重用126 使用pd_widget创建小部件128 PixieDust中的流式数据支持130 向PixieApp添加流处理功能134 添加带有PixieApp事件的仪表盘下钻功能136 扩展PixieDust可视化141 调试148 使用pdb调试Jupyter Notebook148 使用PixieDebugger进行可视化调试152 使用PixieDebugger调试PixieApp路由154 使用PixieDust日志记录排除问题157 客户端调试159 在Python笔记本中运行Node.js161 本章小结165 6分析案例:人工智能与TensorFlow图像识别167 什么是机器学习?168 什么是深度学习?169 开始使用TensorFlow172 用DNNClassifier进行简单分类176 图像识别示例应用程序187 第1部分——加载预训练的MobileNet模型188 第2部分——为我们的图像识别示例应用程序创建一个PixieApp196 第3部分——集成TensorBoard图形可视化200 第4部分——使用自定义训练数据重新训练模型206 本章小结217 7分析案例:自然语言处理、大数据与Twitter情感分析218 ApacheSpark入门218 Apache Spark体系结构219 将Notebook配置为使用Spark220 “Twitter情感分析”应用程序222 第1部分——以Spark Structured Streaming获取数据223 数据管道的体系结构图224 Twitter的身份验证224 创建Twitter流226 创建Spark Streaming DataFrame229 创建和运行结构化查询232 监控活动流式查询234 从Parquet文件创建批量DataFrame236 第2部分——用情感和提取的最相关实体来丰富数据238 IBM Watson Natural Language Undersanding服务入门239 第3部分——创建实时仪表盘246 将分析重构为它们自己的方法246 创建PixieApp249 第4部分——使用Apache Kafka和IBM Streams Designer添加可伸缩性258 将原始推文流到Kafka259 使用Streaming Analytics服务丰富推文数据263 使用Kafka输入源创建Spark Streaming DataFrame270 本章小结273 8分析案例:预测——金融时间序列分析与预测274 NumPy入门275 创建NumPy数组278 ndarray运算280 NumPy数组的选择操作282 广播284 时间序列的统计探索286 虚拟投资293 自相关函数(ACF)和偏自相关函数(PACF)294 将它们与StockExplorer PixieApp放在一起297 BaseSubApp——所有子PixieApp的基类302 StockExploreSubApp——第一个子PixieApp304 MovingAverageSubApp——第二个子PixieApp306 AutoCorrelationsubApp——第三个子PixieApp309 ARIMA模型在时间序列预测中的应用312 建立MSFT股票时间序列的ARIMA模型314 StockExplorer PixieApp第2部分——使用ARIMA模型添加时间序列预测323 本章小结336 9分析案例:图形算法——美国国内航班数据分析338 图形概述338 图形表示340 图形算法341 图形和大数据344 networkx图形库入门345 创建图形345 可视化图形347 第1部分——将美国国内航班数据加载到图中348 图的中心性357 第2部分——创建USFlightsAnalysis PixieApp366 第3部分——向USFlightsAnalysis PixieApp添加数据探索功能376 第4部分——创建预测航班延误的ARIMA模型386 本章小结399 10数据分析的未来与拓展技能的途径400 前瞻性思考——人工智能与数据科学的未来展望401 参考资料403 附录PixieApp快速参考405 注释405 自定义HTML属性408 方法413
|