spark 大数据离线分析 爬虫存到 csv 有的列是长度不固定的 list 请问应该怎么存到 hive?直接存 list 吗?该怎么分析呢?

txc106 1月前 25

完全没有头绪 另目前自己定的流程是爬虫-》 hdfs-》通过 scala 预处理后存 hive-》 scala 分析-》 mysql-》可视化 请问这个流程有什么问题吗? 看其他项目处理的数据都没有 list 我是因为那列有的是空有的有三四个数据 然后就直接存的 list 该怎么处理呢?我也没能查到其他人有类似的处理流程。。。

最新回复 (0)
  • 游客
    2
返回