生成的数据集，csv文件列数不同，没办法正常读取的解决方法

Monster-Z

2024-04-26 帮助1人

遇到的问题

由于自己读写文件操作生成的csv格式的数据集，每行的数据长度不一致，导致用pandas读取数据时候报错:
pandas.errors.ParserError: Error tokenizing data. C error: Expected 55 fields in line 5, saw 73
很是心烦，网上查了很久之后找到了大神分享的方法，记录一下！

代码如下

import pandas as pd
csv_file = "../datasets/features/dataset.csv"
largest_column_count =0
with open(csv_file, 'r') as temp_f:
    lines = temp_f.readlines()
    for l in lines:
        column_count = len(l.split(','))   1
        largest_column_count = column_count if largest_column_count < column_count else largest_column_count
temp_f.close()
# 这里可以直接定义你想要的列数就可以了（由于我的数据集列数千万级别，有点大，自己尝试了一下直接定义largest_column_count）
column_names = [i for i in range(0, largest_column_count)]

data = pd.read_csv("../datasets/features/dataset.csv", header=None, delimiter=',', names=column_names)

该方法原文链接

https://blog.csdn.net/Kyrie_10/article/details/117367220

这篇好文章是转载于：学新通技术网

生成的数据集，csv文件列数不同，没办法正常读取的解决方法

遇到的问题

代码如下

该方法原文链接

photoshop保存的图片太大微信发不了怎么办

《学习通》视频自动暂停处理方法

Android 11 保存文件到外部存储，并分享文件

word里面弄一个表格后上面的标题会跑到下面怎么办

photoshop扩展功能面板显示灰色怎么办

微信公众号没有声音提示怎么办

excel下划线不显示怎么办

excel打印预览压线压字怎么办

TikTok加速器哪个好免费的TK加速器推荐

怎样阻止微信小程序自动打开