Как разобрать CSV файл с помощью PHP. Чтение нескольких файлов CSV Импорт и экспорт CSV данных на PHP

Функция Fgetcsv читает строку из файла и производит разбор данных CSV .
array fgetcsv(resource $handle [, int $length = 0 [, string $delimiter = "," [, string $enclosure = """ [, string $escape = "\" ]]]]) Функция Fgetcsv похожа на функцию Fgets , с той разницей, что она производит анализ строки на наличие записей в формате CSV и возвращает найденные поля в качестве массива.

Параметр Handle являет собой корректный файловый указатель на файл, успешно открытый при помощи Fopen , Popen или Fsockopen .

Параметр Length должен быть больше самой длинной строки (в символах), найденной в CSV-файле (включая завершающий символ конца строки). В противном случае, строка будет разбита на куски длиной в Length символов если только место разрыва не будет внутри ограничителей полей (Enclosure ).

Необязательный параметр Delimiter устанавливает разделитель поля (только один символ).

Необязательный параметр Enclosure устанавливает символ ограничителя поля (только один символ).

Необязательный параметр Escape устанавливает экранирующий символ (только один символ).

Функция Fgetcsv возвращает индексированный массив с прочтенными полями или NULL , если передается неверный параметр Handle , или FALSE при других ошибках, в том числе и по достижении конца файла.

Пустая строка CSV-файла будет возвращена в качестве массива, содержащего единственный элемент NULL , ошибки в данном случае не возникнет.

Очень много фирм, организаций, и т.д. в своей работе используют расширение Microsoft Office - EXEL. В одних, в Exel сохраняются продукция, в других информация о товарах, пользователях, цены, или даже просто номера телефонов. Бывает необходимость эти данные перенести в другую базу данных, например для WEB .

Для начала, нужно открыть Ваш файл Exel с расширением .XLS . Потом сохранить его как .CSV . Теперь его можно использовать и в веб приложениях. Этот же файл можно открыть любим редактором, например Total comander , и вы увидите его содержимое. Если же открыть также XLS файл, то будут видны только множество неразборчивого и непонятного кода.

Также можно преобразовывать в CSV файли и таблицы из Microsoft Office и OpenOffice Writer .

Для OpenOffice Writer делается это следующим образом:

1. Создаем таблицу.

2. Выбираем в меню "Таблица" -> "Преобразовать" -> "Таблицу в текст".

3. Указываем разделитель текста, например "@" и подтверждаем действие нажатием на кнопку Ok.

5. Последнее что нужно сделать, это переименовать test.txt в test.csv .

Вот теперь мы создали файл, который доступен для импорта в скрипт PHP:
// открываем файл для чтения
$fh = fopen("test.csv", "r");
// читаем строку из файла и производим разбор данных CSV
$info = fgetcsv($fh, 1000, "@");
// выводим масив результат
print_r($info);
// закрываем файл
fclose($fh); Результатом выполнения будет первая строка таблицы.

Для того, чтоб прочитать весь файл CSV , можно использовать цикл While :
// открываем файл для чтения
$fh = fopen("test.csv", "r");

// выводим масив результат
print_r($info);
}
// закрываем файл
fclose($fh); Для того, чтоб обратиться к каждому отдельному элементу, можно воспользоваться языковой конструкцией List :
// открываем файл для чтения
$fh = fopen("test.csv", "r");
while (($info = fgetcsv($fh, 1000, "@")) !== false) {
// сохнаряем значения массива в переменные
list($var1, $var2) = $info;
}
// закрываем файл
fclose($fh); Благодаря функции Fgetcsv можно обработать большое количество данных из таблиц.

Я искал одно и то же, не используя какой-то неподдерживаемый класс PHP. Excel CSV не всегда использует разделители цитат и избегает цитат с использованием "", потому что алгоритм, вероятно, был возвращен 80 или что-то в этом роде. Посмотрев на несколько парсеров.csv в разделе комментариев на PHP.NET, я видел те, которые даже использовали обратные вызовы или код eval"d, и они либо не работали, как необходимо, либо просто не работали вообще. Итак, я написал для себя свои подпрограммы, и они работают в самой базовой конфигурации PHP. Ключи массива могут быть либо числовыми, либо именованными как поля, заданные в строке заголовка. Надеюсь это поможет.

Function SW_ImplodeCSV(array $rows, $headerrow=true, $mode="EXCEL", $fmt="2D_FIELDNAME_ARRAY") // SW_ImplodeCSV - returns 2D array as string of csv(MS Excel .CSV supported) // AUTHOR: [email protected] // RELEASED: 9/21/13 BETA { $r=1; $row=array(); $fields=array(); $csv=""; $escapes=array("\r", "\n", "\t", "\\", "\""); //two byte escape codes $escapes2=array("\r", "\n", "\t", "\\", "\""); //actual code if($mode=="EXCEL")// escape code = "" { $delim=","; $enclos="""; $rowbr="\r\n"; } else //mode=STANDARD all fields enclosed { $delim=","; $enclos="""; $rowbr="\r\n"; } $csv=""; $i=-1; $i2=0; $imax=count($rows); while($i < $imax) { // get field names if($i == -1) { $row=$rows; if($fmt=="2D_FIELDNAME_ARRAY") { $i2=0; $i2max=count($row); while(list($k, $v) = each($row)) { $fields[$i2]=$k; $i2++; } } else //if($fmt="2D_NUMBERED_ARRAY") { $i2=0; $i2max=(count($rows)); while($i2<$i2max) { $fields[$i2]=$i2; $i2++; } } if($headerrow==true) { $row=$fields; } else { $i=0; $row=$rows;} } else { $row=$rows[$i]; } $i2=0; $i2max=count($row); while($i2 < $i2max)// numeric loop (order really matters here) //while(list($k, $v) = each($row)) { if($i2 != 0) $csv=$csv.$delim; $v=$row[$fields[$i2]]; if($mode=="EXCEL") //EXCEL 2quote escapes { $newv = """.(str_replace(""", """", $v))."""; } else //STANDARD { $newv = """.(str_replace($escapes2, $escapes, $v))."""; } $csv=$csv.$newv; $i2++; } $csv=$csv."\r\n"; $i++; } return $csv; } function SW_ExplodeCSV($csv, $headerrow=true, $mode="EXCEL", $fmt="2D_FIELDNAME_ARRAY") { // SW_ExplodeCSV - parses CSV into 2D array(MS Excel .CSV supported) // AUTHOR: [email protected] // RELEASED: 9/21/13 BETA //SWMessage("SW_ExplodeCSV() - CALLED HERE -"); $rows=array(); $row=array(); $fields=array();// rows = array of arrays //escape code = "\" $escapes=array("\r", "\n", "\t", "\\", "\""); //two byte escape codes $escapes2=array("\r", "\n", "\t", "\\", "\""); //actual code if($mode=="EXCEL") {// escape code = "" $delim=","; $enclos="""; $esc_enclos=""""; $rowbr="\r\n"; } else //mode=STANDARD {// all fields enclosed $delim=","; $enclos="""; $rowbr="\r\n"; } $indxf=0; $indxl=0; $encindxf=0; $encindxl=0; $enc=0; $enc1=0; $enc2=0; $brk1=0; $rowindxf=0; $rowindxl=0; $encflg=0; $rowcnt=0; $colcnt=0; $rowflg=0; $colflg=0; $cell=""; $headerflg=0; $quotedflg=0; $i=0; $i2=0; $imax=strlen($csv); while($indxf < $imax) { //find first *possible* cell delimiters $indxl=strpos($csv, $delim, $indxf); if($indxl===false) { $indxl=$imax; } $encindxf=strpos($csv, $enclos, $indxf); if($encindxf===false) { $encindxf=$imax; }//first open quote $rowindxl=strpos($csv, $rowbr, $indxf); if($rowindxl===false) { $rowindxl=$imax; } if(($encindxf>$indxl)||($encindxf>$rowindxl)) { $quoteflg=0; $encindxf=$imax; $encindxl=$imax; if($rowindxl<$indxl) { $indxl=$rowindxl; $rowflg=1; } } else { //find cell enclosure area (and real cell delimiter) $quoteflg=1; $enc=$encindxf; while($enc<$indxl) //$enc = next open quote {// loop till unquoted delim. is found $enc=strpos($csv, $enclos, $enc+1); if($enc===false) { $enc=$imax; }//close quote $encindxl=$enc; //last close quote $indxl=strpos($csv, $delim, $enc+1); if($indxl===false) { $indxl=$imax; }//last delim. $enc=strpos($csv, $enclos, $enc+1); if($enc===false) { $enc=$imax; }//open quote if(($indxl==$imax)||($enc==$imax)) break; } $rowindxl=strpos($csv, $rowbr, $enc+1); if($rowindxl===false) { $rowindxl=$imax; } if($rowindxl<$indxl) { $indxl=$rowindxl; $rowflg=1; } } if($quoteflg==0) { //no enclosured content - take as is $colflg=1; //get cell // $cell=substr($csv, $indxf, ($indxl-$indxf)-1); $cell=substr($csv, $indxf, ($indxl-$indxf)); } else// if($rowindxl > $encindxf) { // cell enclosed $colflg=1; //get cell - decode cell content $cell=substr($csv, $encindxf+1, ($encindxl-$encindxf)-1); if($mode=="EXCEL") //remove EXCEL 2quote escapes { $cell=str_replace($esc_enclos, $enclos, $cell); } else //remove STANDARD esc. sceme { $cell=str_replace($escapes, $escapes2, $cell); } } if($colflg) {// read cell into array if(($fmt=="2D_FIELDNAME_ARRAY") && ($headerflg==1)) { $row[$fields[$colcnt]]=$cell; } else if(($fmt=="2D_NUMBERED_ARRAY")||($headerflg==0)) { $row[$colcnt]=$cell; } //$rows[$rowcnt][$colcnt] = $cell; $colcnt++; $colflg=0; $cell=""; $indxf=$indxl+1;//strlen($delim); } if($rowflg) {// read row into big array if(($headerrow) && ($headerflg==0)) { $fields=$row; $row=array(); $headerflg=1; } else { $rows[$rowcnt]=$row; $row=array(); $rowcnt++; } $colcnt=0; $rowflg=0; $cell=""; $rowindxf=$rowindxl+2;//strlen($rowbr); $indxf=$rowindxf; } $i++; //SWMessage("SW_ExplodeCSV() - colcnt = ".$colcnt." rowcnt = ".$rowcnt." indxf = ".$indxf." indxl = ".$indxl." rowindxf = ".$rowindxf); //if($i>20) break; } return $rows; }

Bob теперь может вернуться к своим речам

10948|Book|Type1

SHA512||0||10948

0|10948|SHA512|

Я бы хотел, чтобы это было так

C3884fbd7fc122b5273262b7a0398e63|SHA512|Type1|Book

У меня нет доступа к реальной базе данных, есть ли способ сделать это? В основном ищет $id = $file1; if($file3 == $id) $id = $file1; if($file3 == $id) или что-то еще более эффективно.

Каждый файл CSV находится в любом месте от линий 100k-300k. Мне все равно, если это займет некоторое время, я могу просто позволить ей работать на EC2 некоторое время.

$data = array(); $fh = fopen("file1") or die("Unable to open file1"); while(list($id, $val1, $val2) = fgetcsv($fh, 0, "|")) { $data[$id]["val1"] = $val1; $data[$id]["val2"] = $val2; } fclose($fh); $fh = fopen("file2") or die ("Unable to open file2"); while(list($method, null, null, null, $id) = fgetcsv($fh, 0, "|")) { $data[$id]["method"] = $method; } fclose($fh); $fh = fopen("file3") or die("Unable to open file3"); while(list(null, $id, null, $hash) = fgetcsv($fh, 0, "|")) { $data[$id]["hash"] = $hash; } fclose($fh);

Нужно, но вы должны получить массив с данными, которые вы хотите. Вывод его в качестве другого csv оставлен как упражнение для читателя (подсказка: см. fputcsv()).

Все три файла имеют общее поле (т. Е. В вашем примере «10948» было общим для всех трех строк). Если вас не беспокоит использование большого количества памяти, вы можете загрузить все три файла в другом массиве, установив общее поле в качестве ключа массива и используя цикл foreach, чтобы собрать все три.

Например:

$result = array(); // File 1 $fh = fopen("file1"); while (($data = fgetcsv($fh, 0, "|")) !== FALSE) $result[$data] = $data; fclose($fh); // File 2 $fh = fopen("file2") while (($data = fgetcsv($fh, 0, "|")) !== FALSE) $result[$data] = array_merge($result[$data], $data); fclose($fh); // File 3 $fh = fopen("file3") while (($data = fgetcsv($fh, 0, "|")) !== FALSE) $result[$data] = array_merge($result[$data], $data); fclose($fh);

Я бы предложил выполнить слияние-сортировку с использованием основных инструментов unix:
a) сортировать файлы.CSV по столбцам, общим для каждого файла, sort -d "" -K? -К? -К?
b) Использование команды unix "join" для вывода записей, общих между парами файлов.CSV. Команда «join» работает только с двумя файлами за раз, поэтому вам придется «цепочки» результатов для нескольких источников данных:

# where "x" is field number from file A, and "y" is field number from file B sort -kx "fileA" sort -ky "fileB" join -1x -2y "fileA" "fileB" > file1 sort -kx "fileC" join -1x -2y "file1" "fileC" > file2 sort -kx "fileD" join -1x -2y "file2" "fileD" > file3 etc...

Это очень быстро и позволяет фильтровать ваши файлы.CSV, как если бы произошло импровизированное соединение базы данных.

Если вам нужно написать свой собственный метод merge-sort в php: (Read Here: Merge Sort)

Простейшая реализация для объединения файлов.CSV является двухэтапной: a) unix сортирует ваши файлы, затем B) «объединяет» все источники параллельно, читая в записи от каждого, ища случай, когда ваше значение в ваши общие поля соответствуют всем другим источникам (JOIN в терминологии базы данных):
правило 1) Пропустить запись, которая меньше (<) ВСЕХ других источников.
правило 2) Когда общее значение записи равно (==), все другие источники имеют совпадение.
правило 3) Когда общее значение записи равно (==), является НЕКОТОРЫМ из другого источника, вы можете использовать логику «LEFT-JOIN», если хотите, иначе пропустите эту запись из всех источников.

Псевдокод для объединения нескольких файлов

Read 1st record from every data source; while "record exists from all data sources"; do for A in each Data-Source ; do set cntMissMatch=0 for B in each Data-Source; do if A.field < B.field then cntMissMatch+=1 end if end for if cntMissMatch == count(Data-Sources) then # found record with lowest values, skip it read next record in current Data-source; break; # start over again looking for lowest else if cntMissMatch == 0 then we have a match, process this record; read in next record from ALL data-sources ; break; # start over again looking for lowest else # we have a partial match, you can choose to have # "LEFT-JOIN" logic at this point if you choose, # where records are spit out even if they do NOT # match to ALL data-sources. end if end if end for done

Надеюсь, это поможет.

Достаточно высока, заказчики просят сделать импорт товаров из их прайс листов. Им необходимо чтобы была возможность не только добавлять новый товар на сайт, но и обновлять цены и количество на складе уже существующих товаров.

PHP как известно не умеет работать excel-файлами стандартными средствами. Конечно есть множество различных классов, которые могут читать и записывать информацию в excel, но с ними возникает достаточно много проблем (об этом мы напишем в следующих статьях).

Куда проще и удобней работать с csv-файлами .

Для примера сделаем небольшую программку. Она будет обрабатывать csv-файл сотрудников компании OX2.ru.

Создадим новую таблицу в Excel, содержащую следующие поля:

Сохраним таблицу как csv-файл, с разделителем поля «;».

У нас должен получиться такой файл:

"Иванов А.А.";"Программист компании OX2.ru";89255552332 "Сидоров А.Е.";"Дизайне компании OX2.ru";89161231212 "Пирожков А.Б.";"Арт-директор OX2.ru";84951232121 "Кулибин Б.А.";"Менеджер OX2.ru";89031233333

Ниже приведен исходный код с подробным описанием.

Код слелан на ООП с использованием классов , и при небольшой доработки может многократно использоваться в различных приложениях. Если вы не привыкли к программированию на классах, а используете функции или еще что-то, то настоятельно рекомендуем переучиваться))

Так же в коде используется генерация исключений (Exception), о них читайте в следующих наших статьях.

_csv_file = $csv_file; //Записываем путь к файлу в переменную } else { //Если файл не найден то вызываем исключение throw new Exception("Файл "$csv_file" не найден"); } } public function setCSV(Array $csv) { //Открываем csv для до-записи, //если указать w, то ифнормация которая была в csv будет затерта $handle = fopen($this->_csv_file, "a"); foreach ($csv as $value) { //Проходим массив //Записываем, 3-ий параметр - разделитель поля fputcsv($handle, explode(";", $value), ";"); } fclose($handle); //Закрываем } /** * Метод для чтения из csv-файла. Возвращает массив с данными из csv * @return array; */ public function getCSV() { $handle = fopen($this->_csv_file, "r"); //Открываем csv для чтения $array_line_full = array(); //Массив будет хранить данные из csv //Проходим весь csv-файл, и читаем построчно. 3-ий параметр разделитель поля while (($line = fgetcsv($handle, 0, ";")) !== FALSE) { $array_line_full = $line; //Записываем строчки в массив } fclose($handle); //Закрываем файл return $array_line_full; //Возвращаем прочтенные данные } } try { $csv = new CSV("ox2.csv"); //Открываем наш csv /** * Чтение из CSV (и вывод на экран в красивом виде) */ echo "

CSV до записи:

"; $get_csv = $csv->getCSV(); foreach ($get_csv as $value) { //Проходим по строкам echo "Имя: " . $value . "
"; echo "Должность: " . $value . "
"; echo "Телефон: " . $value . "
"; echo "--------
"; } /** * Запись новой информации в CSV */ $arr = array("Антонов Б.А.;Админ OX2.ru;89031233333", "Колобков В.Б.;Босс OX2.ru;89162233333"); $csv->setCSV($arr); } catch (Exception $e) { //Если csv файл не существует, выводим сообщение echo "Ошибка: " . $e->getMessage(); } ?>

Основную работу с CSV файлами на себя берет класс CSV , Он имеет следующие методы:

setCSV(Array $csv) - записывает данные в csv-файл. Данные должны быть переданы массивом. Метод может дозаписывать csv файл, и создавать новый (читайте в описании).

Метод getCSV читает данные из csv файла, и возвращает двумерный массив следующего вида:

Array ( => Array ( => Иванов А.А. => Программист компании OX2.ru => 89255552332) => Array ( => Сидоров А.Е. => Дизайне компании OX2.ru => 89161231212) => Array ( => Пирожков А.Б. => Арт-директор OX2.ru => 84951232121) => Array ( => Кулибин Б.А. => Менеджер OX2.ru => 89031233333))

Пример достаточно простой, несмотря на то что получилось достаточно много кода.

Импорт данных из csv файлов будет полезен не только для обновление товаров в интернет-магазинах, но и для подгрузки/обновлении какой-либо информации на обычный сайт.

Например, мы разрабатывали сайт управляющей компании, и им требовалось ежемесячно публиковать информацию по счетчикам горячей и холодной воды. Все данные у них храняться в excel файлах. И тут прекрасно подошел csv формат!

При этом стоимость создания сайта останется не изменой, а функционал и автоматизация сайта будет на уровень выше чем у конкурентов.

С проблемой обработки больших CSV-файлов на PHP в первый раз я столкнулась недавно. На PHP я вообще мало программирую, только если возникают задачи написать что-либо конкретно на этом языке.

В предыдущей статье были рассмотрены . Там же я отметила, что работа с большими файлами требует особого подхода. Основным ограничением для импорта большого объема данных является время выполнения скрипта, которое задается хостером (как правило 30 секунд).

Мне необходимо было именно автоматизировать процесс полного импорта. Перед вставкой в таблицу значения полей, полученные из scv-файла, требовали анализа и дополнительной обработки.

Когда я прочитала в описании утилиты BigDump (в предыдущей статье я на нее ссылалась) о принципе работы:

The script executes only a small part of the huge dump and restarts itself. The next session starts where the last was stopped. (Перевод: Скрипт выполняет лишь небольшую часть SQL-команд из файла и перезапускает сам себя. В следующий раз импорт начинается с того места, в котором скрипт прервал свою работу.)

я поняла, что мне обязательно нужно попробовать такое решение. Поиски в инете чего-то похожего окончились успешно.

$file_name = $_GET["path"];

$conn = mysql_connect ("localhost", "username", "pass")
or die ("Соединение не установлено!");
@mysql_select_db("db_name") or die ("Соединение не установлено!");

if (($handle_f = fopen($file_name, "r")) !== FALSE)
{
// проверяется, надо ли продолжать импорт с определенного места
// если да, то указатель перемещается на это место
if(isset($_GET["ftell"])){
fseek($handle_f,$_GET["ftell"]);
}
$i=0;
if(isset($_GET["x"])){
$x=$_GET["x"];
} else {
$x = 0;
}

// построчное считывание и анализ строк из файла
while (($data_f = fgetcsv($handle_f, 1000, ";"))!== FALSE) {
$insert_q = "insert into temp1 (code,contract,price,amount,dat_time,is_op) values ".
" (\"".$data_f."\",\"".$data_f."\",\"".$data_f."\",\"".$data_f."\",\"".$data_f."\",\"0\")";
@mysql_query($insert_q);

If(!strstr($i/5000,".")){
print "Importing record #: ".$x."
";
flush();
ob_flush();
}

If($i==20000){
print "";
exit;
}
$x++;
$i++;

Fclose($handle_f);
} else {$err = 1; echo "Не получилось открыть файл";}

В параметре path при вызове скрипта передается путь к файлу, из которого надо производить импорт. В скрипте происходит импорт определенного количества строк (в примере - 20000), после чего он перезапускает сам себя с параметрами, среди которых кроме названия файла передается указатель на то место, с которого продолжать импорт (ftell ).

Я протестировала этот скрипт на файле размером 60 Mb. Отработал он правильно, все проимпортировал. Но время работы, все-таки, хотелось бы уменьшить.

В той же ветке форума, откуда я стырила это решение, обсуждалось, что ускорить работу скрипта при импорте данных в базу можно, заменив одиночные инсерты групповыми.

Команда INSERT, использующая VALUES, может быть использована для вставки сразу нескольких рядов. Чтобы сделать это, перечислите наборы значений, которые вам надо вставить. Пример:

INSERT INTO tbl_name (a,b,c) VALUES(1,2,3),(4,5,6),(7,8,9);


Апгрейдив скрипт на групповую вставку, получила и вправду более подходящий по быстродействию результат. Но думаю, что на этом пока рано останавливаться, буду искать дальше.

Несправедливо было бы обойти вниманием комментарий maxnag-а к предыдущему посту и не упомянуть о возможности