Trouve beau tout ce que tu peux
Le blog de Laurent Montané
Images : 1-0/0
Vidéos : 1-0/0
Première page
Page précédente
Page suivante
Dernière page
Images
Catégories
Date des faits
MYSQL et UTF-8
Les fonctions RLIKE, ou REGEXP, de MySQL (5.0) ne fonctionne pas en UTF-8
les expressions régulières sont totalement indisponibles

C'est la seule limite actuelle que j'ai rencontrer, mais elle est de taille.
La fonction LIKE marche, au contraire, avec une étonnante efficacité. Nous pouvons donc nous en contenter, pour le projet oBlog, pour la recherche de mot dans les articles. Avec toutefois la perte de fonctionnalité suivante : impossible de tester seulement des mots entiers. Et une exception particulière autour des lettres doubles comme "œ" et d'autres du même genre.


Pour la création de la base et des tables

Nos instructions tourneront autour de ces exemples :

ALTER DATABASE `sauver` DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci

CREATE DATABASE `toto` DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci;


ALTER TABLE `ob_articles` CHANGE `art_titre` `art_titre` VARCHAR( 200 ) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL
CREATE TABLE `toto`.`article` (`texte` TEXT CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL) ENGINE = MYISAM CHARACTER SET utf8 COLLATE utf8_general_ci;


Pour interroger la base depuis le PHP

Il est important de savoir, et de déclarer, si nous fournissons des requêtes rédiger en UTF-8. Il existe une requête pour signaler à MySQL la norme utilisée pour la rédaction des requêtes suivantes. Il est préférable de la lancer directement, et systématiquement, lors de la connexion à la base.

mysql_query("SET NAMES 'utf8'")


Pour gérer les exceptions des lettres doubles

Nous créons une fonction php basé sur le tableau suivant que chacun pour mettre a jour en fonction des situation qu'il a gerer


// exemple de caracteres doubles
    $caracteres_doubles [] = array('æ','ae');
    $caracteres_doubles [] = array('œ','oe');
    $caracteres_doubles [] = array('đ','dj');


function mot_double($mot)
    {
    global $caracteres_doubles;
    $mot_nouveau = $mot;
    foreach ($caracteres_doubles as $caractere)
        $mot_nouveau = mb_ereg_replace($caractere[1],$caractere[0],$mot_nouveau);
    if ($mot_nouveau <> $mot)
        return $mot_nouveau;
    return false;
    }


Puis nous doublons la clause WHERE comme ceci

if (!is_bool($mot_nouveau=mot_double($mot)))
    $where = ' WHERE ((texte LIKE "%'.$mot.'%") OR (texte LIKE "%'.$mot_nouveau.'%")) ';
else
    $where = ' WHERE texte LIKE "%'.$mot.'%"';

Catégories : PHP - SQL - UTF-8

Par : Laurent
Numéro : 40

Ajouter un commentaire
Ballade en UTF-8
Nous avons décidé de programmer oBlog en UTF-8,
soit, mais ce n'est pas si simple.
La théorie n'est pas simple... la pratique est plus compliquée.

Vouloir faire le tour de l'UTF-8, et donc des normes Unicode pour les écritures des langages humains, c'est comme vouloir faire le tour du monde à pieds. Nous ne ferons qu'une ballade pour observer l'horizon dans différent lieu. En fait nous cherchons les conditions et limites actuelles autour de la norme UTF-8, pour les outils d'environnement que nous utilisons.


La première limite à l'utilisation de l'UTF-8 est de disposer de polices de caractères capables d'afficher a l'écran le résultat de notre recherche. La police la plus complète que nous avons rencontrée est celle fournie en standard par Microsoft par exemple : Arial Unicode MS



Pour apercevoir l'ampleur du problème, résumé sur une page, nous pouvons regarder celle-ci : http://www.unicode.org/fr/charts/


Il existe également un module d'extension pour FireFox, qui propose l'utilisation de plus d'un million de caractères !

"International Sideboard 2.9.1" : https://addons.mozilla.org/fr/firefox/addon/10573/


Trouvons également ici un logiciel gratuit pour l'observation des polices en rapport avec les normes Unicode actuelles : http://www.babelstone.co.uk/Software/


Évidement, nous ne traiterons pas tous les cas dans notre source. Mais nous écrirons une source qui permettent une adaptation à ces différentes potentialités en changeant simplement les contenus des tableaux qui résument les situations que le blog devra gérer, pour palier aux limites des fonctions actuelles spécialisées UTF-8 de PHP et MYSQL.

Catégories : UTF-8

Par : Laurent
Numéro : 5

Ajouter un commentaire
Passer en UTF8

Ouvre base user :

mysql_query("SET NAMES 'utf8'")


head : <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"/>


'formualire :<form action="'.$_SERVER['REQUEST_URI'].'" method="post" accept-charset="UTF-8">


php

initialisation du jeu de caractere UTF8 pour les fonctions du module php MB
    mb_internal_encoding('UTF-8');
    mb_regex_encoding('UTF-8');

htmlentities($variable,ENT_QUOTES,'UTF-8');

html_entity_decode($variable,ENT_QUOTES,'UTF-8');

htmlspecialchars ( string $string [, int $quote_style = ENT_COMPAT [, string $charset [, bool $double_encode = true ]]] )

htmlspecialchars_decode ( string $string [, int $quote_style = ENT_COMPAT ] )

get_html_translation_table ([ int $table = HTML_SPECIALCHARS [, int $quote_style = ENT_COMPAT ]] )

utf8_encode

utf8_decode

strtolower > mb_strtolower

strtoupper > mb_strtoupper

mb_convert_case

mb_substr

mb_strlen


base de donnée :

ALTER DATABASE `sauver` DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci

CREATE DATABASE `toto` DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci;

ALTER TABLE `ob_articles` CHANGE `art_titre` `art_titre` VARCHAR( 200 ) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL

CREATE TABLE `toto`.`article` (`texte` TEXT CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL) ENGINE = MYISAM CHARACTER SET utf8 COLLATE utf8_general_ci;

Catégories : PHP - HTML - SQL - UTF-8

Par : Laurent
Numéro : 10

Ajouter un commentaire