Une page web contient une quantité d’informations non réellement discriminées. Les balises et attributs (avant l’arrivée des micro-formats) étaient utilisés à des fins d’affichage mais peu de description. En caricaturant à peine, la seule manière de mettre en avant une partie jugée importante de l’information était d’utiliser une balise <li> ou un attribut <b>. Et cette mise en avant n’était compréhensible que par un lecteur humain, capable par une analyse visuelle du contenu de repérer les points importants, analyse hors de portée des robots des moteurs de recherche.
Baliser des données structurées consiste à intégrer au sein même du code d’une page web des balises destinées à indiquer aux moteurs de recherche les éléments caractéristiques de l’élément principal décrit (recette. film, concert, etc.).
La création des micro-formats dès 2003 a visé à combler cette lacune. Les micro-formats sont par définition un formatage des données destiné à structurer l’information destinée aux utilisateurs finaux. En ajoutant du sens via la codification de balises HTML ils apportent une solution simple et peu consommatrice de puissance de calcul (contrairement à des systèmes d’intelligence artificielle visant à la compréhension d’un texte libre).
Quand une donnée est structurée par les balises dédiées elle devient plus facilement analysée et comprise par les moteurs de recherche et de bénéficie éventuellement d’un traitement spécifique dans les pages de résultats sous forme de rich snippet. Cette structuration se fait grâce à l’utilisation de balises HTML de marquage qui sont regroupées en 3 grandes familles : les microformats, les microdonnées ou microdata et le RDFa.