Introducci�n a los sistemas de control de versiones

Tabla de contenido

Pr�logo
El proceso de desarrollo de software
Grupos de trabajo
Capacidad de revisi�n
diff + patch
Sistemas para la administraci�n de c�digo fuente
Manipulando repositorios
Historia de un repositorio
Dos formas de ver a los SCMs
SCMs centralizados
SCMs distribuidos
Caso de estudio de SCM Centralizado: Subversion
Caso de estudio de SCM Distribuido: Darcs
Ejemplos pr�cticos
Montando un repositorio p�blico con darcs
Links �tiles

Pr�logo

Este documeto surge inicialmente como material de apoyo para la charla SCMs: Mitos y verdades dada en el contexto de las Charlas Irregulares 2005 del LUGFI. Al ir puli�ndolo para publicarlo como material de la charla (en donde est� el audio y las filminas) se fue convirtiendo gradualmente cada vez m�s en un documento importante, por lo que decidimos publicarlo en un lugar con protagonismo propio =)

Por favor cualquier duda, consulta o sugerencia avisar a Leandro Lucarella y/o a Alberto Bertogli.

Tambi�n hay un repositorio darcs con la �ltima versi�n de estos documentos para ser consultado y a trav�s del cual pueden mandarnos f�cilmente alg�n patch con correcciones o sugerencias ;)

El proceso de desarrollo de software

Creo que es importante empezar mencionando que el desarrollo de software es un proceso inherentemente social y creativo, y como tal tenemos que hacernos de la idea de que la mayor�a de los problemas que acarrea son de esta �ndole.

Comencemos por sentar una base com�n acerca de como se suele desarrollar software. Esto no tiene nada que ver con todas esas metodolog�as horrorosas (Extreme programming, Unified Process, etc., etc.), sino con como, en el fondo, se realiza ese proceso desde el punto de vista de la evoluci�n del c�digo.

Ya sea que trabajemos en grupo o de forma individual, todos comenzamos con una hoja en blanco y una idea en la cabeza, que a medida que progresamos va tomando forma.

En el caso del software, nosotros en esta charla nos vamos a concentrar un poco en el c�digo fuente, y no vamos a hablar tanto del tema de dise�o o arquitectura de software porque no nos ata�e, robar�a mucho tiempo y podemos enfocarnos en lo que queremos explicar sin necesidad de entrar en esos temas.

Por lo tanto, nosotros arrancamos con un directorio vac�o, en el cual vamos escribiendo, construyendo nuestro software de forma incremental e iterativa, corrigiendo nuestros propios errores a medida que aparecen, y agregando cosas nuevas cuando se nos place.

Detengamonos un poco ac� y miremos mejor que pasa con nuestro c�digo a medida que vamos avanzando en un proyecto: nuestro c�digo va evolucionando, cambiando con iteraciones peque�as que nosotros vamos introduciendo por diversos motivos (normalmente correcciones o caracter�sticas nuevas), porque esa es la manera en la que vemos y pensamos al software: es como si tuvi�ramos una escultura que tiene una forma determinada y nosotros por nuestras arbitrarias razones la queremos ir modificando.

Por lo tanto, podemos pensar que el software se va construyendo en base a modificaciones incrementales que nosotros vamos haciendo. Pero aun m�s, una cosa esencial es que esos cambios no son desordenados ni desorganizados (aunque hay cada uno!): se corresponden con alguna construcci�n mental nuestra, porque cuando nosotros pensamos en implementar algo o corregir un bug, lo tenemos en mente como una unidad, como un objetivo bastante independiente de como se representa en el c�digo fuente; y nosotros pensamos en que cambios le tenemos que realizar para lograr ese objetivo propuesto.

Y ese proceso, esa forma de ver las modificaciones es lo que hace que desarrollemos de la manera en la que lo hacemos, m�s all� de que a otro nivel se usen esos m�todos que (rid�culamente) se suelen modelar y estudiar, en el fondo uno piensa las cosas de esa manera, de la misma forma que un escultor piensa en una nariz, unos ojos, un pliegue de una manta o un gesto con la mano, y es capaz de ver tanto los objetos individuales como el conjunto que �stos forman.

Vamos a bautizar esos cambios de los que estuvimos hablando, porque ac� si las cosas no tienen un nombre con onda y/o una sigla, nadie les da bola. Nosotros dijimos que pens�bamos en los cambios como una entidad en s� misma, y vamos a llamar changeset a eso: a un grupo de cambios que se realizan sobre una base de c�digo, todos orientados a un fin en com�n.

Grupos de trabajo

Cuando trabajamos en grupo, surge la necesidad de coordinar el trabajo, no s�lo por una cuesti�n natural sino tambi�n como mecanismo de optimizar los recursos: cuando faltan dos d�as para entregar un trabajo, absolutamente nadie quiere perder tiempo, y menos si eso implica que dos personas hayan estado trabajando toda una tarde sobre lo mismo.

Por eso, para desarrollar en grupo es imprescindible la buena comunicaci�n y entendimiento entre los pares. Esto implica que, en general, los desarrollos se dan de forma coordinada (ya sea de manera horizontal o vertical, independientemente del mecanismo que se elija expl�cita o impl�citamente para ello) al menos en un nivel social, las tareas se reparten y los cambios se discuten donde afectan al grupo para facilitar el trabajo.

Claro que el desarrollar en grupo, por m�s que uno se lleve maravillosamente bien con la gente involucrada, acarrea ciertas incomodidades que s� son m�s t�cnicas, y que van a constituir gran parte de lo que vamos a hablar ac�: al haber m�s de una persona modificando el c�digo fuente de forma simultanea, existe una complejidad, y nada menor, en lo que refiere al hecho de sincronizarlo y mantenerlo coherente entre todos los miembros del grupo.

Tambi�n se dan en un grupo de trabajo relaciones asim�tricas respecto del c�digo, debido a que cada grupo tiene una forma y un flujo de trabajo particular, en el cual, por ejemplo, se pueden dar relaciones jer�rquicas, revisi�n de c�digo entre pares, subgrupos, etc.

Esto va a reflejarse en el c�digo fuente con el surgimiento de una nueva necesidad, que va a ser la de la integraci�n de m�ltiples trabajos individuales, la distribuci�n del mismo en distintas maquinas y la coordinaci�n para que todos puedan trabajar sobre la misma base de c�digo.

Capacidad de revisi�n

Justamente con los grupos es donde se ve m�s f�cil una cuesti�n de gran importancia, que es la capacidad de revisi�n, nombre con el que hacemos referencia a tener la posibilidad de ver lo que hicieron los otros, no s�lo para echarles la culpa (idealmente, esa deber�a ser la raz�n menos necesaria de todas), sino porque es muy importante tener en perspectiva que fue lo que hicieron los dem�s para el trabajo que realiza uno.

Se suelen decir maravillas de la abstracci�n y todo ese tipo de construcciones, pero no hay que perder de vista que, si bien son buenos conceptos, el tener una perspectiva amplia y completa de lo que se est� haciendo y con lo que se est� interactuando suele ser beneficioso para todos. Siguiendo con la analog�a del escultor, es como si un grupo de escultores se decidiera a trabajar con una pieza, tuvieran los planos, dibujos e ideas en com�n pero nunca miraran lo que hace el otro.

Vamos a describir entonces un poco mejor a que nos referimos con "poder revisar", porque hasta ahora no dijimos bien de que se trataba. Hace un ratito hablamos de como nosotros pens�bamos en las modificaciones a una base de c�digo como un conjunto de cambios que compart�an un fin en com�n, y los llamamos "changesets".

Entonces pensemos un poco acerca de este tema de la revisi�n: a nosotros cuando estamos desarrollando y queremos ver como arreglo nuestro compa�ero ese bug que estaba en el nuestro programa desde hacia rato y nadie se le animaba, lo que a nosotros nos va a interesar ver no es el c�digo terminado, porque normalmente de ah� nos va a costar deducir como fue la soluci�n, y adem�s quiz�s ya para cuando lo queramos ver le metimos tanta mano que quedo irreconocible su soluci�n inicial: lo que nos interesa es ver qu� cambios introdujo desde el c�digo con el error hasta el c�digo sin el error. O sea, nos interesa poder "leer" el changeset que introdujo.

Y esto es uno de los pilares del funcionamiento de todo esto que estamos hablando: podemos pensar en la representaci�n del c�digo ya no s�lo como un conjunto de archivos y directorios en los cuales se encuentra texto; sino que nos interesa, y mucho, llevar el conjunto de cambios que se han efectuado, que van acompa�ando y representando la evoluci�n de nuestro proyecto.

Esto nos va a permitir poder saber en cualquier instante del tiempo, desde que empezamos hasta ahora, c�mo fue evolucionando el c�digo fuente, y, lo m�s importante, qu� cambios se fueron produciendo en �l.

El tener el historial de cambios realizados sobre un repositorio nos va a deparar numerosos beneficios (aparte de poder saber a quien culpar cuando alguien hace una macana!). Nos va a permitir, en primera instancia, ser capaces de revisar y deshacer las cosas que nosotros mismos hicimos, aprender de lo que otros hicieron, nos va a facilitar encontrar errores porque vamos a poder ver que punto se rompi� algo, realizar numerosas pruebas, etc.

Todas esas cosas las vamos a ver en detalle m�s adelante porque son muy divertidas, pero para no irnos demasiado por las nubes, metamos un poco de realidad en todo este asunto.

diff + patch

Bueno, hasta ahora nosotros hablamos mucho de changesets y de cambios a una base de c�digo, e inclusive dijimos lo importante que era poder ver los cambios, pero todav�a no dijimos siquiera como obtenerlos!

Una de las herramientas m�s viejas y m�s usadas (inclusive actualmente), que constituye uno de las bases sobre las cuales se construyeron la mayor�a de los mecanismos actuales, son dos programas en apariencia muy simples, que se complementan.

El primero y m�s importante se llama "diff", y sirve para saber la diferencia, en principio, entre dos archivos A y B, compar�ndolos l�nea por l�nea y produciendo un tercer archivo C.

El archivo de cambios contiene la informaci�n necesaria para, teniendo A, saber que modificaciones realizarle para llegar a B, es por esto que tambi�n se le suele decir "delta". El formato en el que se este delta (el archivo C) puede variar, pero todo el mundo en su sano juicio (y de los que no, la mayor�a tambi�n) usa uno al que se llama "formato unificado".

El programa "patch" sirve para hacer el proceso inverso: toma un archivo base A, y el delta C, y produce un archivo B que resulta de tomar A y aplicarle los cambios que est�n descriptos en C.

Vamos a ver un ejemplito:

ARCHIVO A                                ARCHIVO B
=========                                =========
Gloria a Dios en las alturas,            Gloria a Dios en las alturas,
recogieron las basuras                   recogieron las basuras
de mi calle, ayer a oscuras              de mi calle, ayer a oscuras
y hoy sembrada de bombillas.             y hoy sembrada de bombillas.

Y colgaron de un cordel                  Y colgaron de un cordel
de esquina a esquina un cartel           de esquina a esquina un cartel
y banderas de papel                      y banderas de papel
verdes, rojas y amarillas.               lilas, rojas y amarillas.

Y al darles el sol la espalda            Y al darles el sol la espalda
revolotean las faldas                    revolotean las faldas
bajo un manto de guirnaldas              bajo un manto de guirnaldas
para que el cielo no vea,                para que el cielo no vea,

en la noche de San Juan,                 en la noche de San Juan,
c�mo comparten su pan,                   c�mo comparten su pan,
su tortilla y su gab�n,                  su mujer y su gal�n,
gentes de cien mil raleas.               gentes de cien mil raleas.

Apurad                                   Apurad
que all� os espero si quer�is venir      que all� os espero si quer�is venir
pues cae la noche y ya se van            pues cae la noche y ya se van
nuestras miserias a dormir.              nuestras miserias a dormir.

Vamos subiendo la cuesta                 Vamos subiendo la cuesta
que arriba mi calle                      que arriba mi calle
se visti� de fiesta.                     se visti� de fiesta.

Hoy el noble y el villano,               Hoy el noble y el villano,
el prohombre y el gusano                 el prohombre y el gusano
bailan y se dan la mano                  bailan y se dan la mano
sin importarles la facha.                sin importarles la facha.

Juntos los encuentra el sol              Juntos los encuentra el sol
a la sombra de un farol                  a la sombra de un farol
empapados en alcohol                     empapados en alcohol
abrazando a una muchacha.                magreando a una muchacha.

Y con la resaca a cuestas                Y con la resaca a cuestas
vuelve el pobre a su pobreza,            vuelve el pobre a su pobreza,
vuelve el rico a su riqueza              vuelve el rico a su riqueza
y el se�or cura a sus misas.             y el se�or cura a sus misas.

Se despert� el bien y el mal             Se despert� el bien y el mal
la pobre vuelve al portal                la zorra pobre al portal
la rica vuelve al rosal                  la zorra rica al rosal
y el avaro a las divisas.                y el avaro a las divisas.

Se acab�,                                Se acab�,
que el sol nos dice que lleg� el final.  que el sol nos dice que lleg� el final.
Por una noche se olvid�                  Por una noche se olvid�
que cada uno es cada cual.               que cada uno es cada cual.

Vamos bajando la cuesta                  Vamos bajando la cuesta
que arriba en mi calle                   que arriba en mi calle
se acab� la fiesta.                      se acab� la fiesta.


DIFF UNIFICADO
==============
--- archivo1      2005-05-17...
+++ archivo2      2005-05-17...
@@ -6,7 +6,7 @@
 Y colgaron de un cordel
 de esquina a esquina un cartel
 y banderas de papel
-verdes, rojas y amarillas.
+lilas, rojas y amarillas.

 Y al darles el sol la espalda
 revolotean las faldas
@@ -15,7 +15,7 @@

 en la noche de San Juan,
 c�mo comparten su pan,
-su tortilla y su gab�n,
+su mujer y su gal�n,
 gentes de cien mil raleas.

 Apurad
@@ -35,7 +35,7 @@
 Juntos los encuentra el sol
 a la sombra de un farol
 empapados en alcohol
-abrazando a una muchacha.
+magreando a una muchacha.

 Y con la resaca a cuestas
 vuelve el pobre a su pobreza,
@@ -43,8 +43,8 @@
 y el se�or cura a sus misas.

 Se despert� el bien y el mal
-la pobre vuelve al portal
-la rica vuelve al rosal
+la zorra pobre al portal
+la zorra rica al rosal
 y el avaro a las divisas.

 Se acab�,

(tambi�n se pueden ver los archivos por separado)

Si bien parece un poco loco, el formato del diff no s�lo es simple, sino que tambi�n es ampliamente legible, y se suele ser la forma preferida de ver los cambios realizados. Hoy en d�a es por lejos el formato m�s usado para ese fin.

Miremoslo un poco mejor: se compone de un encabezado en el cual se cuentan los nombres de los archivos involucrados y la hora en la que fueron modificados por ultima vez, luego una posici�n, un contexto, y las l�neas que cambiaron.

En este formato, los cambios se representan de una forma algo dual: se dice que l�neas han de ser removidas, y cuales han de ser colocadas en su lugar. A las primeras se les pone un - delante, y a las segundas un +. Las que no tienen ni - ni + son l�neas de contexto, puestas para hacerlo m�s legible y c�modo de manipular.

Esto se extiende a dos �rboles de c�digo haciendo la comparaci�n recursiva, caminando todos los archivos de la estructura de directorios.

As�, lo que se hace con esto y a pulm�n es tener el c�digo fuente base en un directorio, copiarlo a otro sobre el cual trabajamos, y cuando estamos conformes con los cambios realizados, con diff sacamos las diferencias entre el original y el nuestro, obteniendo la representaci�n de los cambios que introdujimos, o sea, nuestro preciado changeset.

Sobre esta base se puede construir mucho m�s de lo que parece, dado que podemos ir guardando dichos changesets y armar la historia tal como describimos arriba. Esto tiene ciertas propiedades muy particulares que lo hacen extremadamente flexible y �til para muchas formas de trabajo, pero requiere un esfuerzo importante porque hay que hacer mucho de forma manual.

Sistemas para la administraci�n de c�digo fuente

Ahora que vimos como hacer para obtener los changesets de los que estuvimos hablando, dijimos que un tema muy importante era poder manejarlos y administrarlos: para esto (entre otras cosas) es por lo que surgen los sistemas por los cuales est�n uds. leyendo esto y nosotros escribi�ndolo: los sistemas de administraci�n de c�digo fuente.

Antes de seguir, un peque�o par�ntesis importante: hay much�simas formas de llamar a estos sistemas, ninguna demasiado convincente. Una que vamos a usar mucho, que es de las m�s usadas, es "SCM", que algunos claman que es "software configuration management", otros "source control management", y otros "source code management". Saber quien tiene raz�n es tema para un historiador, nosotros vamos a hacernos los zonzos y pretender que es una sigla que tiene sentido. Tambi�n le suelen decir "Sistemas de control de versiones" o VCS; o CMS (Code Management System o algo por el estilo) pero es m�s inusual. Esta �ltima sigla en particular, es una p�sima elecci�n porque hay otro tipo de sistema muy conocido de esta manera (los Content Management Systems) que NADA tiene que ver con el manejo de c�digo.

Entonces, volvamos a estas herramientas: su objetivo es administrar el c�digo fuente y su evoluci�n, de una forma u otra ir grabando ese proceso, y presentar al usuario esa informaci�n de forma �til y pr�ctica.

Para entenderlas bien, vamos a presentar un poco los conceptos m�s importantes que acarrean, y c�mo interact�an las distintas cosas entre s�.

Comencemos por uno muy b�sico y que no tiene nada de loco: llamamos repositorio a un conjunto compuesto por el c�digo fuente en un punto determinado del tiempo, y la historia asociada a �ste. Recordemos que vamos a pensar la historia de un c�digo fuente como un conjunto de changesets. Por lo tanto, un repositorio tiene, adem�s del estado del c�digo fuente actual, un conjunto ordenado (no necesariamente de forma cronol�gica) de cambios que se han realizado sobre el mismo para llevarlo a como esta ahora.

Conociendo los repositorios, entonces decimos que un changeset se "aplica" a un repositorio cuando se lo introduce ordenadamente, o sea, cuando sobre un repositorio en un estado A hacemos un cambio que lo lleva a B, el delta entre los dos estados es, como ya vimos, el changeset. A cada changeset, ahora que tenemos una herramienta para manejarlo, le podemos asociar informaci�n adicional, como el nombre del autor, la fecha en la cual se incorpor� a un repositorio, etc.

Manipulando repositorios

Ahora que mostramos m�s o menos las estructuras b�sicas que manejan los SCMs, veamos un poco qu� podemos hacer con ellas.

La operaci�n m�s b�sica sobre un repositorio se le suele llamar "branch", y en un principio es simplemente el acto de copiarlo, lo cual nos permite ir elaborando cambios en dos repositorios independientes que comparten la misma base. Hay muchos tipos y variaciones de branches, no son todas iguales y este concepto se ajusta seg�n como lo maneje cada herramienta en particular, aunque comparten esta misma esencia.

As�, podemos aplicar distintos changesets en cada repositorio de forma independiente. Para encontrar un ejemplo pr�ctico de esto no hay que irlo a buscar muy lejos: pensemos en cualquier trabajo grupal. Si tenemos un repositorio com�n, y nos dividimos las tareas entre dos compa�eros, ambos vamos a partir del mismo repositorio base pero a trabajar de forma independiente. En ese caso, cada uno tendr�a su repositorio que surge de hacer un branch de uno com�n.

Cuando los dos terminamos nuestro trabajo, queremos "integrar" los cambios de los dos de tal forma que nos quede un repositorio con el trabajo de ambos. Para esto elegimos uno base, y aplicamos los changesets que est�n en el otro para lograr una combinaci�n. Este acto de combinar dos repositorios se llama "merge", y como vimos consiste b�sicamente en incorporar en un repositorio los cambios que se produjeron en otro de forma independiente.

Veamos un ejemplo:

ARCHIVO BASE                              MERGE
============                              =====
La colina hay que subir,                  La colina hay que subir,
nada es sencillo aqu�,                    nada es sencillo aqu�,
y ante todo est� El Drag�n                y ante todo est� El Drag�n
Al Drag�n le gusta tirarse panza arriba   con su fuego intentar�
y ponerse a leer cuentos alegres          parar la construcci�n
mientras se rasca la barriga.             pero habr� una soluci�n
Cuando tiene mucha hambre                 Una flor un coraz�n,
busca bichitos de luz                     una porci�n de sol,
y se los come despacito.                  y estas ganas de vivir...


MODIFICACI�N 1                            MODIFICACI�N 2
==============                            ==============
La colina hay que subir,                  La colina hay que subir,
nada es sencillo aqu�,                    nada es sencillo aqu�,
y ante todo est� El Drag�n                y ante todo est� El Drag�n
con su fuego intentar�                    Al Drag�n le gusta tirarse panza arriba
parar la construcci�n                     y ponerse a leer cuentos alegres
pero habr� una soluci�n                   mientras se rasca la barriga.
Cuando tiene mucha hambre                 Una flor un coraz�n,
busca bichitos de luz                     una porci�n de sol,
y se los come despacito.                  y estas ganas de vivir...


DIFF DE MODIFICACI�N 2                    DIFF DE MODIFICACI�N 2
======================                    ======================
--- base      2005-05-17 13:16:10.0000    --- base      2005-05-17 13:16:10.0000
+++ archivo1  2005-05-17 13:16:39.0000    +++ archivo2  2005-05-17 13:16:57.0000
@@ -1,9 +1,9 @@                           @@ -4,7 +4,7 @@
 La colina hay que subir,                  Al Drag�n le gusta tirarse panza arriba
 nada es sencillo aqu�,                    y ponerse a leer cuentos alegres
 y ante todo est� El Drag�n                mientras se rasca la barriga.
-Al Drag�n le gusta tirarse panza arriba  -Cuando tiene mucha hambre
-y ponerse a leer cuentos alegres         -busca bichitos de luz
-mientras se rasca la barriga.            -y se los come despacito.
+con su fuego intentar�                   +Una flor un coraz�n,
+parar la construcci�n                    +una porci�n de sol,
+pero habr� una soluci�n                  +y estas ganas de vivir...
 Cuando tiene mucha hambre
 busca bichitos de luz
 y se los come despacito.

(tambi�n se pueden ver los archivos por separado)

Cuando al hacer un merge vemos que dos changesets modifican las mismas partes de un archivo, decimos que hay un "conflicto". El manejo de conflictos es parte muy importante de cualquier SCM, no s�lo por la capacidad de resoluci�n sino por la capacidad de detectarlos: si un SCM no detecta un conflicto, puede introducir corrupci�n en el c�digo, cuyos resultados suelen ser problem�ticos.

Al detectarse un conflicto que el SCM no puede resolver de forma autom�tica, se informa al usuario y se espera que se resuelva a mano o con alguna de las herramientas dise�adas para asistir en la resoluci�n de estos problemas.

Afortunadamente, la mayor�a de los SCMs modernos se enfocan much�simo en este problema y poseen muy buenos algoritmos de detecci�n y resoluci�n de conflictos. Al final, en los ejemplos m�s pr�cticos, veremos casos reales de conflictos y como resolverlos.

Historia de un repositorio

Hace un rato hablamos de la importancia de tener la historia de la evoluci�n del c�digo, cosa que ahora tenemos representada en un repositorio como un conjunto de changesets. Esto nos permite manipularlos de forma muy c�moda, no solo para poder leerlos, sino tambi�n vimos que podemos hacer merges entre dos repositorios y unir dos repositorios que, en base a un ancestro com�n, evolucionaron de forma independiente.

Esta capacidad resulta muy �til en muchos casos, tanto que vamos a hablar un rato al respecto y mostrar algunos de ellos.

En principio, una ventaja importante es el poder revisar lo que hizo otro de forma clara y contenida, concentr�ndonos s�lo en los cambios introducidos y no en el c�digo preexistente. Esto es �til en muchos casos distintos, desde en un grupo jer�rquico en donde haya gente encargada de revisar y dar vistos buenos a c�digos de sus subordinados, en grupos en donde se d� la revisi�n entre pares, o la colaboraci�n, que suele ser moneda corriente (pensemos en el caso de "esto no me sale, me ayudas?" o "que te parece esto?") en cualquier grupo humano bien integrado. Nos permite compartir experiencia con nuestros compa�eros, permitiendo que otros vean las soluciones que les dimos a problemas que surgieron en el pasado y pudiendo aprender de ellas.

Otra aplicaci�n muy �til, y que se utiliza frecuentemente en proyectos opensource, es el usar el historial de changesets para ubicar que cambio introdujo un bug. Si conocemos una versi�n que no tiene un bug y otra que s�, podemos ir buscando hasta encontrar qu� changeset fue el que introdujo el bug, haciendo m�s f�cil la comprensi�n del mismo y su posterior arreglo.

Tambi�n es posible combinar esto con tests de regresi�n, de forma tal que, usando un mecanismo similar al descripto reci�n para los bugs, cuando notamos que falla alg�n test, podemos ubicar qu� cambio fue el que hizo que comience a fallar. Inclusive algunos SCMs incorporan funcionalidad para realizar este tipo de operaciones de forma autom�tica.

Tener este tipo de informaci�n tambi�n nos puede resultar �til para saber a quien referirse acerca de una pieza de c�digo en particular: podemos ver quien fue el que introdujo o modifico ciertas l�neas de c�digo, y as� saber a quien recurrir en caso de problemas o necesitar consejo sobre las mismas. Esto es especialmente importante en proyectos grandes o de larga vida en la cual es probable que los desarrolladores originales hayan dejado el proyecto para concentrarse en otras cosas y para el grupo que queda a cargo suele ser importante saber a quien recurrir.

Pero quiz�s la utilidad m�s importante de todas no provenga de la informaci�n misma, sino de la forma en la que se genera: el hecho de que nosotros tengamos que pensar en changesets nos ayuda a trabajar de forma m�s ordenada y prolija, concentr�ndonos en un problema a la vez y atac�ndolo sin mezclar las cosas, correspondi�ndose con la forma de pensarlo abstractamente.

Es por esto que estas herramientas no son simples ayudas t�cnicas: afectan nuestra forma de crear software, y deben acompa�ar y ajustarse a la manera en la que concebimos y desarrollamos el software.

Dos formas de ver a los SCMs

Todo lo que hablamos hasta ahora lo vimos de una forma relativamente general, pero hay muchas cosas que al llevarlas a la pr�ctica se pueden abordar de formas distintas, y que implican formas distintas de trabajar.

Existen dos "paradigmas" (a todo el mundo le encanta esa palabra, no? Se sienten re importantes sabiendo lo que quiere decir =) para el funcionamiento de los SCMs: centralizados y distribuidos.

Aclaremos que el concepto de distribuido no es el que se suele usar en algunos �mbitos como "algo que usa la red", sino el que se suele usar m�s com�nmente (o m�s correctamente), que significa que no existe un punto central, sino que las cosas est�n repartidas de forma m�s o menos horizontal. Algo as� como la diferencia entre peer-to-peer y cliente-servidor.

SCMs centralizados

Los SCMs centralizados, como es de suponerse, se basan en un repositorio �nico central con todas las letras (es decir, que guarda la historia de changesets), al que todos los desarrolladores se conectan para reportar cambios (aplicar changesets). Por otro lado aparece el concepto de lo que se conoce como "working copy" (WC), que podr�a pensarse, seg�n lo visto anteriormente, como un branch muy particular, que no tiene historia (m�s all� de que algunos SCM le ponen algo de historia para facilitar algunas operaciones offline).

Al haber un s�lo repositorio, �ste debe ser el encargado de manejar los branches, quedando todos dentro de �ste. Es decir, en un mismo repositorio tengo 2 (o m�s) caminos evolutivos distintos del mismo programa. La forma en que se implementa esto, var�a de SCM en SCM, pero el concepto general se mantiene.

A diferencia de los SCM distribuidos (que son algo as� como el caso m�s general), los SCM centralizados suelen basarse en una l�nea de tiempo. Es decir, los cambios guardan una dependencia lineal en el tiempo, o sea que para obtener un changeset X, debo obtener, en orden cronol�gico, todos los changesets que se han aplicado anteriormente.

Otra cosa a tener en cuenta a la hora de elegir un SCM es que los centralizados, al ser naturalmente cliente-servidor, necesitan un servidor (que probablemente est� prendido todo el tiempo y con conexi�n permanente) y que debe ser configurado, con alg�n sistema de autenticaci�n y permisos. Es decir, la configuraci�n puede ser algo m�s compleja, claro que todo depende de qu� necesitemos hacer. La configuraci�n puede ser tan simple o compleja como queramos dependiendo del uso que vamos a darle (por lo general hacer un repositorio local es trivial).

Otra "contra" que acarrea su naturaleza cliente-servidor, es que, generalmente, todas las operaciones del SCM son online (es decir, requieren conexi�n con el servidor). Por ejemplo para ver la historia del repositorio, para obtener un chageset determinado, para aplicar un changeset, etc.

Generalmente hay 2 tipos de SCM centralizados, los que usan el modelo Lock-Modify-Unlock y los que usan el modelo Copy-Modify-Merge. El primero es el m�s simple y limitado, y consiste en que cada vez que un usuario quiere modificar un archivo, este archivo se "lockea" y no puede ser modificado por nadie m�s hasta que este usuario termine de editarlo. Este modelo, adem�s de ser muy limitado e inc�modo, rompe bastante el concepto de changeset, ya que los cambios est�n centrados en archivos y en cambios al repositorio como un todo. El segundo modelo propone lo siguiente: se hace una copia del estado actual del repositorio (ser�a nuestra WC), se modifica y se aplica el changeset al repositorio central haciendo un merge. Cualquier SCM m�nimamente serio ofrece esta forma de trabajo.

SCMs distribuidos

La caracter�stica mas importante de un SCM distribuido, como su nombre lo indica, es que no existe un punto central de desarrollo sino que los repositorios est�n distribuidos y descentralizados en diversas maquinas que pueden o no ser independientes entre si, y t�cnicamente no hay ninguno mas importante que otro. Esto trae bastantes beneficios al momento de desarrollar, dado que el modo de trabajo suele ser que cada desarrollador tenga su repositorio propio sobre el cual trabaje de forma independiente, y peri�dicamente se pongan en com�n los trabajos de todos en alg�n repositorio convenido a tal efecto.

Esa puesta en com�n se realiza mediante la incorporaci�n a un repositorio de los changesets de otro, con lo que vemos que esta operaci�n (que es una generalizaci�n de un merge, y as� nos vamos a referir a ella) toma especial importancia dado que no solo se realiza de forma frecuente, sino que es imprescindible para el funcionamiento del sistema. Es por esto que los SCMs distribuidos ponen especial �nfasis en el modo en el que realizan estas operaciones, y suele ser una de las caracter�sticas mas importantes que los diferencian entre si.

Los changesets que forman parte un repositorio no necesariamente deben estar dispuestos de forma cronol�gica, si bien muchos sistemas trabajan de esta forma, existen algunos que lo hacen de manera distinta, bas�ndose en la relaci�n entre los changesets para este fin.

Hay varios SCMs distribuidos, �ltimamente han surgido varios, algunos ejemplos son Darcs, Arch, Monotone, Codeville y Bitkeeper.

Caso de estudio de SCM Centralizado: Subversion

Una de las principales caracter�sticas de subversion, es que fue pensado como un reemplazo natural a CVS, por lo que es una excelente transici�n si se quiere pasar de CVS a otro SCM un poco m�s serio o incluso si se quiere seguir trabajando con un modelo centralizado, ya que soluciona la mayor�a de sus problemas t�cnicos y conceptuales.

Subversion usa el modelo Copy-Modify-Merge y trata siempre de optimizar el uso de ancho de banda y de hacer todas las operaciones posible sin necesidad de conexi�n. Esto lo hace simplemente guardando una copia intacta del estado del repositorio y otra para que modifiquemos (algo as� como guardar un pedacito de historia). De esta manera, hay algunas operaciones que pueden hacerse offline. Entre ellas, la m�s importante es el diff, ya que de esta manera puede enviar al servidor solamente el changeset (otros SCM m�s viejitos, CVS incluido, tienen que mandar los archivos modificados enteros y hacer el diff en el servidor). Es decir, el uso de ancho de banda en subversion al aplicar un changeset es proporcional al tama�o de los cambios y no de los archivos enteros, como pasa en otros SCMs.

Otro concepto muy fuerte en Subversion, es que es un filesystem versionado. Es decir, un sistema de archivo (conjunto organizado jer�rquicamente de directorios y archivos, y sus contenidos, por supuesto). Es por esto que provee las operaciones comunes de cualquier filesystem (crear un directorio, copiar un archivo, mover un archivo, borrar un archivo, etc), con algunas particularidades. Como subversion piensa a los repositorios como una l�nea de tiempo, la hacer una copia de un archivo A a B, en realidad no se copia el archivo sino que se dice que el archivo copiado B es una bifurcaci�n en la l�nea de tiempo del archivo A. Es decir:

 ARCHIVO A
 =========
     |
 Revisi�n 1
     |
 Revisi�n 2 ------- ARCHIVO B
     |              =========
 Revisi�n 3             |
     |                  |
     |              Revisi�n 4
     |                  |

Es decir, la historia del archivo B, ser� su historia propia m�s la historia del archivo A hasta la revisi�n 2. Las revisiones ser�an los changesets que se fueron aplicando al repositorio (que como son cronol�gicamente ordenados, se numeran secuencialmente).

A esta caracter�stica se la llama "cheap copy" (copia barata) y es la manera en la que subversion implementa los branches. Es decir, sup�nganse que en vez de ser archivos son directorios, lo que tenemos son 2 evoluciones distintas de la misma base de c�digo. Por supuesto en un determinado momento podemos aplicar los changesets de un branch en el otro a trav�s de un merge.

Ahora, si los branches se almacenan en el repositorio como simples directorios, es necesario tener una estructura particular en �l, que nos permita ubicar f�cilmente distintos branches de un proyecto, o su l�nea de desarrollo principal, etc. Lo que propone el manual, y uno de los esquemas m�s utilizados, es crear 3 directorios en la ra�z del repositorio apenas se lo crea, llamados 'trunk' (l�nea principal de desarrollo), 'branches' y 'tags' (tag es un nombre utilizado generalmente para indicar un estado significativo del repositorio, en general realeases). De esta forma, hacer un branch ser�a tan simple como copiar 'trunk' a 'branches/mi_branch' para crear el branch 'mi_branch'.

Un par de caracter�sticas agradables de subversion, que no tiene demasiado que ver con la teor�a que estuvimos introduciendo, son la alta disponibilidad de clientes (hay para todos los gustos y OSs, tanto de consola como gr�ficos) y las propiedades. Estas �ltimas son metainformaci�n arbitraria o con significado especial que se asocia a un archivo o directorio. A trav�s de estas propiedades subversion maneja algunas cosas interesantes, como el tipo de fin de l�nea, si es un archivo binario y de qu� tipo (para utilizar la herramienta de diff correcta), si es ejecutable, etc. Con respecto a los clientes, s�lo voy a decir que nosotros nos centraremos en el cliente "oficial" llamado svn, que es un cliente de consola multiplataforma (la gente que use WIN32 tal vez quiera darle una mirada a Tortoise, un cliente gr�fico que se integra con el shell).

Caso de estudio de SCM Distribuido: Darcs

Darcs es un SCM distribuido relativamente nuevo, creado por un f�sico que desarroll� una teor�a muy interesante y novedosa acerca de como manipular los changesets, que es la base de su funcionamiento.

Otro de sus puntos mas fuertes desde el punto de vista del usuario, es la simplicidad y naturalidad de los comandos. Es muy f�cil e intuitivo de usar, y uno le "toma la mano" bastante r�pido, cosa que no es com�n en este tipo de sistemas, y que hace que usarlo no incomode.

Una caracter�stica importante es que todas las copias de un repositorio son repositorios en si mismos, totalmente funcionales, lo que facilita notablemente el trabajo con m�ltiples repositorios, la creaci�n de repositorios temporarios para desarrollar cosas nuevas, y la publicaci�n de estos, no necesitando un server especial sino que se utiliza cualquier servidor web. Tambi�n posee una muy buena integraci�n con el email, lo que facilita el env�o de changesets por dicho medio cuando se lo prefiera.

La aplicaci�n esta escrita en Haskell, un lenguaje funcional, y es portable por lo que funciona tanto en Linux como en cualquier otro pariente de UNIX (incluyendo MacOS X) y en Windows.

Ejemplos pr�cticos

Los ejemplos pr�cticos est�n separados seg�n el caso de estudio de SCM distribu�do (darcs) o centralizado (subversion).

Darcs

Subversion

Se recomiendo ver los ejemplos de darcs antes, ya que se hacen algunas referencias a ellos.

Montando un repositorio p�blico con darcs

Una de las ventajas de darcs es que se puede crear un repositorio p�blico en cualquier servidor que provea acceso por HTTP. En el documento sobre como montar un repositorio p�blico en aleph se explica el caso puntual para el servidor p�blico de la Facultad, pero puede ser trivialmente adaptado para montar un repositorio en cualquier otro servidor de caracter�sticas similares.

Introducci�n a los sistemas de control de versiones

Tabla de contenido

Pr�logo

El proceso de desarrollo de software

Grupos de trabajo

Capacidad de revisi�n

diff + patch

Sistemas para la administraci�n de c�digo fuente

Manipulando repositorios

Historia de un repositorio

Dos formas de ver a los SCMs

SCMs centralizados

SCMs distribuidos

Caso de estudio de SCM Centralizado: Subversion

Caso de estudio de SCM Distribuido: Darcs

Ejemplos pr�cticos

Darcs

Subversion

Montando un repositorio p�blico con darcs

Links �tiles

Subversion

Darcs